第七章-多媒体信息检索

基于内容的多媒体数据检索

从媒体数据中提取特定的信息进行检索，再根据这些线索从存储在数据库中的大量媒体进行查找，检索出具有相似特征的媒体数据。

基于内容的检索

基于内容的检索（Content-based Retrieval,CBR），根据媒体的语义和上下文联系进行检索。

从多媒体数据中提取信息线索。
近似匹配。
大数据库的快速检索。
多种检索手段。

1.1 基于内容的图像检索（CBIR）

输入一张图片，查找出相同或者相似的图片。（例如百度识图）。
基本思想：使用图像的颜色、纹理、布局进行分析和检索。

以图搜图

哈希
将任意长度的输入通过Hash函数映射成固定长度的输出。
原始数据映射后的二进制串就是哈希值，通过对图像进行Hash编码，不仅能实现时间上的高效（基于XOR操作的快速计算）还能实现存储上的高效（基于位存储的紧致表达)。
好的Hash函数一般要求原始相近的数据其哈希编码也要尽可能的相近，而当原始数据发生变化时其Hash编码的差异也要尽可能的大，同时还能抵御各种攻击以保护原始数据。

1.2 基于内容的视频检索

视频的层次结构
视频可由场景，镜头，帧，对象等语义信息进行描述。

视频镜头切边和过渡检测

关键帧选取和视频摘要

MPEG-7视频内容标准

MPEG-7概述

MPEG-7 的产生是为了解决上述问题，其重点在于影音内容的描述和定义，以有弹性、具延伸性、多层次及明确的数据结构和语法来定义影音数据的内容，经由 MPEG-7 的定义格式，使用者可以有效率地搜寻、过滤和定义想要的影音数据。

MPEG-7:基于信息内容的搜索引擎
MPEG-7是属于信息方面的检索和搜寻，而所谓信息，则可以是影像或音乐；换句话说，MPEG-7在本质上来说就是我们常常在网上使用的搜索引擎，只不过它提供的是多媒体的信息查询服务。

MPEG-7中的主要概念

数据(Data) 是用MPEG-7描述的视听资料，不考虑它们的存储、编码、显示、传输、媒介或技术。
特征(Feature) 指数据的特性。特征本身不能比较，而要用有意义的特征表示(描述子)和它的实例(描述值)
描述子(Descriptor，D) 是特征的表示。它定义特征表示的句法和语义，可以赋予描述值。
描述值(Descriptor Value) 是描述子的实例。
描述模式(Description Scheme，DS) 说明其成员之间的关系结构和语义。
描述(Description) 一个描述由一个描述模式(结构)和一组描述值组成。编码的描述(Coded Description) 是对已完成编码的描述，满足诸如压缩效率、差错恢复和随机存取的相关要求。
描述定义语言(Description Definition Language，DDL) 是一种允许产生新的描述模式和描述子的语言，允许扩展和修改现有的描述机制。

MPEG-7是针对存储形式(在线、脱机)或流形式(如 Internet上的广播、推拉模型)的应用而制定的，并且可以在实时和非实时环境中操作。一个实时环境意味着当采集资料时，信息是与内容相关的。
下图是MPEG-7处理过程的一种高度抽象示意图，用于解释MPEG-7的范围。它包括特征抽取(分析)、描述本身和搜索引擎(应用)。

1.3 基于内容的音频检索

音频检索系统分为两种类型：原音检索和模糊检索；  根据对音频媒体的划分，音频信息检索分为以下三种：
基于语音技术的检索：以语音为中心的检索，主要采用语音识别等技术，如电台节目、电话交流、会议录音等。
音频检索：以波形声音为对象的检索。
音乐检索：以音乐为中心的检索，利用音乐的音符和旋律等音乐特性来检索，如检索乐器、声乐作品等。

跨媒体搜索

跨媒体检索的目标是计算不同媒体数据间的相似度，对于给定的查询样例，检索出与查询样例相关的不同媒体数据。关键挑战在于不同媒体的表示形式不一致，难以进行直接的相似性度量，即“媒体鸿沟”问题。两种主要的跨媒体检索方法：共同空间学习方法和跨媒体相似性度量方法。

基于内容的多媒体数据检索​

1.1 基于内容的图像检索（CBIR）​

1.2 基于内容的视频检索​

MPEG-7视频内容标准​

1.3 基于内容的音频检索​

基于内容的多媒体数据检索

1.1 基于内容的图像检索（CBIR）

1.2 基于内容的视频检索

MPEG-7视频内容标准

1.3 基于内容的音频检索