第七章-多媒体信息检索
基于内容的多媒体数据检索
从媒体数据中提取特定的信息进行检索,再根据这些线索从存储在数据库中的大量媒体进行查找,检索出具有相似特征的媒体数据。
基于内容的检索(Content-based Retrieval,CBR),根据媒体的语义和上下文联系进行检索。
- 从多媒体数据中提取信息线索。
- 近似匹配。
- 大数据库的快速检索。
- 多种检索手段。
1.1 基于内容的图像检索(CBIR)
输入一张图片,查找出相同或者相似的图片。(例如百度识图)。
基本思想:使用图像的颜色、纹理、布局进行分析和检索。
以图搜图
哈希
将任意长度的输入通过Hash函数映射成固定长度的输出。
原始数据映射后的二进制串就是哈希值,通过对图像进行Hash编码,不仅能实现时间上的高效(基于XOR操作的快速计算)还能实现存储上的高效(基于位存储的紧致表达)。
好的Hash函数一般要求原始相近的数据其哈希编码也要尽可能的相近,而当原始数据发生变化时其Hash编码的差异也要尽可能的大,同时还能抵御各种攻击以保护原始数据。
1.2 基于内容的视频检索
视频的层次结构
视频可由场景,镜头,帧,对象等语义信息进行描述。
视频镜头切边和过渡检测
关键帧选取和视频摘要
MPEG-7视频内容标准
MPEG-7 的产生是为了解决上述问题,其重点在于影音内容的描述 和定义,以有弹性、具延伸性、多层次及明确的数据结构和语法来 定义影音数据的内容,经由 MPEG-7 的定义格式,使用者可以有效 率地搜寻、过滤和定义想要的影音数据。
MPEG-7:基于信息内容的搜索引擎
MPEG-7是属于信息方面的检索和搜寻,而所谓信息,则可以是影像
或音乐;换句话说,MPEG-7在本质上来说就是我们常常在网上使用
的搜索引擎,只不过它提供的是多媒体的信息查询服务。
MPEG-7中的主要概念
数据(Data) 是用MPEG-7描述的视听资料,不考虑它们的存储、编码、显示、传输、媒介或技术。
特征(Feature) 指数据的特性。特征本身不能比较,而要用有意义的特征表示(描述子)和它的实例(描述值)
描述子(Descriptor,D) 是特征的表示。它定义特征表示的句法和语义,可以赋予描述值。
描述值(Descriptor Value) 是描述子的实例。
描述模式(Description Scheme,DS) 说明其成员之间的关系结构和语义。
描述(Description) 一个描述由一个描述模式(结构)和一组描述值组成。 编码的描述(Coded Description) 是对已完成编码的描述,满足诸如压缩效率、差错恢复和随机存取的相关要求。
描述定义语言(Description Definition Language,DDL) 是一种允许产生新的描述模式和描述子的语言,允许扩展和修改现有的描述机制。
MPEG-7是针对存储形式(在线、脱机)或流形式(如 Internet上的广播、推拉模型)的应用而制定
的,并且可以在实时和非实时环境中操作。一个实时环境意味着当采集资料时,信息是与内容相
关的。
下图是MPEG-7处理过程的一种高度抽象示意图,用于解释MPEG-7的范围。它包括特征抽取(分 析)、描述本身和搜索引擎(应用)。
1.3 基于内容的音频检索
音频检索系统分为两种类型:原音检索和模糊检索;
根据对音频媒体的划分,音频信息检索分为以下三种:
基于语音技术的检索:以语音为中心的检索,主要采用语音识别等技术,如电台节目、电
话交流、会议录音等。
音频检索:以波形声音为对象的检索。
音乐检索:以音乐为中心的检索,利用音乐的音符和旋律等音乐特性来检索,如检索乐器、
声乐作品等。
跨媒体检索的目标是计算不同媒体数据间的相似度,对于给定的查询样例,检索出 与查询样例相关的不同媒体数据。关键挑战在于不同媒体的表示形式不一致,难以 进行直接的相似性度量,即“媒体鸿沟”问题。两种主要的跨媒体检索方法:共同 空间学习方法和跨媒体相似性度量方法。