传统的数据库管理系统在处理结构化的数据:如文字、数值等信息方面取得了很大成功。然而在很多应用领域,如CAI课件、办公室自动化、诊断医疗管理系统、图书馆和博物馆管理系统、计算机辅助设计及地理信息系统等,由于这些应用包含了多种媒体数据和非结构化数据,传统的数据库管理系统就显得有些力不从心。 ① 多媒体数据库的研究途径 目前多媒体数据库的研究主要有以下三条途径: a 在现有商用数据库管理系统的基础上增加接口,以满足多媒体应用的需要; b 建立基于一种或几种应用的专用多媒体信息管理系统; c 从数据模型入手,研究全新的通用多媒体数据库管理系统。 第一种途径实用,但是效率很低;第二种途径易于实现,但缺乏通用性,而且可扩展性差;第三种途径是研究和发展的主流,但是具有相当的难度。 ② 多媒体数据库要解决的关键技术问题: 研究开发多媒体数据库要解决的关键技术问题: a 多媒体数据模型 多媒体数据模型主要采用关系数据模型的扩充和采用面向对象的设计方法。由于用传统的关系模型难以描述多媒体信息和定义对多媒体数据对象的操作,目前在关系模型扩充方面除了引入抽象数据类型外,较多的采用语义模型的方法。关系模型主要描述数据的结构,而语义模型则主要表达数据的语义,语义模型的层次高于关系模型,后者可以作为前者的基础。目前的研究表明,采用面向对象的方法来描述和建立多媒体数据模型是较好的方法,面向对象的主要概念包括对象、类、方法、消息、封装和继承等,可以方便地描述复杂的多媒体信息。 b 数据的压缩和解压缩 由于多媒体数据,如声音、图像及视频等数据量大,存贮和传输需要很大的空间和时间,因此必须考虑对数据进行压缩编码,压缩方法要考虑到复杂性,实现速度及压缩质量等问题。 c 多媒体数据的存贮管理和存取方法 目前常用的有分页管理、B+树 和Hash方法等。在多媒体数据库中还要引入基于内容的检索方法、矢量空间模型信息索引检索技术、超位检索技术及智能索引技术等。 d 多媒体信息的再现及良好的用户界面 在多媒体数据库中应提供多媒体宿主语言调用,还应提供对声音、图像、图形和动态视频的各种编辑和变换功能。 e 分布式技术 多媒体数据通信对网络带宽有较高的要求,需要相应的高速网络,此外还要解决数据集成、异构多媒体数据语言查询、调度和共享等问题。 由于研究多媒体数据库在理论上和实践上都存在较大困难,因此国内外目前研制开发许多商品化的系统都只能称作为多媒体信息管理系统,因为它们具备了管理多种媒体的能力,但离理想的多媒体数据库还有一定差距。多媒体数据库不只是具有存贮管理多媒体信息的能力,而应该能把多种媒体统一起来,支持对各种媒体信息的语义查询和检索。 清华大学计算机科学与技术系结合国家863高技术研究发展项目"Web上基于内容的图像检索"的研究,于1997年研制了一个Internet上的静态图像的基于内容检索的原型系统。该项目的研究目标是开发能在Internet/Intranet环境下,通过友好的人-机界面,以颜色、纹理等图像特征或样本图像检索图像的方法和工具。目前该系统对12000张景物照片图像的高维特征建立了GSS-索引,采用Java语言来实现人机交互模块,通过浏览器为检索用户提供一个友好的人机交互界面,得到的检索请求转换为CbExpr检索表达提交给检索引擎进行处理。与网络所造成的延时相比,检索时间基本上可以忽略,表现出了相当好的实时性。 清华大学研制的多媒体数据库基于内容检索系统的界面如下图所示。 ![]() 友好的人机交互界面是一个成功检索系统不可缺少的条件,它可以大大提高检索的效率。在基于内容检索中,由于特征值为高维向量,不具有直观性,因此必须为其提供一个可视化的输入手段。目前采用的特征包括主颜色、颜色直方图、纹理分布、草图等7种,根据特征的种类不同,采用了两种特征输入手段: ·操纵交互输入方式 适用于具有较强操纵性的特征。在这种方式中,用户可通过操纵工具来调整特征值,而特征值的变化直接向用户体现出来。通过这种方式,用户可得到想要的特征值,并提交来构成检索表达。如通过滑动条来调节主颜色,通过画笔来给出颜色直方图构成和颜色分布等。 ·模板选择输入方式 有一些特征难以对其进行操纵和调节(如纹理),因此也难以通过操纵交互输入方式来进行特征输入。针对这类特征,我们提供一组在特征空间种具有代表性的特征模板,用户可通过选择与检索特征最接近的模板来完成特征值的输入。 同时还在研究实现下述特征输入手段: ·浏览检索 系统提供一组对象,用户从中选择于检索目标最接近的对象。系统根据用户的选择再给出一组对象供用户进一步选择。如此往复,直到检索完毕。 ·样本检索 即由用户提交一幅图像,系统检索图像库中与此图像相似的一组图像。 系统的界面模块分别实现了七种特征的前端处理界面,即主颜色、纹理、色调直方图、轮廓、颜色分布、彩色直方图和主题。 界面结构分为三部分组成: ·检索特征预览 全部提供了七种特征,在任意时候只显示其中三个(如上面的界面图所示),用户可用鼠标拖动下面的滑动条以显示别的特征的当前查询值。对每一种特征,都有相应的特征名、使能选中框和权重滚动条(滚动条前面的编辑框显示当前的权重值,也可以直接键入)。用户必须选中该特征的使能框,权重滑动条和对应的特征输入区才可用。在该特征使能时,鼠标单击这一区域即可激活对应的特征输入模块。 ·检索控制参数 用户可以选择三种单特征查询组合方式:与、或、权重调节中的一种。它们直接影响对单特征查询结果集的处理: 最大返回结果数--由于图像检索是近似检索,所以查询结果一般都不止一个,我们将满足条件的图片按其相似度从大到小排序,返回前面的若干个。我们规定其合法值是16到100。 最小相似度--图片库中的任意图片与查询条件的相似度在区间[0,1]上,所以应该预定一个阈值,相似度大于它的图片才认为满足条件。在界面上,用户可以输入0到100之间的一个整数。 检索精度。即epsilon,合法值是0到100。在后台处理时,将它映射到[0,1]区间内。 ·特征输入区(工作区) 基于内容的图像检索的查询条件提交方式不同于传统的文本检索,针对每一种特征都应设计特定的交互方式。 提交特征分析 ·主颜色( Dominating Color ) 主颜色就是图片中占较大比重的颜色。在图像处理中,主颜色的提取过程是:将图像的各点颜色值( 一般是RGB值 )量化到16*16*16的区间内,然后对图像的点聚类。如果某聚类颜色的像素点占图像全部像素的20%以上,就认为该聚类中心颜色是该图的主颜色。所以,一幅图片的主颜色可能不止一种。 下图为主颜色分别为红、绿、蓝时的检索结果: ![]() ![]() ![]() ·纹理 ( Texture ) 纹理特征适用于墙纸、布匹等具有简单、重复性的图案的检索。它的提取是用Gober算子分别从5个方向计算得到6个值,总共30个坐标。对纹理而言,如果用户没有一定的美术基础,很难直接用绘画的方式提交数据,因此采用了预定义的模板的方式,用户可以在特征输入区中浏览选择。目前提供了六个模板,以后还可以随时增减,这六个模板的选择是根据图像库中的常见纹理种类而定的。 根据图1的纹理,检索到的结果如图1-1所示 ![]() ![]() ·颜色分布 (Color Distribution ) 颜色分布是另外一个检索效果较好的特征。它同时表示了图像中颜色的值与位置属性,比较直观,在查询界面上以用户直接画图的方式提交数据。其工作区的外观和使用与色调直方图一样,但颜色分布特征的提取是这样的:将用户所绘制的图像分割成6*6个大小一样的"Icon",对每一个Icon中像素的R、G、B值分别求平均,这样得到了36个"平均像素值",其中即包含了位置的信息,又有颜色值的信息。最后,前端模块向服务器提交的是一个6*6*3=108维的向量。例如,用户想查询有"蓝天与大地"内容的图片,他可以简单地画出图2的一幅画,得到的结果如图2-1所示。可以看出,颜色分布特征的查询效果是比较好的。 ![]() 图2 ![]() 图2-1 轮廓 ( Sketch ) 在图像库中有很多图片的内容难以用颜色、位置、纹理来描述。比如想查询"画面分为上下两部分"的图像,用前面提到的特征无法方便地描述,可以用Sketch特征来描述画面中的各个部分的相对位置关系。提取特征的步骤是:先用颜色聚类的方法对画面进行划分,然后用中值滤波去掉噪声,得到若干均匀的颜色块( 称为 "Segment" )。接着,提取图像的边缘特征,得到一个二值图像,最后将它缩小为16*16的大小,取得一个256维的特征向量,其中每一维的值或为1或为0。对该特征的提交,我们仍采用了用户直接绘画的方式,因为它的变化多,语言表示不直观"工作区"类似于色调直方图,但是绘制的是黑白图像,并且基本构图元素是点、直线、矩形、椭圆、多边形等线状图形,而不是块状图形。数据的预处理方法是:将用户所画的图形分割成16*16个区域,对区域内的像素值进行统计,如果黑色像素的个数大于阈值,则认为该区域为黑色,否则认为是白色。这样,我们可以得到一个256维的查询特征值。作为例子,假设现在提交图3、图4、图5,得到的结果如图3-1、图4-1、图5-1所示。 ![]() 图3 ![]() 图3-1 ![]() 图4 ![]() 图4-1 ![]() 图5 ![]() 图5-1 |