新老数据类型的使用
字符数值型数据
字符数值型数据记录的是事物非常简单的属性(如人的性别),数值属性(如人数),或是高度抽象的属性(如事物的所属类别)。这种数据具有简单、规范的特点,因而易于管理。传统数据库主要是针对这种数据的,在多媒体数据库中仍然需要管理这一类数据。
文本数据
文本是最常见的媒体格式,各种书籍、文献、档案等无不是由文本媒体数据为主构成的。
在计算机内文本数据是由一个具有特定意义的字符串表示。字符串长短不一,给数据的存储和再现带来不便。自然语言理解技术的不成熟也使查询文本数据的难度加大。因此,许多通用型数据库系统根本就没有管理和使用文本媒体的有效手段。检索文本数据主要采用关键字检索和全文检索两种方法。关键字检索是在存储文本的同时,自动或手工生成能够反映该文本数据主题的关键字的集合,并将其存储在数据库中。检索时通过某些关键字的匹配找到所需的文本数据。全文检索方法可以根据文本数据中任何单词或者词组进行检索,检索是进行全文扫描。此外,大多数的实用系统使用文件直接存储文本系统,或把数据规范化成标准长度的字符串。在普通数据库中并不具备很强的文本数据管理能力。
声音数据
音乐数据在计算机里是由字符表示的,因而数据量小,对它的存储、查询可以当作文本处理。但计算机目前还无法模拟不同人的口音,以及人们讲话时的抑扬顿挫的语气。因而语音数据还是以数字化的波形数据为主,这样存储空间就比较大。语音识别技术还没有达到可以广泛应用的程度,这为语音数据的检索带来不利。目前,对语音数据的检索主要有两种方法,第一种是给语音数据人工附加属性描述或文字描述,例如我们可以给录音数据附上讲话人的姓名、讲话日期、讲话题目和主要内容等。之后,我们就可以用字符数据和文本数据的检索方法检索语音数据。第二种方法是浏览,把语音逐一播放出来,边听边判断所需查找的语音数据,这种方法最大的缺点是速度太慢。在具体应用中,一般是与第一种方法配合使用,由第一种方法缩小范围之后再进行浏览。
图形数据
图形数据的管理已经有一些成功的应用范例,例如地理信息系统、工业图纸管理系统、建筑CAD数据库等等。图形数据可以分解为点、线、弧等基本图形元素。描述图形数据的关键是要有可以描述层次结构的数据模型。对图形数据来说最大的问题是如何对数据进行表示。对图形数据的检索也是如此。一般来说,由于图形是用符号或特定的数据结构表示的,更接近于计算机的形式,还是易于管理的。但管理方法和检索使用需要有明确的应用背景。
图像数据
图像数据是指图式图像。图像数据在应用中出现的频率很高,也很有实用价值。图像数据库较早就有研究,已提出许多方法,包括属性描述法、特征提取、分割、纹理识别、颜色检索等等。特定于某一类应用的图像检索系统已经取得成功的经验,如指纹数据库、头像数据库等,但在多媒体数据库中将更强调对通用图像数据的管理和查询。
视频数据
动态视频数据要比刚才介绍的信息类型复杂得多,在管理上也存在新的问题。特别是由于引入了时间属性,对视频的管理还要在时间空间上进行。检索和查询的内容可以包括镜头、场景、内容等许多方面,这在传统数据库中是从来没有过的。对于基于时间的媒体来说,为了真实地再现就必须做到实时,而且需要考虑视频和动画与其它媒体的合成和同步。例如给一段视频加上一段字幕,字幕必须在适当的时候叠加到视频的适当位置上。再如给一段视频配音,声音与图像必须配合的恰到好处,合成和同步不仅是多媒体数据库管理的问题,它还涉及到通信、媒体表现、数据压缩等诸多方面。
[上一页] [下一页]
|