所以数据仓库之父W.H.Inmon给数据仓库作出了如下定义:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制订过程。面向主题、集成、稳定和随时间变化是数据仓库四个最主要的特征。 数据仓库是面向主题的:它是与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领域。比如一个保险公司的数据仓库所组织的主题可能为:客户政策保险金索赔。而按应用来组织则可能是:汽车保险生命保险健康保险伤亡保险。我们可以看出,基于主题组织的数据被划分为各自独立的领域,每个领域有自己的逻辑内涵而不相交叉。而基于应用的数据组织则完全不同,它的数据只是为处理具体应用而组织在一起的。应用是客观世界既定的,它对于数据内容的划分未必适用于分析所需。 数据仓库是集成的:操作型数据与适合DSS分析的数据之间差别甚大。因此数据在进入数据仓库之前,必然要经过加工与集成。这一步实际是数据仓库建设中最关键、最复杂的一步。首先,要统一原始数据中所有矛盾之处,如字段的同名异义、异名同义,单位不统一,字长不一致等等。并且对将原始数据结构作一个从面向应用到面向主题的大转变。 数据仓库是稳定的:它反映的是历史数据的内容,而不是处理联机数据。因而,数据经集成进入数据库后是极少或根本不更新的。数据仓库是随时间变化的:首先,数据仓库内的数据时限要远远长于操作环境中的数据时限。前者一般在5-10年,而后者只有60-90天。数据仓库保存数据时限较长是为了适应DSS进行趋势分析的要求。其次,操作环境包含当前数据,即在存取一刹那是正确有效的数据。而数据仓库中的数据都是历史数据。最后,数据仓库数据的码键都包含时间项,从而标明该数据的历史时期。 |
||||||||||||||||||||||||