元数据管理涉及到数据仓库构造、运行、维护的整个生命周期,是企业级数据仓库构建过程中十分重要的一环。
元数据就是关于数据的数据,是企业数据仓库的数据地图,记录数据从业务系统到数据仓库的整个过程,并记录数据仓库使用过程的信息。
元数据在数据仓库的创建和维护时,都可以发挥作用。在定义元数据时,应该先完成最了解的部分,最后才为数据仓库里的每一对象类型定义元数据。元数据细化了数据结构及数据间的关系(从数据库视图,或是事务规则和数据流描述的结果)。还应该记载别名、代码表、缺省值、完成途径、数值单位(美元或英镑)、算法和及它相关信息,形成元数据知识库
由于元数据涉及到数据仓库项目建设全过程以及使用过程,如果将所有元数据都纳入元数据管理,将会造成数据仓库项目的建设周期过长。根据我们建设数据仓库项目经验,认为数据仓库建设应该遵循“统一规划,分步开展”的原则,建议经营分析系统的元数据管理应该先构造一个最小最实用集合的元数据。我们建议在以下过程中进行元数据管理:
1、业务数据源分析
分析业务系统数据来源、数据表、数据结构、数据类型;
制定数据接口策略;
制定数据接口格式。
2、目标数据仓库设计(概念模型、逻辑模型、物理模型设计)
概念模型主题域及主题域之间的联系,包括主题域属性、数据结构、数据类型;
逻辑模型主题域及主题域之间的联系,包括主题域属性、数据结构、数据类型,以及数据表的划分、数据粒度层次划分并确定数据源;
物理模型表及关系、存储结构、索引策略、数据存放位置以及存储分配、与数据来源对应关系。
3、数据获取调度及监控设计
数据接口调度及执行策略;
ETL调度及执行策略。其中包括ETL执行程序运行时间、周期、顺序以及相互依赖关系;
ETL过程从数据源到目标数据的转换关系;
ETL信息传递机制。
4、数据仓库、数据集市存储
数据仓库中数据内容、结构、类型以及数据之间的关系;
数据仓库中各数据指标的当前有效期限,即数据的 更新或装载日期、时间,以及数据仓库中现存最早记录的时间;
数据仓库中各层次汇总的情况,数据量缩减比例,更新或同步的时间;
数据仓库中数据质量监控体系,哪些数据内容不详的比例高,哪些数据缺失等。
5、展示设计
多维模型的描述信息,其中包括:多维立方体的数目、每个立方体的维、维的各个层次、数据项的类型以及计算统计特征;
多维立方体与关系型数据仓库的对应关系;
多维数据库从关系数据仓库的装载调度、控制;
预定义的各种多维查询模式、固定使用的条件对象;
6、记录数据仓库的使用情况
各个分析主题的访问控制,分组授权管理;
对数据仓库和数据集市的各个部分的访问统计访问的频率;
用户方的统计情况,作为数据仓库性能优化的主要依据。
对于元数据管理,当前市场上有许多这方面的工具。基于以上的元数据设计评估元数据管理工具,和以下元数据管理工具必须满足的基本要求,我们建议选用IBM DB2 Warehouse Manager的元数据管理功能:
1、支持数据库设计工具的逻辑数据模型加载
2、支持对应数据库引擎的物理数据模型的加载
3、可以提供有效的方法加载ETL脚本及其商业规则
4、支持开放的标准:COM、XML、C++
5、为用户提供了方便、易用、功能完备的浏览、查询功能 6、不依赖于其他关系数据库
7、提供了安全控制