中国杰出数据库工程师评选陈述关于数据仓库的讨论

来源:百度文库 编辑:神马文学网 时间:2024/07/02 17:57:22
中国杰出数据库工程师评选陈述关于数据仓库的讨论 [Nirvana2000 发表于 2007-7-23 23:42:00]
王小刚:大家上午好!今天很荣幸有机会跟大家分享我在数据仓库建设方面的心得和体会。第一,数据库就是是为企业范围内建设统一的过程。第二,坚持持续数据资源改进。因为数据质量是数据的生命。像国外的的词语所说的一样,我们要在数据库建设中持续资源改进”。
第三,我们要处理海量数据,同时我们对数据库要求快速的数据装载和及时响应,在响应方面主要是合理使用索引技术、数据分割和汇总也能够提供响应。
第四,我们在数据仓库应用中要融入先进的管理思想和方法,比如说积分卡和模型,先进的管理方法和模型就能够提升应用价值提高客户的管理水平。
第五,直观有效的用户界面,比如说地图分析和仪表盘,这些用户界面有比较友好的表现方式可以为数据库的表现方式增色很多。
再有一点,经过五年对IT行业的服务经验,IT本身是一种提供信息服务,我们作为服务人员必须要有好的技术和专业的服务经审核态度,“态度决定一切”,如果我们做到时时为客户着想的话就会做好我们的项目。
主持人:谢谢,时间遵守的很好,下面有请评委老师对他进行提问。
罗老师:如何保证数据质量有没有量的要求?最近我看到有人写了一本书,好象是国家税务局写的,里面提出这样的概念叫做“零误差”,你认为从你的角度看来如何界定,一个系统的话数据的误差应该怎样来保证它算是比较科学的论述?
王晓刚:我觉得现在从目前我所在的行业是保险行业,处在初期阶段,当时的信息系统当时有很多种原因,数据的质量得不到保障,但这个项目我们做了很长的时间但数据还很难保证这个数据百分之百的准确,但给客户定了一个原则就是误差在5%之内。 罗老师:误差来源于什么地方?
王晓刚:客户的应用系统相对来说由于裸机关系可能不是很严格,我觉得数据的质量有些时间差,存积时间上有些不一致,还有统一口径方面额有些误差,当时的统计部门和销售部门可能他的关注点不一样,口径也不一致。
唐老师:有这么几个术语,数据仓库、操作数据存储、ODS、O SERVER(音译),你对这三个术语怎么理解?
王晓刚:我觉得数据仓库是核心的数据存储,包括原始的技术模型,会有汇总的应用。ODS在数据源和数据仓库之间是过度,ODS前边连接的是数据源,仓库可能会关注分析,大量的数据查询费用又比较高,ODS是一个过度,一方面适应数据源那边有很多数据装载,经过ODS处理之后,更方便的能把数据装载到数据仓库中。Server那边主要是做一些分析。
唐老师:数据仓库是这几年才发展起来的,以前只是数据库,你从你们的经验上来看是怎样过度过来的?因为原来都是数据库。 王晓刚:因为我在保险行业一直在做ODS,我们积累了很多数据,我们就需要把这些数据很好的利用起来来做一些用户支持等等这方面的应用,也要给市场一个快速反映。
唐老师:你怎么从原来的数据库怎样过度过来的?
王晓刚:当时过度是这样的,先过度核心业务系统,那时候做了集中的过度,我认为应该做分析,但当时没有做。那时候用的是ODS,现在用的是ORACLE。
主持人:有请段云峰进行三分钟的个人陈述。
段云峰:尊敬的各位专家各位同仁大家上午好!我的陈述主要包括几方面内容,有些东西可能会跳过去,首先做一下自我介绍,我是在北欧获得的博士学位,主要方向是做数据挖掘等方面。2001年进入中国移动通信集团公司,开始主持了分级是数据仓库,并给予该理论,到达今年6月份设备容量达到1416TB,数据容量达到842TB,自己是整个中国移动数据仓库项目的主管或者说项目负责。而且在相关媒体也出版过两本有关数据仓库方面的书籍,在做项目设计相关过程中考察过美国最大的无线运营商。我们在项目管理过程中都技术了相关的工作,组织调配等等相关的工作,完善了数据仓库的理论,填补了这方面的空白。(PPT)这是我出版的两本书。中国移动数据仓库有些东西我就不说了,现在的竞争越来越激烈了,一个是数据网越来越多,数据的转接性比较差,系统较多,数据资源呈现为“自助网”现象,在美国的情况最好的应该是沃尔玛,他的水平是很高的。在国内电信和金融都开始进行了数据仓库的相关工作,这是一个现实的历程。(PPT)这是我们设计的数据库两级结构。有关这个主题是在2001年比较早的时候提出来的,整个中国移动创新点有如上(PPT)10多条。因为中国移动现在已经是最大的电信运营商,数据规模肯定要超过这些行业以及其他行业。在这里我们建立一个最大的数据库仓库,建立了统一的交换平台。设计了国际上第一个符合CWM标准的海量移动通信数据仓库元数据管理模型。实现了面向海量数据仓库全过程的数据质量管理体系。进行了有关的闭环处理,流程方面的结合。对于PMML的统一数据挖掘模型建模技术。提出了基于XML的导构系统统一接口技术。实现了面向海量、复杂、异构混淆的动态、增量式的数据抽取。(PPT)这是有关应用的一些内容,中国移动目前约3亿用户,年营业额约2400亿人民币。中国移动作为中国移动的工程建设带动了一批经营上的水平,同步了国内的很多空白。经验总结,首先说难点,我刚才说这么大的数据量在国际上是首创的,我们采用了分级数据的理论,应用方面引用了报表相当于完整的一套应用体系,我们提出了有机结合建立结构,还有标准化问题,中国移动前后做了大量工作。数据质量这方面我们在元数据的基础上建立了一个数据质量的管理体系。人才方面现在是特别缺点的问题,因为现在国内刚才专家也提到,数据库方面人才及其缺乏,我们现在加大培训。项目经验有几个内容,数据仓库涉及到很多的感觉问题,质量十分重要,涉及多个方面,有必要加强对数据仓库领域的理论问题研究,数据仓库的数据标准化问题十分关键。(PPT)这是有关材料和相关证书,感谢专家指导!
罗老师:刚刚你介绍内容很丰富,光创新点就11个,当然在数据仓库建设中有一些经验和理论,我想问在中国现实情况下你刚才提到的难点和困难,你认为在技术上的难点和其他的什么因素,在这方面有没有什么可说和介绍的东西,讲完了好的东西还不足,因为建立一个大的系统毕竟不是很容易的。
段云峰:应该说是超大型系统,在建设过程中技术是第一个问题,尤其在数据仓库问题上,还有管理问题,还有数据质量问题,诸多问题实际上最后是在数据仓库中暴露出来的,如果要解决要保持联后联动,实际情况也是这样,在前期阶段,系统变更了而后面变成机制,这是一个简单的例子。第二,就是管理流程,流程应该说在数据仓库摸索这么多年最为突出的问题,理论上数据库建设是要打破现有的流程,这是公司高层需要理解到的。第三,是应用,在数据仓库中应该说是刚刚起步,在国外看了一下他的应用也不是像我们原来想象的那么丰富。在国内建这种大型项目或者说数据仓库项目不足点,我觉得一个是技术方面,和人才及其缺乏,从我们做的过程,举个例子,第一个是国内做研究的时候能够做人才的很少,我们都采取了一些方面做了一些考虑。第二个还是一个管理问题,更多的是技术驱动,他的特点是比较小,从一个小报表开始,中国移动当时采取的还是比较大的策略,把数据都统一规划再做后面的应用。刚才说到数据质量,罗老师刚才提的也是非常到点,最主要的就是数据质量,实话实说现在还是有一些小的问题,就是说现在不能解决所有问题。您刚才提的零误差,我个人认为工程上是不可能的,有诸多的定义,没法做到零误差,作为工程人员也很难做到这点。
唐老师:通过你对数据仓库建设过程和运行过程回过来如何看来元数据在数据库中的重要性?
段云峰:唐老师应该说点中要害了,元数据是一个很重要的技术特征,元数据和数据仓库和数据库面临的问题是:数据仓库要解决的量要更大,元数据在原来的数据库中是一个数据字典的概念,但在数据仓库中我们引用了元数据的方法,我们在实践的过程中开始就很关注元数据方面的研究,包括CWW方面的研究,在国内就已经开始了,各方面做了大量的工作。通过各省的试点知道CWW标准是很重要的。在国内有这么大的数据库遵循国内标准这一点还是整个元数据对整个数据库建设是十分关键的。
周老师:你刚才提到中国移动这个大的系统在国际上是排在前面的,面临的一个很大问题是人才问题,我们了解我国数据仓库大概有十来年的历史了,前几年一直很热,几乎各个在培养开这方面的课,平时的论文也很多,这和你刚才讲的有一个矛盾,说明我国有这么一个好的平台,这么多研究机构培养了这么多人,这个事情好象是一个比较大的问题,你那儿觉得人才非常缺乏,可是从我们感觉上来说各个学校这十来年培养了不少人,说明了沟通问题非常大是吧?
段云峰:因为我也是学校出来的,了解其中的“行情”,国内一般是侧重数据挖掘和算法的研究,而在数据仓库这个领域里面,我举个例子,我们真正要这个系统的时候真正的设计,说白话是集成研究的时候确实感觉到人才十分缺乏,但是数据仓库是很复杂的系统工程,包括ETL和后端的应用是一套的东西,在高校测算理论挖掘这方面比较多,但在数据仓库这方面的人才相对比较少。我个人多说几句,数据仓库还是在数据库的基础上,在大的数据库真正按MPP理论做的都很少,很多的都不是纯粹的为海量数据夺的工作,因为中国一动也算是个个案,但是他代表了一个方向,部分企业已经意识到这么大的数据是一个近况,而且足够得多,足够的丰富,这一点应该说是一个过程,现在底层还是在关系数据库这方面来做研究。
更多内容见:http://www.bestdba.cn/match_zhongxuanzhibo-2.aspx