ORACLE官方数据仓库案例

来源:百度文库 编辑:神马文学网 时间:2024/07/01 12:13:16
作者:                 来源:                 发布时间:2008-01-28 09:28
成立于2003年的淘宝网稳踞亚洲购物网站的第一名,会员数超过4000万人,每年成交额皆以倍数快速成长,在2006年就已突破169亿人民币。随着业绩的持续攀升,以及同步成长的惊人数据量,淘宝网希望能从中挖掘出有用的信息,做为业务决策与网站运营的依据,因此,决定投资建置数据仓库。
淘宝网以Oracle网格运算(Grid Computing)技术重新打造并强化基础架构环境,再进行数据仓库的建置,短短半年之内就完成上线工作。淘宝网表示:「数据仓库的效益,在于分析历史、预测将来,以及看到所有活动的历史轨迹。它同时也是最佳指针,有效规范最终决策,不致太过偏离现实。
挑战业务面与技术面的双重需求
淘宝网所面临的挑战,分别来自业务面与技术面。就业务面来看,如何设计出更多且更好的行销活动,以吸引更多客户,正是首要的业务目标。
而在技术面,基础架构的提升及强化将是关键。淘宝网甫于2003年成立,就连年以倍数快速成长,对于延展性的需求特别高;但另一方面,基础架构的建置仍缺乏整体且完善的规划与考量,则是主要的隐忧。
截至目前为止,淘宝网所累积的数据量已达10 TB之多,而且,这个数字还会随着每年翻倍成长的成交额同步上升。但庞大的数据量与计算量,已超出原有环境的负荷,进而对数据库的运行速度造成显著的影响。
淘宝网说明,原有的数据库虽然只使用了二、三年,但由于数据量成长的很快,再加上今年激活了许多新项目,对于数据库的要求也相对提高。因此,建置数据仓库时,最大的技术挑战将在于效率及速度。
效益
添增商业智能与数据挖掘功能,运行效能提升超过两倍
淘宝网的数据仓库主要提供商业智能(Business Intelligence)分析与数据挖掘(Data Mining)两大功能,同时,也会根据业务需求,提供所需的企业级报表,或进行用户行为模式分析。
淘宝网表示:「高达八成的员工都会使用数据仓库系统,无论是财务、巿场、服务或网站运营,同样必须每天看报表、做分析。而在主管方面,则是生成报表之后,再以电子邮件寄发。
举例来说,针对「十一长假」,淘宝网设计了许多促销活动上线,要确认活动是否达到预期目标,就要靠数据仓库来计算及分析活动的效果。此外,巿场部门也能根据往年的历史数据,找出效果最好的活动并重新包装推出。
淘宝网指出,数据仓库上线之后,搜寻及查询数据的效能比原有环境提升两倍以上,整体系统的效能表现游刃有余,使用上也更为迅速及便利。
针对数据仓库的未来应用方向,淘宝网也有许多规划与期望,例如:增加「推荐引擎」,强化对消费者的服务,让数据仓库的应用不只局限在传统领域,而是让更多人使用及共享。
淘宝网表示:「公司里每个部门的业绩都有倍数成长,IT部门当然也不能落后。以Oracle技术建置的基础架构与数据仓库环境,绝对具备支持公司在未来持续成长的延展空间。
从两小时缩减为五分钟的高效率。
除了建置数据仓库之外,强化基础架构同样名列本次项目的重点。Oracle则以网格运算技术Oracle Real Application Clusters与Oracle Cluster Ready Services,结合自动化管理方案Oracle Automatic Storage Management与Oracle Partitioning,为淘宝网打造高延展性且自动化的基础架构环境。
以Oracle Automatic Storage Management为例,主要在取代原本必须以人力手动操作及调整的主机工具。由于Oracle Automatic Storage Management是高度自动化的解决方案,绝大多数的作业都能自动进行管理,无需人力介入操作,因而大幅减轻了工作负担。
举例来说,要为服务器增加磁盘时,过去必须先由IT人员做好规划,涵盖从设定、安装到分散数据,才能行动。但现在,IT人员只需下指令,后续作业就由Oracle Automatic Storage Management自动接手完成,通盘考量最佳的安装及建置作法,完全无需IT人员的介入。
淘宝网表示:「过去必须耗费两小时才能完成的工作,在Oracle Automatic Storage Management只要五分钟就能完成,不仅效率更高,管理负担也相对减轻许多。而且,Oracle Automatic Storage Management还能随时自动进行监控调整,确保系统环境的优化。
评选与导入
添增商业智能与数据挖掘功能,运行效能提升超过两倍
2007年初,淘宝网找来了Oracle、NCR、IBM、HP与Sybase进行解决方案评估,最后只留下Oracle与NCR进行对战。第一道关卡是概念验证(PoC;Proof of Concept),进行大批量的特殊查询与并行查询;第二道关卡则是性能/价格比。
以性能而言,Oracle在多项标竿测试里,领先竞争产品数倍。更重要的是,运行于开放系统的Oracle数据仓库,相较于采用专属软硬件的竞争产品,不仅初期建置成本更低,维运及升级也更为容易,而且,因应未来需求的成长,还能以更低投资,更弹性地扩充IT基础架构。
淘宝网就指出:「建置数据