试谈浙江电信数据仓库建设--沈跃明 何惠 :: 踩踏心灵
来源: BlogBus 原始链接: http://nxhanhua.blogbus.com:80/logs/2005/11/1582122.html 存档链接: https://web.archive.org/web/20061116234956id_/http://nxhanhua.blogbus.com:80/logs/2005/11/1582122.html
踩踏心灵 一万人走过我的身旁,我能感觉到你的存在, 因为9999踩踏着大地,而你却踩踏着我的心灵。 << 业务转型:做熟不做生 首页 我发现了qq的一个惊人秘密 >> 试谈浙江电信数据仓库建设--沈跃明 何惠 试谈浙江电信数据仓库建设--沈跃明 何惠 文章来源:《每周电脑报》 为有效支持市场营销及企业管理服务,浙江电信于2004年3月启动了数据仓库项目,并于2005年6月顺利通过初验。通过一年多的项目建设,浙江电信架构了基于集团CTG-EDM的全省统一数据平台。整个系统形成了源数据层、数据转换层、数据服务层、中间服务层、用户访问层及用户层的六层应用架构;系统集中并整合了全省来自97、计费、智能网、结算、宽窄带、互联星空、短信平台等全省范围的客户信息、收入、业务量、通话量、竞争等业务数据;统一了全省的产品及套餐定义;规划了全省的业务及财务的统计口径;较好地解决了现有业务系统中“系统版本多、数据共享困难、编码不统一”等突出的数据问题,形成了全省的企业统一数据视图和统一统计口径,较好的支撑了精细化管理及精确化营销的应用需求。 从应用层面而言,数据仓库的应用可以分为固定报表、专题分析、多维分析及数据挖掘四种类型。在浙江省的数据仓库建设中,合计开发了54个各类应用。在支撑公司精确化管理方面,通过数据仓库,投入使用了涵盖本地网从管理角度需每月上报给省公司的所有业务及收入发展的九张分析报表及产品每日发展报表。使得省公司各相关部门及管理层能在第一时间,掌握全省的业务发展情况。以产品发展量为例,全省分产品的业务发展量在当日下午2点前由数据仓库来提供全省各本地网的前日产品发展数据。在支撑市场营销方面,通过开发了一系列的类似亲情连线、流失预测分析等专题应用,在本地网极大的提高了针对性营销及保有的成功率。如杭州电信开发的基于客户分群的亲情连线专题营销,提供10651名客户,接触成功7808名,签约成功6990名,接触成功率和签约成功率分别达到73.31%和89.52%;国际电话IP打7折套餐分析,对零次户和低用量用户进行针对性营销,呼出总数22288户,接触成功数10215户,签约成功数6536,接触成功率和签约成功率分别达到45.83%和63.98%;宁波基于MR客户分群的针对性营销,呼出17584户,接触成功数13092户,签约成功数5484户,签约成功率达到41.89%。 在项目建设上,浙江电信走过了不少弯路,在项目取得初步成果后回头看,深觉数据仓库项目有其较为独特的一面,为更好的开展类似项目的建设,同时也希望能给同行一些建议,我们总结了以下一些关键点值得大家关注。 l 打好数据仓库的质量基础 数据仓库的的数据质量是整个项目的基础;同时快速的应用推广,通过应用来展现项目的收益,激励用户及领导,增加项目的粘着度,又决定了整个项目的成功率,因此应正确的把握好数据质量与应用的关系。建议数据质量的评估应从数据的完整性、准确性、及时性三个纬度来进行评估。数据的完整性主要是从整个企业的量收角度来进行评估。如浙江电信有21个收入源,项目组紧紧围绕21个收入源来采集所有收入数据,以便从省、本地网、区局不同层面总体把握企业的全局。通过完整性的把握,来发现存在的块数据的缺失,做到横向到边。在数据准确性方面,主要针对分产品,进而到各产品的某项功能及套餐纬度,能够纵向追溯到底。通过纵向的追溯,可以发现各个细粒度的数据存在的问题。如浙江电信通过数据准确性的检查发现数据质量问题归结为源系统本身数据不准确、代码标识和映射错误、脚本开发质量问题和应用的统计口径理解差异等四个方面。通过建立数据质量核对流程和工作小组,并按流程推动数据质量工作。数据的及时性,是数据仓库永远追求的目标。我们应通过数据及时性的追求,来推动各生产系统的数据同步及开放方面的进步。逐步建立以月周期向周及日更新的良性循环,满足管理及生产的要求。 l 明确好数据仓库的系统定位 数据仓库系统的建设对于中国电信的而言是一个全新的课题,无论是系统的建设还是使用都是一个新生事物。长期以来由于在IT建设上缺乏系统的规划,造成了系统孤立建设,数据重复冗余。在管理上,长期又缺乏数据质量管控的岗位,造成了各系统间数据一致性差及数据定义多头的问题。各业务部门及管理层在长期生产及管理中一直痛感于取数困难及数据不准的问题。所以在数据仓库建设初期,在初步集中了大量的系统数据后,业务部门及管理层很容易会产生大量的报表需求,很容易造成数据仓库系统就是一个报表系统的认识。而在系统建设初期,由于数据的快速集中,各分散业务系统潜在的数据质量问题会集中突显出来。而在数据仓库的四类应用中,报表对数据质量的要求又是最高的。这种矛盾的放大及激化会加剧数据质量的矛盾,既挫伤项目组的热情又会挫伤项目用户对项目的积极性。为此建议在项目建设的初期,应积极管控项目利益相关者的期望及应用类型,把握好项目的宣传及引导,重点以专题分析来展现项目亮点。 l 把握好数据质量与应用的关系 在建立了数据质量的滚动体系,明确了数据仓库的定位之后,应妥善的处理好应用和数据质量的关系。在项目的不同阶段,集中的数据质量会有差异,应结合不同应用对数据质量的不同要求,妥善选择开发及开发的应用,来展现项目好的收益(不同的应用对数据质量的要求请见附表一)。建议在项目建设的初期,具备了一定的数据基础后,应通过和业务部门的紧密配合,选准业务发展中的热点及难点问题,分析局部数据质量较好的环节数据,开发专题分析应用。通过这些应用的推广效果来激励用户及管理者,顺利推进项目。例如客户分群、潜在星级家庭分析等专题。初期的报表开发,目标应定位于核准数据为目的。在项目中期,力争将某几个产品的产品数据进行重点建设,通过展示某个产品的完整的量、收数据,展示该产品从省到本地网及区局的向下可追溯来展示数据仓库的强大的生命力,同时结合专题的分析来推进项目。 数据质量要求 数据完整性要求 数据周期要求 专题分析 中 中 中 数据挖掘 中高 高 高 固定报表 高 高 中 多维报表 高 高 中 (表一) l 处理好集中与分散的关系 根据中国电信集团的ITSP规划,数据仓库建设遵循“两级系统、三级应用”的模式进行建设。这个模式积极的引导着系统建设向省集中的思路进行演变,但同时也提出了新的挑战。特别是系统的省集中和需求本地化之间的矛盾,及系统集中和开发队伍分散的矛盾。正确的处理好集中和分散的关系,将关系到数据仓库的长远发展问题。浙江电信在项目建设中组成了由省、市人员参加的项目队伍。省公司的人员负责全省统一的应用开发。本地网的队伍,充分利用他们熟悉本地网业务的特点,针对本地网业务和管理中的难点、热点需求,进行本地网量身定制的应用开发。这些应用由于更切合实际需求,容易产生好的效果。同时,通过项目组培养的本地网骨干来带动本地网的数据仓库队伍培养,突显这些骨干成员的领军作用,使他们更有荣誉感和责任感。通过这个模式的滚动,本地网各级人员在体验到数据仓库的作用的同时,也感觉到自己的命运自己掌握的喜悦,避免了对省集中项目的支撑忧虑。在各本地网应用开发百花齐放的同时,省公司人员充分做好本地网间牵针引线的工作,把握好全局,积极的抓好样板,总结经验,进行全省的统一推广。以宁波电信为例,在推广完基于数据仓库的MR试点之后,宁波本地网利用自己的支撑队伍继续在数据仓库平台上完成了六个深化应用的分析;而省公司总结了宁波MR的专题应用进行了全省的推广,使得研发成果得以共享,避免重复开发造成的资源浪费。 本文主要结合笔者在浙江电信数据仓库项目建设过程中的点滴经验及教训,从实践者的角度来谈谈自己的体会。希望能给从事数据仓库建设的同行一些建议及提醒,起到抛砖引玉的作用。 nxhanhua 发表于 2005-11-10 10:00:00 引用(0) 编辑 Update 发表评论 nxhanhua.blogbus.com