搜索
您的当前位置:首页基于数据挖掘的酒店CRM客户获取的研究

基于数据挖掘的酒店CRM客户获取的研究

来源:乌哈旅游
广东工业大学硕士学位论文

基于数据挖掘的酒店CRM客户获取的研究

姓名:易珺申请学位级别:硕士专业:计算机软件与理论

指导教师:唐平20050430

摘要客户关系管理cRM(customerRelationshipManagement)是对企业和客户的交互活动进行管理的过程,是一整套先进理念、方法和解决方案,能帮助找到并锁定最好的客户,以正确的价格,在正确的时间,通过正确的渠道,提供正确的产品或服务,从而最有效地满足客户的需要和愿望。但由于缺乏发现隐含在数据中的有用信息的能力,企业无法将数据转化为知识。数据挖掘技术则提供了从庞大的数据库中抽取有效的、未知的和能理解的信息的手段,帮助企业实现数据到知识的转换,为企业提供决策支持。我国国民经济迅速增长的势头,为酒店行业的发展带来极大的商机,酒店如何抓住这一机遇,提高自身实力是最关键的。实施基于数据挖掘的CRM无疑是酒店提高竞争力的一条重要途径。本文针对基于数据挖掘的酒店cRM客户获取分析技术进行研究,主要目的是寻求建立酒店潜在客户的挖掘模型的方法,并结合广东工业大学横向科研项目“军山大酒店客户关系管理系统”实现其客户获取,即把潜在客户转变为酒店真正的客户。本文的主要研究工作如下:完成数据的准备工作,它涉及到了对数据的清洗、抽取、转化和派生,其中着重探讨如何在酒店cRM中构建数据仓库的问题。然后研究聚类和分类技术,比较了现有的聚类和分类算法,根据算法的准确性、简便性、易理解性,选择】【一meaⅡs聚类算法和ID3决策树分类算法作为潜在客户建模的算法,并针对算法弊端进行一定程度的改进。提出采用三角形三边关系定律预先判断是否要计算样本点之间的距离,当符合一定条件时才计算样本点间距离的改进k—means聚类算法;对ID3算法启发式函数进行研究,提出了采用属性熵均值来选择决策树的最佳分裂属性。通过理论与实验研究,验证了以上算法的可行性和有效性。本文对于如何在酒店客户关系管理中进行客户获取有一定的指导价值和实践意义,对于其他行业的客户获取也有借鉴作用。关键字:数据挖掘;酒店cRM;客户获取;聚类;决策树!垂三些奎兰三主堡圭兰堡堡三ABSTRACTCRM(customerRelationshipManagement)isactiVitybetwBenenterpriseandcustomers.ItisaprocessofmaIla舀nginceractionasetofadvancedideas,methodsandsolutioⅡs,whichcanhelptofindoutandlockthebestcustoⅡLers,andonsatisf,theirⅡeedsandfhIfilltheirwisheseff色ctivelytherightprices,therighttime,therightwayandthegoodproductandservice.BecauseoflackingcapacityofdiscoveringusefuIinfomatioⅡwhichdataintoisconcealedindata,itisverydimcultforenterprisestoofconVertknowledge.WiththeiⅡcreasingdevelopmeⅡtdataminingtechnology,enterpriseshaVethepossibilitytoconvertdataintoknowledgebyusingtheValid,unknownandunderstandingcaninfomatioⅡextractedfromhugedatabase.ItproVidedecisionsupportfbrenterprises.ThesubstantialincreasetendencyofournationaleconomytobringsgreatdeVelopmentchaIlceforhotelindustry.Itiscn】cialforhotelhowopportunitytoinlproVeownstrength.UndoubtedlyimplementiⅡgminingisangetholdofthisonCRMbaseddataimportantapproachtoimprovecompetitiveabilityinitself.ThetechnologyofcustomeracquisitioninthehotelCRMbasedondataminingisanstudiedinthisdissertatioⅡ.ThegoalofthisdissertatioⅡisseekingforconstructaapproachtohotelpotentialcustomermodel.CombiningwiththeitemofGuaⅡgdongUniVersityofTechnology一“theCRMsystemofJunshanhotel”,customeracquisitionisrealized.Customeracquisitionistransformingthepotentialcustomerintogenuinecustomer.Thestudycontentsaredescribedasf01lows.Firstly,theworkofdataprepariⅡgthatinVolVesdatacleaning,dataextracting,datatransforminganddataderiVingiscompleted.Inaddition,thequestionhotelonhowtobuilddatawarehouseinandclusteringtechnologytoCRMisfocused.Secondly,westudytheclassificationandconlpare、vithexistingclassificatioⅡandclustefingalgorithms.Accordingalgorithm’saccuracy,simplicityandintelligibility'weselectk-meansalgorithmandID3decisiontreealgorithmtobuildPotentialcustomermodel,aIldproposesomeⅡimproVements.Webringforwardinequalitytoamodifiedk—meansalgorithmthatusingthetrian91ethedistancebetweentwodatasamplesshouldjudgebeforehandwhetherbecalculated,thenthisdistanceshouldbecalculatedwhensatisfiedsomedesignconditions.AlsowestudiedheuristicfunctionofID3algorithmandpresentanewapproachthatselectsplitattributebytheaVerageofattfibuteentropygain.ThesemodifiedalgorithmsareproVedfeasibleaIldef诧ctiVebytheoryandexperiment.onThisdissertationshouldhaVeconstructiveeffectaⅡdpracticemeaninghowtoacquiringcustomerinhotelcustomerrelationshipmanagement.IⅡaddition,itwouldperf0Ⅱnarefefentialfunctioninotherindustries.Keywords:data血Ⅱing;hotelCRM;customeracquisition;clustering;decisiontreem第一章绪论第一章绪论1.1研究背景及选题意义在网络社会化,社会网络化的信息时代,面对越来越多迅速膨胀的超级数据库时,人们却难以获得有价值的知识。数据挖掘概念的提出,使人们有能力克服这些困难,去发掘出蕴藏在数据中的信息和知识。对于企业而言,原有的决策支持系统Dss(Decisionsuppoftsystem)和领导执行系统EIs(EnterpriseInformationsystem)已不能满足需要。数据挖掘可以帮助企业发现业务发展的趋势,揭示已知的事实。预测未知的结果,分析完成任务所需的关键因素,以增加收入、降低成本,使企业处于更有利的竞争位置。数据挖掘是目前国际上数据库和信息决策领域的最前沿研究方向之一,引起了学术界和工业界的广泛关注m。客户关系管理cRM(customerRelationshipManagement)是一种新颖的管理机制,目的是为了改善企业与客户之间的关系,使企业在营销、销售、服务与支持各个方面形成一种协调的关系“3。cRM始终以客户为中心,建立、收集有关老客户、新客户、潜在客户的档案,分析所有客户信息,使企业各部门都能共享,从中找出有价值的客户,挖掘客户的潜力,开拓企业的市场,最终获得更多客户和取得最大的利润。cRM可以帮助企业建立起庞大的数据仓库,利用数据挖掘技术帮助企业管理客户生命周期的各个阶段。在数据仓库中进行数据挖掘正逐渐成为CRM中最核心的部分。一方面,cRM的目的和使命要求对客户信息、销售信息、经营信息等数据进行全面的掌握;另一方面,随着企业信息化的不断进展,在收集了大量数据之后,如何将这些数据进行整理、分析,为企业进行科学决策提供支持,是企业普遍面临的一个问题。在酒店行业,传统的计算机管理系统主要包括前台管理系统和后台管理系统两大部分,基本涵盖酒店主要业务部门,实现了客户服务和进行财务核算所需要的各个功能。1。但传统的酒店管理系统基于财务管理为主线的设计理念,无法满足酒店全面信息化管理的需要,在营销管理上也存在不足。其客户管理部分主要是对客户资料的整理与统计,采用的工具也主要是传统的统计分析工具,注重的广东工业大学工学硕士学位论文是对历史数据的分析总结。缺乏对未来情况的预测。这样一方面没有充分的利用大量的客户历史数据,造成信息资源的浪费;另一方面由于缺乏对客户的充分认知,造成企业决策的盲目。比如可能存在以下问题:(1)工作人员不负责任的离职,恶意带走大量的客人资料等。(2)天天不断的盲目地寻找新客人。把客户关系管理(cRM)引入酒店管理系统是一个很好的选择。现代酒店计算机管理系统是一个具有cRM管理机制的系统。目前,我国在酒店客户关系管理方面的研究工作做得比较少,仅有华仪软件系统工程有限公司、杭州西湖电脑有限公司等少数几家企业的产品在国内几家高星级酒店试用n,。本文的工作正是基于这样一个背景展开的,以酒店行业为应用背景,通过分析客户的基本数据、交易数据和行为模式,建立客户获取预测模型,即挖掘潜在客户。潜在客户的发现是有意义的。潜在客户的培养和挖掘现在被认为是企业获得进一步成功的关键,资料显示发展一个新客户要比保留一个老客户多出5倍的成本投入,因此识别那些能转变成现实客户的潜在客户对企业是很有帮助的,一则改进企业的营销策略,二则避免企业获取客户时的盲目性,为企业节省不少争取新客户所付出的无谓的费用。因此本文的研究具有一定的指导价值和实践意义。1.2国内外相关领域的研究现状1.2.1数据挖掘技术计算机技术的迅猛发展以及网络的普及,使人们有更多机会使用便捷的方式与外界进行信息交流。可是,数据大量的涌入,增加了我们获取有用信息的难度。如何从大量的数据中获取有价值的信息,采用传统的数据库技术已显得无能为力。数据的迅速增加与数据的分析处理方法滞后的矛盾越来越大,人们希望能够在已有的大量数据分析的基础上进行科学研究、商业决策或企业管理,数据挖掘因此诞生w。数据挖掘(DataMining),又称为数据库中的知识发现KDD(KnowledgeDiscoverinDatabase),是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含的、未知的、有潜在应用价值的信息或模式的过程。它是一门新兴的交叉学科,汇集了来自数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析等各领2第一章绪论域的研究成果。数据挖掘在国外己经有较长时间的研究、应用历史,有较多的数据挖掘软件可供选择…。目前,在数据挖掘领域比较著名的工具软件有IBM的IntelligentMiner和SAS的EnterpriseMiner,SPSS公司的Clementine,他们都是基于客户机/服务器结构的,具有较高处理能力,通常支持多种平台。这类数据挖掘工具的另一个特点是它通常提供了多种数据挖掘算法,并有能力解决多种应用问题,是一个面向各个应用领域的数据挖掘软件平台。但是该类产品却有着严重的缺憾:易用性不强,需要较专业的、熟悉统计分析和预测建模方式的业务人员与IT人员共同配合才能发挥产品的功能。数据挖掘已经成功地用于大型数据仓库的知识挖掘,它被广泛应用于市场营销、银行业、生产销售、零售业、制造业、保险业、国家安全部门、医药业、电信业等,通过挖掘获取有价值的知识,以此来辅助决策。但是,应用于cRM的数据挖掘研究还不是很多。目前,国外数据挖掘的研究方面主要有:对数据挖掘方法的研究进一步发展。如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;数据挖掘与数据库的紧密结合、数据挖掘商业软件工具不断产生和完善、建立解决问题的整体系统等等。由于我国企业信息化起步相对较晚,信息系统建设没有形成规模,国内企业实现数据挖掘的主要困难在于缺少数据积累、难于构建业务模型、各类人员之间的沟通存在障碍、缺少有经验的实施者、初期资金投入较大。所以数据挖掘在国内还处于研究、消化和积累经验阶段,应用较少。很多行业构建的数据挖掘应用都是采用国外技术和方案,建成的数据挖掘项目效果如何还有待检验。影响我国数据挖掘发展的因素主要有:(1)企业信息化建设和数据积累水平不高;(2)需要进一步培育数据挖掘市场;(3)相关技术人员缺乏;(4)没有完全消化国外技术和产品;(5)数据挖掘技术本身还缺乏统一的标准。尽管我国数据挖掘技术同国外相比还有很大差距,但是很多科技工作者对相关技术进行了深入研究,并发表了很多有价值的论文。国内对数据挖掘的研究主要是吸收和借鉴,在此基础上提出适合国内需求的技术方案。现在,国内公司的广东工业大学工学硕士学位论文相关软件也已逐渐成熟,有一些数据挖掘方面的软件产品,如赛迪数据就已经可以提供成熟的金融行业数据挖掘解决方案m;商业指南针(Businesscompass)实现了0LAP的所有分析功能,并内嵌了多种常用的统计分析方法,支持多种关系型数据库与oLAPServerm;上海复旦德门软件有限公司的企业级智能分析平台DMinerEnterprisesuite是一个数据挖掘算法的工具集,该产品集成了数种流行的数据挖掘算法,可处理各种类型的数据源,分析巨量数据,同时提供可视化工具来观察和解释数据挖掘结果,2004年该产品获第六届中国国际高新技术成果交易会优秀产品奖一,。调查显示,国内2004年数据挖掘需求凸现。卫生部、国家环保局、国家统计局、中国民生银行等部门都表示正在或将要开展数据挖掘应用。尽管国内数据挖掘方面的成功案例是凤毛麟角,但国家地质调查总局、重庆港务局、湖南统计局、南宁地税等单位已经在摸索实践,不仅获得发成效,还积累了不少经验m,。相信随着国内各个企业、单位的各种各样的数据量和对数据深入分析的需求不断增长,这门学科终会发挥它强大的作用。1.2.2C酬发展综述客户关系管理cRM,指的是对企业和客户的交互活动进行管理的过程,最终实现提高客户获取、客户保留、客户忠诚度和客户赢利的目的。在市场经济条件下,企业正在以产品为中心的思想向以客户为中心的思想转变,在与客户的交互过程中,企业必须及时回答以下问题:・哪些客户最有价值,为什么?・什么样的促销活动对哪些客户最有效?・哪些客户有可能会倒向竞争对手?・最有利可图的发展方向在哪里?客户信息正在成为企业回答这些问题时要用到的最有价值的东西。企业经过长期的积累收集和存储了关于客户的大量的宝贵数据,cRM则提供了分析客户有利性和提高市场营销有效性的手段。cRM是一种经营管理的理念,对客户关系的生命周期积极地介入和控制,使得这种关系能最大限度地帮助企业实现它所确定的目标。cRM也是一种计算机技术应用。信息技术是当代cRM的基础,计算机软件技术人员利用信息技术,针对“营销、销售、客户服务、客户交互和客户分析”等面向客户的业务领域而设4第一章绪论计出的各种软件功能模块的组合,最大限度地支持cRM的经营理念在企业范围内的具体实现。cRM在国外的发展已有十余年的历史背景,最早开始发展cRM的国家是美国。大约在90年代初,最初的cRM应用开始投入市场。二十一世纪初,全球的cRM市场一直处于爆炸性的快速增长之中,企业重视争取客户和保持客户,是cRM市场增长的原因。市场研究机构JupiterMediaMetrix估计.到2006年北美中低端cRM、电子商务和财务管理应用软件的购买量将从2001年的9.71亿美金攀升到34亿美金。AMRResearch认为中低端市场和企业部门级市场在以后的10年中将有441亿美金的需求。根据调查显示,2,3以上的企业期望在未来5年内改变其客户关系的管理模式,3,4以上的企业计划集成“面对客户”的信息管理系统及其组织的其他部分m,。当今,基于数据挖掘的客户关系管理方案已经被广泛而且成功地应用于电子商务、电信业、银行业、证券业、保险业、制造业和零售业等领域。从地域来看,目前cRM商机最大的市场是北美,其次是西欧市场,其中西欧市场正以全球最快的速度飞速发展。而其使用的cRM产品都是欧美国家软件公司的产品。根据METAGroup最近对商业cRM应用套件的“频谱评估”报告,对AmdocsclarifycRMl2.5、E.piph蛐yE.6、Kanaic盯e8.0、0nyxEnterpfiseCRM5.0、OracleCRMll.5.10、PeopleSof也nterpriseCRM8.9、PivotalCRM5.0、mySAPCRM4和siebel7.7共9家商业软件供应商的产品评估结果是,Siebel仍然在cRM应用套件市场中独占鳌头。Siebel在多个核心域中展示了其一贯的优越性:远景,战略、定位份额、生态系统投资战略、特性,功能深度以及垂直行业覆盖度“”。cRM进入中国的时间大约是在20世纪末,在中国这还属于一个非常新的领域,经过了几年的发展虽有了一定的进步,但由于业务流程自动化程度不高、管理理念滞后以及客户数据库不完整,致使cRM在传统行业和新兴产业中的应用仍处于初期发展阶段。图1.1描述了cRM大致的发展阶段m1。从图l一1可以看出保险、电信行业对cRM比较重视,而且得到了一定的应用,但是在其他行业中的发展仍然比较缓慢。广东工业大学工学硕士学位论文图1一lCRM发展阶段Fig.1-1thedeVelopmentphaseofCRM目前,我国大、中型企业正在接受cRM的理念并建立自己的cRM系统。上海通用汽车公司的cRM系统被称为中国第一套企业级的cRM系统,它是由在全世界cRM市场上占有率最高的美国siebel公司开发的产品。按IT界权威调查机构ccID(中国电子信息产业发展研究院)的预测,未来5年中国cRM软件市场的平均增长率为44.6%,预计2005年销售额可达4.39亿元m,。但是国内的企业比较注重加强与客户的交流互动能力,因此其功能大多只是停留在操作型cRM的水平上。cRM是数据挖掘重要的应用领域,包括客户获取、客户保持、客户价值提升等客户关系管理的各个方面。有了数据挖掘技术的支持,才使cRM的理念和目标得以实现。目前,面向cRM的数据挖掘应用研究是数据挖掘应用领域研究的一个重要课题,具有广泛的市场价值和研究价值,研究涉及应用功能、应用方法、算法、模型、数据处理、系统设计和开发等方面。无论是从技术角度,还是从市场角度而言,CRM都将具有更广阔的前景m,。1.3本文研究的主要内容与创新本文主要是借鉴当前的cRM理论研究,结合酒店行业的现状,研究利用聚类技术和决策树分类技术在酒店cRM中的应用,实现酒店客户获取。本文针对基于数据挖掘的酒店cRM客户获取技术研究的主要内容如下:首先,完成数据的准备工作,它涉及到对数据的清洗、抽取、转化和派生,其中着重探讨如何在酒店cRM中构建数据仓库的问题。然后,研究聚类和分类技术,比较现有的聚类和分类算法,根据算法的准确性、简便性、易理解性,选6第一章绪论择k—means聚类算法和ID3决策树分类算法作为潜在客户建模的算法,并针对算法的弊端进行一定程度上的改进。采用三角形三边关系定律预先判断是否要计算样本点之间的距离,当符合一定条件时才计算样本点之间的距离的改进的k—means聚类算法;提出采用属性熵均值来选择决策树的最佳分裂属性,对启发式函数进行研究,实现酒店潜在客户的获取。论文的创新之处在于:(1)把cRM理念用于酒店行业,cRM为酒店企业提供了一种崭新的思路。cRM在我国的起步比较晚,应用于酒店行业的更少。目前研究较多的是cRM整体架构的建立,客户保持模型的建立、客户流失模型的建立等等,对于客户获取即挖掘潜在客户方面,系统论述的文献并不多。通过使用数据仓库与数据挖掘工具对客户信息进行分析挖掘,找出其中的潜在客户,达到客户获取的目的,节约了酒店的运作成本,有一定的实用参考价值。(2)由于k.means算法以几何距离为度量,所以提出了根据三角形三边关系定律预先判断是否要计算样本点之间的距离,当符合一定条件时才计算样本点之间距离的改进的k.means聚类算法。k.means聚类算法是一种应用广泛的经典算法,但它本身也存在一些缺陷。K—means算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量大时,算法的时间开销是非常大的。本文提出的改进方法减少了算法的时间开销。(3)提出采用属性熵均值来选择决策树的最佳分裂属性,对启发式函数进行改进。ID3决策树算法是一种简单易用的分类算法,分类结果易于解释,应用领域非常广。但由于ID3算法采用信息增益作为生成树的启发式函数,就存在一个偏向于选择取值较多的测试属性的问题。而本文的目的是要建立潜在客户的反应行为模型,其中涉及的测试属性存在有取值较多的情况,所以我们对启发式函数进行改进,以得到结构好的决策树,便于从中挖掘好的规则信息。1.4本文组织本文的内容安排如下:第二章,介绍了数据仓库、数据挖掘技术的基本概念和方法,讨论了CRM在酒店行业中的应用。第三章,描述了本论文挖掘任务的主题定义和数据定义,阐述了如何在酒店cRM中建立数据仓库,并讨论了DTs7广东工业大学工学硕士学位论文的应用。第四章,介绍并分析了K—means聚类算法和ID3决策树算法,并指出其存在的主要问题,根据本文的具体任务提出了一定的改进。第五章,介绍了酒店客户价值RFM分析模型,以第三章建立的数据仓库为基础,以第四章介绍的K—means聚类算法建立现有客户的RFM模型,以ID3决策树算法建立潜在客户反应行为模型,实现酒店客户获取。第二章数据挖掘与客户关系管理第二章数据挖掘和客户关系管理在介绍了数据挖掘和cRM的研究现状和发展趋势的基础上,将对本文所需使用的相关技术,包括数据仓库、数据挖掘中的聚类技术和分类技术、cRM和酒店在cRM中的应用进行分析和讨论。2.1数据仓库2.1.1数据仓库的概念和主要特征数据仓库一般采用w.H.Inmon在《BuildingtheDatawarehouse》书中的定义:数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合“”。它建立在数据库技术之上,提供集成化和历史化的数据,集成不同种类的应用系统,从历史和发展的角度来组织和存储数据,以提供信息化和分析处理之用。1991年,IBM宣布了一项计划“信息仓库构架”~INDEPTH,给数据库产业带来很大的震动。w.H.Inmon认为,数据仓库是90年代以来信息技术(InfomationTechn0109y)体系结构中的一个重要组成部分,是数据库产业发展的重点。按照Inmon的观点,数据仓库是按应用组织的、动态的、集成化的数据集合,用于支持管理中的分析和决策。将数据仓库与传统联机事务处理数据库进行对比,可以揭示两者的不同,如表2.1所示。数据仓库有以下三个方面的特征:(1)存储面向管理应用和综合分析的集成化和综合性的信息,从历史的角度描述系统结构和状态的变化,采用能够反映时间维特征的数据结构。(2)以传统的面向事务(operational)的数据库或外界数据库作为数据源,经过提炼、加工、汇总和归一化整理(consolidation),生成符合数据应用语义规范要求的数据集合。(3)能够支持多种复杂的数据应用和综合性的管理决策分析。9广东工业大学硕士学位论文表2.1联机事务数据库与数据仓库的区别Table2—1differencesbetweenoperationaldatabaseanddatawarehouse比较项目数据内容联机事务处理数据库当前值数据仓库存档、归纳数据和经计算得出的数据数据组织数据性质面向应用程序根据全局有效主体域静态(刷新时除外)简单:适用商业分析中到低访问和生成:没有直接更新分析处理:利用具有广泛数据范围的DSS辨别发展趋势几秒到几分,到几小时动态复杂:适用操作型计算~局数据结构和格式访问概率数据更新用途按字段更新高度结构化、重复处理和事务处理对时间响应的要求低于3秒对性能的需求高由2.1.2数据仓库系统数据仓库系统可以分为3个组成部分:数据源、后台管理、前端服务。数据仓库的数据来源比较复杂,可以是企业内部的ERP(EnterpriseResourcePlaⅡ)系统,也可以是外部的cRM系统等等。由于数据源的多样性,所以必须使用ETL(ExtractionTransfo珊ationLoad)工具将原始数据进行抽取,将多余的数据删除,给必要但缺乏的数据提供默认值,然后将数据转换,保持数据的一致性,最后将数据加载到数据仓库中,后台管理是系统管理员进行日常维护和管理的环境,其主要管理任务包括批处理作业管理,数据安全管理,数据冲突管理,数据质量核查,元数据管理和数据的备份与恢复等。数据管理平台为数据仓库的正常运行提供了基本保障。前端服务是面向用户的数据需求,完成数据提取和计算分析等功能。数据仓库首先是一个数据库系统,可以视为一种满足数据仓库管理数据要求的特殊的数据库系统,数据仓库的基本体系结构如图2.1所示:10第二章数据挖掘与客户关系管理图2.1数据仓库体系结构Fig.2—1architectureOfdatabasewarehouse2.2数据挖掘2.2.1数据挖掘的概念和任务数据挖掘就是从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念、规则、规律、模式等形式m!。由于数据挖掘是一门受到来自各种不同领域的研究者关注的交叉性学科,因此导致了许多不同的术语名称,如:知识抽取、信息发现、智能数据分析、探索式数据分析、信息获取、数据考古、数据库中的知识发现等等。其中,最常用的术语是“知识发现”和“数据挖掘”。相对来讲,数据挖掘主要流行于统计界、数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器学习界。数据挖掘的任务一般分为两类:描述和预测。描述性任务刻划数据库中数据的一般特性,包括概念描述、关联规则。预测性任务在当前数据上进行推断,以广东工业大学硕士学位论文进行预测,包括分类和预测、序列分析。以下是对这些任务的简单阐述。(1)概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。(2)数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。(3)分类和预测是自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题,如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。(4)时间序列分析是用变量过去的值来预测未来的值。与回归一样,也是用已知的值来预测未来的值,只不过这些值的区别是变量所处时间的不同。时间序列采用的方法一般是在连续的时间流中截取~。个时间窗口,窗口内的数据作为一个数据单元,然后让这个时间窗口在时间上流动,以获得建立模型所需要的训练集。一个数据挖掘原型系统如图2—2所示。12第二章数据挖掘与客户关系管理图2—2数据挖掘原型系统Fig.2—2anoriginalsystemofdatamining2.2.2聚类技术聚类是数据挖掘中的一种重要技术,是分析数据并从中发现有用信息的一种有效手段。基于“物以类聚”的朴素思想,它将数据对象分组成为若干个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别很大。通过聚类,人们能够识别密集和稀疏的区域,发现全局的分布模式以及数据属性之间有趣的相互关系。聚类分析在客户分类、基因识别、www文本分类、空间数据处理、卫星照片分析、医疗图像自动检测等领域有着广泛的应用。数据挖掘、统计学、机器学习、空间数据库技术、生物学和市场学的发展推动着聚类分析研究的进展,使它已成为数据挖掘研究中的一个热点。与其他数据挖掘方法不同,在进行聚类分析前用户一般并不知道数据集的特征。因此,聚类分析是一种无监督的学习过程,是基于观察的学习而不是基于实例的学习。作为数据挖掘中的一个功能,聚类分析可作为一个独立的工具来获取数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步分析。如在商务上,聚类分析可以帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。聚类分析也可以作为数据挖掘中其他算法(如特征和分类等)的预处理步骤,这些算法再在生成的簇上进行处理;此外它还可以完成孤立点挖掘。许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。广东工业大学硕士学位论文然而孤立点本身可能是非常有用的,如在欺诈探测中,孤立点有可能预示着欺诈行为。迄今为止,人们提出了大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和应用。如果聚类分析用于描述或探索的工具,可以对同样的数据尝试多种算法,以便发现数据可能隐含的规律与结果。聚类算法主要有五大类:基于划分的算法(PanitioniⅡ譬Methods)、基于层次的算法(HierarchicalMethods)、基于密度的算法(Densitv—BasedMethods)、基于网格的算法(Grid—BasedMethods)、基于模型的算法(Model—BasedMethods)。clustering在这里主要介绍基于划分的算法。这种算法是在距离函数的基础上,根据实际的需要,对所得的距离数值做相应的划分。给定n个对象或元组的数据库,一个划分方法通过优化一个评价函数构建数据的k个划分,每个划分表示一个聚类,并且k曼n。也就是说,它将数据划分为k个组,同时满足如下的要求:(1)每个组至少包括一个对象,(2)每个对象必须属于且只属于一个组。但是在某些模糊划分技术中第二个要求可以放宽。一个好的划分的一般准则是:在同一个类中的对象之间尽可能“接近”或相关,而不同类中的对象之间尽可能“远离”或不同。绝大多数应用采用了以下两个比较流行的启发式方法:1)K.means算法…,,每个簇用该簇中对象的平均值来表示。2)K.medoid算法nt,,每个簇用接近聚类中心的一个对象来表示。这些启发式聚类方法对在中小规模的数据库中发现球状簇很适用。划分算法典型地采用两阶段反复循环过程:1)指定聚类,即指定一个数据对象到某一个簇,使它与这个簇的聚类中心距离比它与其它聚类中心的距离近;2)修改聚类中心。算法的结束条件是不再有数据被重新分配。可以选择一个反映聚类效果的目标函数,当函数达到最优解时满足终止标准。这一类算法中,有的算法在对每一个数据对象的每一次指定后就修改一次聚类中心(如s0M方法),有的算法当对所有的数据对象都指定完后才修改一次聚类中心(如K—means,k—medoid方法),所以对这一类方法来说,存在两个基本问题。即:如何计算距离和如何修改聚类中心。在计算距离时,对数值属性主要的方法是采用明考夫斯基距离中的欧氏距离,而对符号属性则可以采用海明距离。假设R是一相关集合,x,Y是其中两个有效集合,n是相关记录的条数。xl,x2….x。∈x,yl,y2….,y。∈Y,wj为x。,yi的权重,i=1,2….,n。距离函数定义为:14第二章数据挖掘与客户关系管理以=(∑%I‰一y社I)74‘’1(2-1)(1)当q=2,wk=l时,表示欧氏距离函数。这种情况主要适用于相关集合中的有效集合属于同样的空间,即欧几里德空间,或者经过转化后可以在欧氏空间中求出有意义的距离。其中欧氏空间中的点被默认为具有相同的重要性(权重)。而在实际的应用领域中,有效集合中的相关记录必须根据需要来确定权重。(2)当q=l,wk=1时,表示曼哈顿距离函数。(3)当q为一个正整数,wk-1时,表示明考斯基距离函数。2.2.3分类技术分类是数据挖掘中一项非常重要的任务,目前在商业上应用非常广泛。分类(classification)是指提出一个分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。数据分类是一个两步的过程“叱第一步,建立一个模型,描述预定的数据类或概念集。通过分析数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标号属性的属性确定。对于分类,数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步骤也称作有指导的学习(即在被告知每个训练样本在哪个类的指导下进行模型的学习)。它不同于无指导的学习(如聚类),即每个训练样本的类标号是未知的,要学习的类集合和数萤也可能事先不知道。通常,学习模型用分类规则、决策树或数学公式的形式提供。该规则可以用来为以后的数据样本分类,也能对数据库的内容提供更好的理解。第二步,使用模型进行分类。首先评估模型(分类法)的预测准确率。保持(holdout)方法是一种使用类标号样本测试集的简单方法。这些样本随机选取,独立于训练样本。对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。被模型正确分类的测试样本的百分比就是模型在给定测试集上的准确率。如果模型的准确率根据训练数据集评估,评估可能是乐观的,因为学习模型倾向于过分适应数据(它可能并入训练数据中某些异常,这些异常不出现在总体样本群中)。因此,通常使用测试集来评估分类算法的准确率。如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。广东工业大学硕士学位论文经过多年的研究,产生了许多分类方法。常用的分类技术有基于决策树的分类、基于统计学的贝叶斯分类、基于神经网络的分类、源于关联规则挖掘概念的分类。基于决策树的分类方法是一种监督学习的方法,树的数量由分类的精度和树的大小决定。这种方法首先选择训练样本的一个子集以形成一棵决策树,如果此树没有为所有的对象给出一个正确的答案,则将例外情况加入到树中,不断重复这一过程直到发现正确的决定集。最终将形成这样一棵树:每一片叶子代表一个类名,每个内部节点描述一个属性,节点的每一个分枝对应于该属性的每一个可能的值…,。例如,图2—2所示的就是分类属性buys—computer的一个决策树,即客户是否可能购买计算机,每个内部结点表示一‘个属性上的测试,每个树叶结点代表一一个类(buy—computer=yes,orbuy—computer=no)。图2—3一个决策树的例子Fig.2—3anexampleofdecisiontree与其他算法相比,决策树算法有几大优点:第一,与神经网络和贝叶斯分类相比,决策树提供非常直观的描述,这种描述易于被吸收,转化为标准的数据库查询。第二,训练神经网络模型要花费大量的时间,要进行大量的重复操作,与之相比,决策树效率要高的多,适合于大的训练集。第三,决策树生成算法除了训练集中包含的信息外不需要附加的信息(即领域知识或类标签以前的分布情况),而且允许训练数据包含错误,有很好的健壮性。第四,决策树有着可比的或更高的准确率。第五,决策树容易转化成分类规则。通常决策树代表实例属性值约束的合取的析取式,从树根到树叶的每一条路径对应一组属性测试的合取,树本身对应这些合取的析取。只要沿着树根向下一直走到叶子,沿途的分裂条件就能够唯一确16第二章数据挖掘与客户关系管理定一个分类的谓词。决策树分类的算法有很多,其中核心的是1986年J.RossQuinlan提出了ID3算法。这是国际上最早、最有影响力的决策树算法。ID3算法是基于信息熵的决策树分类算法,根据属性集的取值选择实例的类别。它采用自顶向下不可返回的策略,搜出全部空间的一部分,它确保决策树建立最简单,每次所做的测试数据最少。ID3算法构造的决策树平均深度较小,分类速度较快。但ID3算法采用基于信息熵的属性选择标准,因此偏向于选择属性值个数较多的属性,而不一定是最优的分类属性。1993年,J.RossQuinlan对ID3算法进行了补充和改进,提出了后来非常流行的c4.5算法。它不仅能处理连续属性,还可以对属性的取值集合进行等价类划分,划分为同一类的属性值在进行判断时走向同一分枝。但无论是ID3算法,还是c4.5算法,对非常大的数据库进行挖掘时,有效性和可扩展性就成了值得关注的问题。因此也有一些强调可扩展性的决策树算法被提出,由非常大的训练数据集进行决策树归纳的算法包括SLIQ和sPRINT。2.3客户关系管理(CRM)2.3.1CRM体系结构客户关系管理是企业为提高核心竞争力,为达到竞争致胜、快速成长的目的而树立的以客户为中心的发展战略,并在此基础上开展的包括识别、选择、争取、发展和保持客户所需实旌的全部商业过程。从经营理念方面理解,客户关系管理是一种以客户为中心的新型管理机制,属于管理学的研究范畴。从软件系统的角度理解,客户关系管理是对以客户为中心的商业模型提供支持的一整套软件系统。这套系统通过对以客户为中心的业务流程的支持和扩展,达到提高客户满意度及忠诚度,进而提高企业效益的目的。一个能有效的实现cRM经营理念的cRM应用解决方案应该具有以下特征:基于一个统一的客户数据库;具有整合各种客户联系渠道的能力;能将信息以快速、方便的方式向系统用户传递;提供销售、服务和营销三个业务的自动化工具,并在三者之间能够进行无缝的整合;具有一定的从大量交易数据库中提炼决策信息的能力;有基于开放标准的与其他企业应用系统的整合能力。cRM的体系结构17』玺三些奎兰至圭兰堡篓兰如图2—3所示。图2—3CRM体系结构Fig.2—3thearchitectureofCRM2.312cRM分析内容cRM是数据挖掘的重要应用领域,正是有了数据挖掘技术的支持,才使得cRM的理念和目标得以实现““。cRM中采用数据仓库和数据挖掘技术进行分析的内容主要有以下几个方面m】.(1)客户赢利能力分析客户赢利能力的分析是市场营销成功的关键,如果不能对客户赢利能力进行评价就无法使客户赢利能力最大化。数据挖掘技术用来从客户的交易记录中发现一些有用的行为模式,并利用这些模式来分析客户赢利能力的高低和预测客户未来最可能的行为模式。通过对客户的行为特征和交易历史数据的挖掘工作,可以使销售人员知道客户赢利能力的大小,进而在市场营销过程中保留住那些有价值的第二章数据挖掘与客户关系管理顾客,促使那些价值不大的客户转变成有价值的客户。(2)客户获取企业的发展和壮大需要不断获得新的客户,维持老的客户。数据挖掘技术可以用来揭示客户的行为习惯和预测发现一些在不同情况下有相似行为的新客户,帮助企业识别出这些潜在的客户群,并提高市场活动的响应率,使营销过程有针对性同时数据挖掘技术还可以帮助营销人员完成对潜在客户的发现和筛选工作,把潜在的客户名单和这些客户感兴趣的营销、促销措施系统地结合起来,为每一个客户提供个性化的服务,以不断地获取新客户。(3)交叉营销交叉销售是指企业向原有客户销售新的产品和服务的过程。交叉销售是建立在双赢的基础之上的,客户因得到更多更好符合其需求的服务而获益,企业也因销售增长而获益。数据挖掘技术用于寻找交叉营销的机会。在这个过程中,企业必须确定所提供的产品或服务组合、并从数据仓库中收集与客户购买相关的信息,运用建立的模型对数据进行分析,并对顾客可能的每种选择进行评分。最后根据评分情况对产品或服务的组合搭配进行优化处理,达到企业增量或交叉销售的目的。(4)客户保持与流失分析在竞争日益紧张和激烈的市场环境下,获取一个新客户的费用将越来越大,因此保持原有客户的工作变得非常重要,因为客户的流失将导致市场份额的损失和商务活动的永久失败。数据挖掘技术用来对客户数据库中的大量数据进行分析和处理,以识别、分析和评价客户流失风险,分析出客户为什么会流失?如何保留住赢利能力高的客户?如何将赢利能力低的客户提升为赢利能力高的客户?通过评价客户流失风险的严重性、发生的可能性和控制风险的成本,汇总对多种风险的评价结果,采取针对性的措施做好那些流失率高的客户的服务工作,保留住客户,防止因客户的流失而引发的营销危机。(5)客户细分数据挖掘技术可以对客户数据库中收集、加工和存储的大量客户消费信息进行分析和处理,以确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,把大量的客户分成不同的类,每一类别的客户具有相似的属性,而不同类别客户的属性不同。通过数据挖掘19广东工业大学硕士学位论文获得不同客户的消费爱好、习惯、倾向、需求和趋势等信息,进而在营销中提供有针对性的产品和服务,提高不同类别客户对企业和产品的满意度,以获取最大的利润。2.3。3cRM在酒店行业中的应用cRM在酒店行业的应用和研究己经远远落在了其它行业的后面。到目前为止,还没有关于cRM在酒店行业应用及研究的专著。在应用方面也正处于试用阶段。这与“cRM系统特别适合实施于客户群体大、服务含量高的行业”这一说法相悖。因此,迫切需要对cRM在酒店行业的应用进行深入、全面、广泛的研究,以便为酒店行业实施cRM提供理论和实践方面的指导m,。对于酒店行业而言,cRM可以成为其营销的核心,cRM的质量直接关系到其市场竞争能力的持久性。酒店是一种提供特殊服务的企业,它出售的商品可以概括为“空间”、“时间”和服务,这就决定了酒店和其他行业比较,有以下的特点:・生产受到酒店自身规模大小和时间的限制,具有定时定量的特点。产品无法储存,随时光的流逝而消失。・产品不能搬运,销售受到酒店地理位置的限制;价格波动性很大,季节时间性特征明显。・产品的生产受到来自于消费者和生产者本身的人为因素影响很大,产品质量的高低取决于消费者的感受。酒店产品是个性化消费品,不同的年龄段,不同的住宿动机,不同的阶层对客房的要求是有所差别的。酒店的客户多为个体客户,酒店应该针对不同的目标客户群体提供不同的服务。在酒店中实施cRM的主要目的和作用可以用图2.4表示:第二章数据挖掘与客户关系管理潜在客图2.4酒店CRM的作用效果F培.2—4theeffectofCRMinhotel酒店cRM除了具有一般cRM的特点之外,还具有以下特点:(1)客源市场划分●按地区划分。酒店的客人来自于不同的国家、地区和城市。・按住宿动机划分。酒店的客人有公务客人、会议客人、团体观光客人、一般散客。・按营销途径划分。酒店的销售渠道主要有:旅行社、航空公司、会议组织单位等。(2)销售渠道酒店的销售主要有直接渠道和间接渠道两种。直接渠道是酒店直接向顾客销售,如通过预定系统销售;通过印刷品、宣传品、广告、电视片、小册子等多种形式、多种途径、多种手段推销产品;组织推销性旅游;与有关部门、个人建立深厚友谊,参加各种旅游交易会、展示会及学术讨论会;在旅游网站上编制酒店主页,发布酒店产品信息。间接渠道是指酒店通过某些媒介,如旅行社、旅行组织商、酒店销售代办处、航空公司、酒店预定系统等向顾客销售。直接渠道销售,酒店利润大,但客源不够稳定;通过间接渠道销售,酒店利润小,但客源比较有保障。(3)客户满意程度影响酒店客户满意程度的主要因素有:●酒店的品牌形象2l广东工业大学硕士学位论文●酒店所处的交通地理位置・酒店的硬件设施:包括酒店的建筑、布局、客房的舒适度等・酒店所提供的服务:包括客房服务,交通服务等●酒店服务人员的形象客户满意度可以用公式表示为:s=∑tn(2—2)其中s为客户满意度,x,为客户对酒店第i项服务或设施的评分(满分为100分),鼠为第i项服务或设施在评分系统中所占的比重(∑n=1)。2.4小结本章首先介绍了数据仓库的概念及系统结构,指出了数据仓库和联机事务处理数据库的区别。然后研究了数据挖掘中的聚类和分类技术,主要阐述了基于划分的聚类方法和基于决策树的分类方法。最后介绍了cRM的体系结构,讨论了数据仓库、数据挖掘技术在cRM中的应用主题,包括:客户的赢利能力分析、客户获取、交叉营销、客户保持与流失分析、客户细分,并就酒店行业的特点分析了CRM在酒店行业中的应用情况。第三章基于数据挖掘的数据准备和数据仓库模型的建立第三章基于数据挖掘的数据准备和数据仓库建模本章将研究如何建立面向酒店cRM的数据仓库。首先阐述本论文的主要任务和数据基础,即主题定义和数据定义,然后以军山大酒店为例建立一个基于cRM和数据挖掘的酒店数据仓库。3.1主题定义在数据挖掘工作开展之前,必须明确数据挖掘所要解决的问题和达到的预定目标““。也只有在目标明确定义的前提下,才能准备有用的数据,数据挖掘的工作才有方向和意义。根据用户的需求,本文定义的主题是客户获取。客户获取包括发现那些对公司和产品不了解的客户,他们可能是你的产品的潜在消费者,也可能是以前接受你的竞争对手服务的客户。我们把这些客户称为潜在客户,客户获取的目的就是把这些潜在客户转变为公司真正的客户。酒店业的客户与电信、金融等其他行业的客户有一个显著的区别就是:酒店的客户来自五湖四海,地区分布很广。所以当酒店想要发展新客户时,除了开展一些市场活动外,还要针对有价值的潜在客户进行发展,只有这样才能降低酒店营运成本,减少盲目性。数据挖掘可以帮我们完成对潜在客户的筛选工作。现代营销中的客户获取大都从潜在客户数据开始。小至几万,大至几百万的潜在客户列表是同其它客户数据相比更有可能成为真正客户的数据。这些数据经过一系列的专业处理,首先被随机抽取出一部分来进行测试行销活动。根据测试的响应行为,数据模型得以建立。将模型应用到整个潜在客户列表,我们就能找到那些能对什么样的沟通方式或行销活动产生反应的客户。在本文中,客户获取的工作是按如下方式展开的:(1)从酒店的联机事务处理数据库中收集、整理原始数据,组建酒店客户的数据仓库系统;在客户数据仓库中抽取适当的字段组成客户分析数据库,为客户细分和建立潜在客户行为模型提供数据源。(2)对现有客户进行细分,按照用户的要求,建立RFM模型,找出某一类客户的共同特征,为潜在客户的获取提供参考。广东工业大学硕士学位论文(3)对于大量的潜在客户数据,建立潜在客户的二元反应行为预测模型。(4)市场人员把由数据挖掘技术得出的模型与公司的优惠措施系统地结合起来,发展新客户,使之转化成为公司真正的客户。数据挖掘的分析步骤可以用图3—1表示。图3一l数据挖掘的步骤Fig,3一l也eprocessofdatamiⅡing本文中客户获取分析的总体架构如图3.2所示。图3—2客户获取的步骤Fig.3—2theprocessOfcustomerachievement3.2数据定义从主题定义中,可以看到运用数据挖掘知识找出一个好的预测模型是最关键的一步,只有预测出来的结果有较高的准确率,明确哪些客户有较大可能转变为真正的客户,才能有针对性地制定相应的策略,得到较为满意的效果。否则将是空中楼阁,不仅没有实际价值,而且白白浪费掉了大量的精力和财力。而得到一第三章基于数据挖掘的数据准备和数据仓库模型的建立个好的模型的前提是高质量的数据基础,所以首先要明确与挖掘任务的相关数据。在CRM的数据挖掘系统中,主要用到三种类型的数据,分别是:(1)描述性数据,记录客户的基本信息,如年龄、性别、家庭住址、个人收入等等。(2)促销数据,记录对客户进行了哪些促销活动。(3)交易数据,记录企业和客户相互作用的所有数据。客户获取分析中要用到的数据包括现有客户的基本信息和消费情况,以及潜在客户的基本信息和对于一些市场活动的反应行为数据。数据来源主要是酒店内部的日常业务数据,网站注册用户数据以及合作旅行社的客户数据。对现有客户数据和潜在客户数据分别用不同的数据挖掘算法计算出不同的数据模型,作为发展新客户的决策支持。3.3构建酒店CRM数据仓库3.3.1数据仓库模型虽然数据挖掘可以建立在联机事务处理数据库上,但数据仓库对数据的组织更有利于提高数据挖掘的效率。数据仓库中完备的、经过组织的大量数据为数据挖掘提供了很好的基础。一个健全、有效、完整的数据仓库系统是进行数据分析的前提和必要条件n“。数据仓库是面向整个企业主题的,但本文所要实现的目标是客户获取,所以在这里只列出与此挖掘任务相关的数据。数据仓库中,可以对数据进行多维化处理,构成多维数据模型n…,用多维分析的方法从多角度、多层次对数据进行统计分析。多维数据模型包括事实、维和粒度。事实是分析的目标数据;维是事实信息的属性,也是考察事实的角度;粒度是维划分的单位,也就是明细的程度,可以用超立方体结构来表示事实、维和粒度的关系。所以在数据仓库系统中统计分析就统一归结为:从不同的角度(维)、不同的层次(粒度)来观察分析数据(事实)。数据仓库中最常用的模型是星型模型。星型模型由事实数据表和链接到该事实数据表的多个维度表组成,结构比较简单,运行效率较高。所以我们主要采用星型模型建构数据仓库。以军山大酒店cRM为例,根据酒店的实际运作情况,我们设计的数据模型如图3,3所示,整个数据仓库模型采用星型和雪花型相结合的方式。customerRFM和inhotel是两个事实表,分别记录了客户的RFM价值和每次的消费情况,它们的粒度级别不同,inhotel表的数据是从业务数据库中拷贝的,具有最低级别的粒度。维度表包括客户维度(customer)、客房维度(room)、时间维度(time)、地区维度(regioⅡ)、销售渠道维度(channel)。潜在客户由于没有和酒店发生交易行为,因此作为一个单独的表,记录潜在客户的信息及其对市场活动的反应结果。图3—3酒店数据仓库模型Fig.3—3thedatawarehousemodelofhotelCRM在设计事实表的时候,考虑下面的因素:・因为到日前为止仅有几年的数据,所以决定数据仓库时距为所有的数据。・因为数据量不多,所以将存储所有的事实数据。・数据量有限,所以暂时不考虑缩减事实表中字段的大小。3.3.2数据ETL过程数据ETL(ExtractTraIlsfomLoading)过程即数据抽取、转换、清洗、装载的第三章基于数据挖掘的数据准备和数据仓库模型的建立过程,将数据的组织形式变成数据仓库模式,是构建数据仓库的重要环节。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。数据抽取是数据源接口,包括原始数据接口和外部数据接口。数据转换,包含对来自多个生产系统的数据源的处理,保证数据按要求装入数据仓库。数据清洗是确保数据集中的所有数值是一致的和被正确记录的处理过程。该步骤有如下工作需要完成:数据类型的转换、数据度量单位的转换、同名异义字段的转换、异名同义字段的转换、数据字段间计算关系的矛盾、数据字段空缺的解决方法、大小写的转换等等。数据装载负责将数据按照物理数据模型定义的表结构装入数据仓库。在作者所参与的军山大酒店cRM系统中,后台数据库采用的是MicrosoftsQLserver2000。在众多的数据抽取工具中,MicrosoftDTs(DataTransmissionsystem)设计器具有易用、扩展性好、编程效率高的特点,所以本文采用DTs设计器来实现数据的ETL过程。图34就是用sQLServer2000企业管理器的DTs包设计器完成的部分表的DTs转换包图。每一个任务用sQL语句选择数据源和所需要的属性,如果数据不能直接装载到数据仓库中,则可以使用Activexscript创建脚本完成特定的转换功能。例如,联机事务处理数据库中记录了客户的生日,而在数据仓库中要记录的是客户的年龄段,可以用以下脚本实现:FunctionTrans—age()age=round((date()一DTssource(”birthday”))/365)ifage<=25then’求出客户的年龄’根据年龄设定数据仓库中age字段的值DTSDestination(”age”)=年轻elseifage<=55aⅡdage>=25thenDTSDestination(”age”)=中年Elseifage>55theⅡDTSDestination(”age”)=老年EndifMain=DTSTransformSta【一oKEndFunction可以设定DTs包的调度时间,使其自动作业,增量更新数据仓库的数据。广东工业大学硕士学位论文图3.4DTS包图Fig,3-4DTSpackage3.4小结本章阐明了此次数据挖掘的任务,解释了客户获取的含义,即找出原本不是但有可能成为企业客户的客户。文中提出了实现客户获取的方案,并确定了数据仓库的数据源,以军山大酒店为例建立了面向酒店cRM的基于数据挖掘的数据仓库模型。本章还重点讨论了在数据仓库开发过程中数据的抽取、转换、装载过程,并用MicrosoftDTS设计器完成。差留茎星三童星茎圣墼呈坚=:主2:墼墼兰丝鎏第四章用于客户获取的k—means与ID3的改进算法选择合适的数据挖掘算法是客户获取的核心。算法的选择要考虑到客户数据类型以及挖掘的任务。K—means算法是聚类分析中一种基本的划分方法,因其理论上可靠、算法简单、收敛速度快、能有效地处理大数据集而被广泛使用;ID3算法是决策树中的核心算法,简单易用,算法结果易于用户理解,所以本文采用k—means算法进行现有客户的细分,为潜在客户的获取提供一个参考模型;并采用lD3算法来建立潜在客户的反应行为模型。4.1k—means算法k—means算法的基本思想4.1.1k—means算法的目标是根据输入参数k,将数据集划分成k个簇m,。算法采用迭代更新的方法:在每一轮中,依据k个聚类中心将其周围的点分别组成k个簇,而每个簇的质心(即簇中所有点的平均值,也就是几何中心)将被作为下一轮迭代的聚类中心。迭代使得选取的聚类中心越来越接近真实的簇质心,所以聚类效果越来越好。聚类过程如图4.1所示m,。^昀n●xhU■●柏d∞W口嘲●‘bm11日^由岫神d∞o_KdIl由,a日舾。f●r●嗍“础●●d_圳Ⅲ二赫图4.1聚类过程Fig.4—1theprocessofclusteriⅡg设将d维数据集x={xi『1i∈Rd,i-1,2,…,n)聚集成k个簇wl,w2….,wk,它们的』奎三些奎兰塑圭兰堡丝兰质心依次为c。,c:,…,c。,其中c。:÷∑x,n;是簇w。中数据点的个数。,1.=:K.means算法描述如图4—2所示:图4—2k—means算法Fig.4-2thek—meansaIgorithm聚类效果的好坏用目标函数J表示:±^.,=∑∑d。』(z』,c,)(4—1)l-l』=1其中氏(xj,ci)是xj与c。之间的一种度量,J值越小,使得簇越紧凑、越相对独立。因此,算法通过不断优化J的取值来寻求好的聚类方案,当J取极小值时,对应的聚类方案即为最优方案。我们可以引入误差平方和准则函数作为目标函数来显式地判断算法是否结束,如公式4—2。利用误差平方和准则函数能把真正属于同一类的样本聚合成一个类型的子集,而把不同类的样本分开m,。t^‘.,。=∑∑|t。’一cJ(,)12(4—2)户1I.1当准则函数Jc收敛后,算法就结束。因此K.means算法演变如图4—3所示:第四章用于客户获取的k-me札s与m3的改进算法K-means—2;(1)给定大小为n的数据集x,令I=1,选取k个初始聚类中心q(I),j=1,2,3….,k;(2)以ci(I)为参照点对x进行划分,计算每个样本数据对象与聚类中心的距离,若d(x。,ck(I))=min{d(xi,q(I)),i=1,2….n),其中j=1,2….,k,i=l,2,…n,则将xi划分到簇wk中。(3)令I=I+l,根据公式c,(,)=—L∑工计算新的聚类中心和误。’,鹰w.差平方和准则函数的值.,。=∑∑I以“’一c,(川2。J=1t;l(4)若lJ。(I+1)<J。(I)I<§成立,则算法结束。否则,令I=I+1,返回(2)执行。图4—3加入准则函数的k.means算法Fig.4—3thek—meansalgorithmofusingcriterionfunction从上面的算法可以看出,其特点为调整一个数据对象后就修改一次聚类中心和准则函数J。值,当考察完n个数据对象后,一次迭代运算完成,新的聚类中心和J。值也计算出来。如果在一次迭代前后,J。值没有变化,说明算法已经收敛,即准则J。作为算法是否结束的依据。在迭代过程中,J。值逐渐减小,直到它的最小值为止。4.1.2k—means算法的特点及面临的问题无论是原始的K.means算法还是加入了聚类准则函数的K.means算法都有一个共同的特点,即采用两阶段反复循环过程:1)指定聚类,即指定数据xi到某一个聚类,使得它与这个聚类中心的距离比它到其它聚类中心的距离要近;2)修改聚类中心。算法结束的条件是不再有数据元素被重新分配。K-means算法中存在的不足主要有:(1)K.means算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量大时,算法的时间开销是非常大的,所以需要对算法的时间复杂度进行分析、改进,提高算法应用范围。可以从该算法的时间复杂度进行广东工业大学硕士学位论文分析考虑,通过一定的相似性准则去掉聚类中心的侯选集m,;也可以对样本数据进行聚类,无论是初始点的选择还是一次迭代完成时对数据的调整,都是建立在随机选取的样本数据的基础之上,这样可以提高算法的收敛速度。“;还可以采用更合适的数据结构来存储所有的对象,减少在对象空间中寻找最近邻的时间,如多维二进制搜索树(k.d树)。”。(2)在K.means算法中常采用误差平方和准则函数作为聚类准则函数,在运用误差平方和准则函数测度聚类效果时,最佳聚类结果对应于目标函数的极值点,由于目标函数存在着许多局部极小点,而算法的每一步都是沿着目标函数减小的方向进行,若初始化落在了一个局部极小点附近,就会造成算法在局部极小处收敛。因此初始聚类中心的随机选取可能会陷入局部最优解,而难以获得全局最优解。对于这个问题,目前主要采用解决方案有:一是选择不同的初始聚类中心运行k.means算法多次,从中选出效果较好的结果;二是在运行k—means算法前先寻找最优的初始聚类中心,以减少聚类结果对初值的依赖性mm“。(3)在K—means算法中k是事先给定的。但很多时候,我们事先并不知道给定的数据集应该分成多少类才最合适。有的算法是通过类的自动合并和分裂,得到较为合理的类数目k,例如IsoDATA算法m,;有的根据方差分析理论,应用混合F统计量确定最佳分类数,并应用模糊划分熵来验证最佳分类数的正确性。在文献”6呻,使用一种结合全协方差矩阵的RPcL算法,并逐步删除那些只包含少量训练数据的类。而文献””中使用的是一种称为次胜者受罚的竞争学习规则,来自动决定类的适当数目。它的思想是:对每个输入而言,不仅竞争获胜单元的权值被修正以适应输入值,而且对次胜单元采用惩罚的方法,使之远离输入值。4.1.3改进的k.means算法在上述k—means算法中,一次迭代中把每一个数据对象分到离它最近的聚类中心所在类,这个过程的时间复杂度为o(nkd),这里的n指的是总的数据对象的个数,k是指定的聚类数,d是数据对象的维数;新的分类产生以后需要计算新的聚类中心,这个过程的时间复杂度为O(nd)。因此这个算法一次迭代需要的总的时间复杂度为O(nkd)。如果数据量比较大,算法的时间开销也是相当可观的。论文针对K—means算法处理大数据量时开支大的不足,提出了一种借用三角形三边不等定律的思想减少每次迭代的计算次数的改进K.means算法。量塑耋量王耋:鏊塞墼至罂罂:耋塑墼墼塞塞童在K—means算法的第一个循环阶段,每次迭代中要计算每一个样本数据到各个聚类中心的距离,依次比较得到与之距离最小的一个类中心,并被分配到这个类中。如果我们能找到‘‘个方法,避免一些不必要的比较和距离计算,就能节省运行的时间开支。在K—means算法中采用的是欧几里德距离,因此可以考虑借用几何三角形中三边关系定理:两边之和大于第三边,来简化计算比较过程。令xi∈x,d(ck,。j)为两个聚类中心的距离,d(ck,。j)、d(xi,ck)与d(xi,。i)三边构成了一个三角形,如图4.4所示,图4—4聚类中的三角形Fig.4-4triangleinclustering那么有:d(ck,cj)Sd(xi,ck)+d(xi,cj)即:d(ck,cj)一d(xi,ck)曼d(xi,cj)如果d(ck,q)兰2d(xi,ck),则有:d(xi,ck)曼d(】【i,q),也就是说xi到中心cj的距离比到ck的距离大a因此在d(。k’cj)≥2d(xi,ck)这个前提下,就不必计算d(xi’cj)了。K-means算法演变如图4—5所示:妄奎三些查兰璧圭耋堡篁圣K—means一3:。——t-t(1)给定大小为n的数据集x,令I=1,选取k个初始聚类中心cj(I),j=1,2,3,…,k;(2)计算每两个聚类中心间的距离d(ci(I),。j(I)),其中i-1,2….,k,j=l,2,…,k;(3)设xi当前所在类为w。,计算xi与w。类中心的距离d(xi,c。(I)),若d(c。(I),cj(I))兰2d(xi,c。(I))不成立,则计算d(xi,cj(I));若d(xi,ci(I))<d(xi,c。(I)),则暂时将xi分配到wj,返回(3)循环运行,最终将x。划分到簇w。中。其中j=l,2,…,k,i=l,2,…n,m=l,2….na(4)令I=I+1,根据公式cf(j)=二∑x计算新的聚类中心和误。’j癌w,差平方和准则函数的值.,。=∑艺I以“’一c』(驯2j=1I-1a(5)若IJ。(I+1)<J。(I)l<{成立,则算法结束。否则,令I=I+1,返回(2)执行。图4.5改进的k—means算法Fig.4-5improVedk—meansalgorithm在这里对算法k—means一2和k—means一3作一个比较。在第二个循环阶段重新计算聚类中心时,这两个算法的时间复杂度都是相同的,没有区别。但是在第一个循环阶段指定聚类簇时,改进的k.means一3算法显然减少了计算量。先考虑一个样本点的情况。在k—means一2算法中,计算样本点到各中心点的距离的次数是k次,而k—means一3算法中,在最好情况下计算样本点到各中心点的距离的次数是1次,最坏情况下计算样本点到各中心点的距离的次数是k次。假设a为第一循环阶段一次迭代时一个样本点的平均计算次数,则有a<k。k.means一2算法一次迭代需要的总的时间复杂度为O(nkd),k—meaⅡs一3算法一次迭代需要的总的时间复杂度为o(nad),如果数据集中的样本点较多,也就是n比较大时,算法的优越性就显示出来了。第四章用于客户获取的k-加ca∞与Ⅲ3的改进算法4.2ID3决策树算法ID3算法基本思想及描述基于决策树学习算法的一个最大的优点就是它在学习过程中不需要使用者4.2.1了解很多背景知识。只要训练事例能够用属性一一结论的方式表达出来,就能使用该算法进行学习。决策树的核心算法是ID3算法,其他的许多算法如c4.5w,cART算法等都是在ID3算法基础上的改进m¨.“。由于ID3算法思想简单,实现高效,结果可靠,其在归纳学习中的地位依旧十分显著。决策树算法中的关键在于如何选择一个分裂属性形成决策树的决策节点,并从当前节点生成决策分枝。在选择某一分裂属性作为决策节点时,通常希望该属性能够最大程度地反映训练样本集的分类特征。在ID3算法中,决策节点属性的选择运用了信息论中熵的概念作为启发式函数。在这种属性选择方法中,选择具有最大信息增益的属性作为当前划分节点。通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量。使得到的决策树冗余最小。ID3算法中,决策属性信息增益的计算方法如下:设s是训练样本数据集,有Al,A2,…A。,c共n+1个属性,s中类别标识属性有m个独立的取值,即定义了m个类Ci,i=1,2….,m,数据集S中的记录要分成m个类别。设数据集s中全部的记录数为s,分类属性值为c1,c2,…c。的记录数分别为s1,s2,…s。,那么划分之前,数据集S的总熵为:三E(sl,s2….s。)=一艺pll092(pf)Ⅻ其中,(4・3)Pi是任意一个记录属于类别ci的概率,用si,s估计。容易看出,数据集s的总熵在划分之前是属于不同类别的记录的信息量的加权平均。假设属性A具有v个不同的离散属性值,可使用属性A把数据集s划分成v个子集{s1,s2,…s,J。设子集si中全部的记录数为8i,其中分类属性值为c1,c2,…c。的记录数分别为sl{,82j,…s。j。则子集Si的熵为:旦E(s1J,s2,,…s,J)=一∑p。』l092(pjJ)l-1(4_4)其中,P.j是sl中任意一个记录属于类别ci的概率,用sij,8j,估计。使用属性A把数据集s划分成V个子集{sl,s2,…s,)后,数据集s的总熵广东工业大学硕士学位论文为v个子集的熵的加权平均。数据集s划分后的熵为:三E(A)2∑w』E(slj,s2J,...s,J)j=1(4・5)其中,w.是第j个子集的权,用8i,s估计。我们定义信息增益为数据集S用属性A划分前与划分后的熵差:Gain(A)=E(sl,s2,…sm)一E(A)(4-6)信息增益表示系统由于分类获得的信息量,由系统熵的减少值定量描述。选择属性对结点进行划分的标准:分裂属性应该具有最高信息增益。熵是系统混乱程度的统计量。熵越大,表示系统越混乱。分类的目的是提取系统信息,使系统向更加有序、有规则组织的方向发展,所以最佳的划分方案是使熵减少量最大的划分方案。划分后熵的减少量就是信息增益,因此选择属性对结点进行划分的标准就是选取信息增益最大的属性。基本的ID3算法通过自顶向下构造决策树来进行学习。构造过程是从“哪一个属性将在树的根结点被测试?”这个问题开始的。为了回答这个问题,根据上述属性信息增益的计算方法选择最佳分裂属性,分类能力最好的属性被选作树的根结点,然后为根结点属性的每个可能值产生一个分支,把训练集排列到适当的分支之下。然后重复整个过程,用每个分支结点关联的训练集来选取在该点被测试的最佳属性,直到这棵树能完美分类训练集或所有的属性都已被使用过。这就形成了对合格决策树的贪婪搜索。ID3算法可描述如图4—6所示。至坚耋星二至三鍪塞塑量竺=:主尘:墼璧耋量兰ID3(examples,targeLattribute,attributes)Examples是训练样例集,targ吼一attribute是分类属性,attributes是除分类属性外供学习的决策树测试的属性列表。返回一棵能正确分类给定examples的决策树。1.创建树的root结点;2.如果examples都在同一个类c中,那么返回root结点作为叶结点,以类c标记;3.如果at仃ibutes为空,那么返回root结点作为叶结点,标记为examples中最普遍的targeLattribute的值;4.选择att曲utes中分类examples能力最好的属性A;5.标记节点root为A,对于A中的每个可能值vi,(1)在root下加一个新的分支对应测试A=vi(2)令examples(v1)为examples中满足A属性值为vi的子集(3)如果examples(vi)为空,则在这个新的分支下加一个叶节点,节点标记为标记为examples中最普遍的targ叭一attmute的值;否则在这个新分支下加一个新的子树ID3(examples(Vi),targeI—attribute,attributes—fA});6.返回r00t。图4—6ID3决策树算法F远.4—64.2.2ID3decisiontreealgorithmID3算法的特点和面临的问题ID3在选择分裂属性时利用了信息增益的概念,算法的基础理论清晰,使得算法较简单,是一个很有实用价值的示例学习算法。该算法的计算时间是训练样例数、特征个数、节点个数之积的线性函数。有人曾用4761个关于苯的质谱例子做了试验,其中正例2361个,反例2400个,每个例子由500个特征描述,每个特征取值数目为6,得到一棵1514个节点的决策树,对正、反例各100个测试例作了测试,正例判对82个,反例判对80个,总广东工业大学硕士学位论文预测正确率81%,效果是令人满意的n“。但是,由于决策树方法本身并不完善,特别是在数据挖掘中又面临着许多新问题,如大规模的数据集、用户的参与、知识的可理解性和有用性等等,决策树方法也面临着一些实际问题,需要进一步的研究寻找更好的解决方案。(1)ID3算法选择属性A作为最佳分裂属性的原则是属性A使得E(A)最小。研究表明这种启发式方法存在一个弊端,即算法往往偏向于选择取值较多的属性。而取值较多的属性却不总是最优的属性,在现实情况中并不那么重要。例如:Bratko研究小组在研究判断病情的各种因素时,用ID3确定“病人的年龄(有9种值)”为应首先判断的属性(靠近决策树的根结点),但实际中医学专家却认为这个属性在判断病情时没那么重要。所以很多学者都认为Quinlan的熵函数并不理想,它有偏向于取值较多的属性的缺点m,。针对这个问题,有很多研究者进行了算法的改进,如cendrowska根据属性为实例分类提供了多少有用信息来选取属性,DeMantaras建议利用划分距离的办法选择分类属性m,,smyth的J_度量法m,,其共同的特点是基于信息熵的原理,使得每一次分裂后系统的熵值最小,目的是期望产生的决策树叶子节点和高度最小,也有人采用优值法的思想来改进信息增益”“,用“加权和”思想确定分裂属性m,等等。(2)ID3在建树时,每个节点仅含一个特征,是一种单变元的算法,属性间的相关性强调不够。虽然它将多个属性用一棵树连在一起,但联系还是松散的。同时,ID3算法不能处理连续属性取值问题,也有不少人在研究这个问题的解决方法,比如有人提出一种基于属性变换的多区间离散化方法RcATm,。(3)在建树过程中,由于训练集中的噪声、孤立点以及某个节点的数据量太小,决策树的许多分枝反映出训练集中的异常。这就是决策树的过分适应(OVerFitting)问题。它表现为用某些分类规则对训练集预测十分准确,而对测试集预测却误差极大。过分适应闯题是影响决策树预测准确率的关键问题。剪去决策树的冗余分枝是解决过分适应问题的重要方法。剪枝常常利用统计学方法,去掉最不可靠、可能是噪声的一些分支。基于误差估计的剪枝算法(Error_basedPruning)是Ouinlan提出来的具有代表性的迟滞修剪算法m,。4.2.3改进的ID3算法通过上述探讨,我们可以看出ID3算法的核心问题是选取在树的每个结点要测试的属性,我们希望选择的是最有助于分类实例的属性。ID3以信息增益作为启发式函数,偏向于选择取值较多的属性。从式(4—6)可以看出,在每一次的选择过程中,对每个属性A,E(s1,s2,...s。)都是相同的值,因此可以说信息增益Gain(A)只与式(4—5)中的E(A)有关,即由E(A)唯一确定了。而Gain(A)的目的是获得当以属性A作为测试属性时能的关于训练集x的最大分类信息,使划分后系统的嫡最小(即混乱程度最小)。它仅考虑了属性取值对类的概率分布情况,这样导致了Gain(A)的值极大的依赖于训练集的分类属性的取值。就此问题,有人提出了属性熵的概念,利用属性取值的概率分布特点定义属性嫡“…。对于训练集x,设属性A的取值为Va={al,a2,…a,),x是任一样本在属性A上的取值为ai,按照信息论中熵的定义,定义属性A的不确定度Ea:上E^(^)=一2二p(口。)1092(p(口t))扛l其中p(ai)为属性A取ai的概率。于是构造一个新的启发式函数:AttiGain(A)=EA(A)一E(A)(4—7)(4—8)在式(4—8)中,E一(A)只与属性A的取值概率分布有关,而与训练集x的当前分类无关。当属性A取值概率分布越平均,则EA(A)的值越大,A被选为最佳分裂属性的可能性就越大;反之,A的取值概率分布越集中,则E“(A)的值越小,A被选为最佳分裂属性的可能性越小。同时,A取值概率分布在所有类内越均匀,E(A)的值就越大,A被选为最佳分裂属性的可能性越小;反之,A取值概率分布在所有类内越集中,E(A)的值就越小,A被选为最佳分裂属性的可能性越大。这样做的好处是把属性取值的客观概率分布情况与取值对类的概率分布情况有机的结合起来了,在一定程度上避免了算法易陷于局部最优的情况。实验证明,以式(4—8)作为启发式函数生成的决策树在叶子节点、树的高度方面均优于原始的ID3算法。但是这样构造的启发式函数仍不能避免偏向于选择取值较多的属性的问题。如果我们引入属性的取值个数,计算一个属性的每种取值的平均增益,理论上,就减少了取值较多的属性被选中的可能性,在一定程度上广东工业大学硕士学位论文纠正ID3算法的取值偏向问题。那么启发式函数改进为:AttiGain7(A)=AttiGain(A)/N(4—9)其中N为属性A的取值个数。我们取AttiGain’(A)最大的测试属性作为最佳分裂属性。4。3小结本章具体描述了数据挖掘中的k—means算法和ID3算法,探讨了这两种算法的特点和存在的不足。K.meaⅡs算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量大时,算法的时间开销是非常大的,针对这个问题,本章提出了借用三角形三边关系定理来简化计算比较过程。ID3算法的核心问题是选取树的每个结点上的测试属性,它以信息增益作为启发式函数,偏向于选择取值较多的属性,所以本章提出属性熵均值作为建树的启发式函数。这些研究为后续客户获取工作做了技术准备。帚血覃猬幅oKM甲吾,一欹趴阴买轨第五章酒店C跚中的客户获取的实现军山大酒店是一家准三星级酒店集团,目前急于扩展业务,客户获取对他们来说有很重要的意义。本章将在前述几章论述的基础上,以Microsofcstudio_net为开发平台,以军山大酒店为例实现客户获取。visual5.1客户价值客户价值,不管是对老客户还是未来的新客户来说,都是一个很重要的概念。“成为客户”是通往客户价值计算的第一步,客户显然比非客户更有价值m,。一般客户的发展阶段可以用图5—1来表示。图5.1客户发展阶段Fig.5—1developmentphaseofcustomer长期客户价值的一个最重要的决定因素是如何获取客户及客户的最初行为。所以我们的首要任务是在很多非客户的数据中找出可能的新客户。最近的过去是对将来的最好的预测,虽然这条定律并不总有效,但至少是一个有指导意义的猜测。我们将现有客户的特征和消费行为作为挖掘潜在客户的一个参考,结合对潜在客户的二元反应行为建模,从而达到低成本的客户获取的目的。据美国数据库营销研究所ArthurHughes的研究,客户数据库中有三个要素能够作为客户价值分析的重要指标。这三个要素是:最近一次消费(Recency)、消费频率(FrenqueⅡcy)和消费金额(Monetary)…1。4l广东工业大学硕士学位论文最近一次消费指客户最近一次购买产品或服务的时间有多远。理论上,上一次消费时间越近的顾客应该是比较忠诚的顾客。最近才买你的商品、服务或是光顾你商店的消费者,是最有可能再向你购买东西的顾客。而且,要吸引一个几个月前才光顾你的顾客,比吸引一个一年多以前来过的顾客要容易得多。消费频率是客户在特定的期间内购买的次数。一般认为,最常购买的客户也是满意度最高的客户,增加客户购买的次数意味着从竞争对手处抢占了更多的市场占有率。消费金额是所有数据库报告的支柱。最近一次消费、消费频率、消费金额是分析客户价值最重要也是最容易的方法,按照这三个要素建立的模型称为RFM模型,能帮助企业更好的理解客户之间的差异。5.2客户细分当企业处在大众营销阶段时,对客户的分层比较简单,如分为大中企业、小企业、个人用户等。随着精准化营销、一对一销售时代的来临,客户细分的方法就需要多样化。营销活动要求对客户进行更为细致的分层。在对现有客户进行细分时,常常会遇到这样一些问题:・细分有哪些方式?除了用客户对企业的当前利润贡献来划分。是否还有其它细分变量?・细分应该是统一的吗?即一旦一个客户被划归到一个类别,是否企业的每个部门都要按照这一划分采取一致的行动?这些问题的回答都涉及到管理学理论,我们对此不作深入研究,主要从技术的角度探讨客户的细分。进行客户细分通常都有一定的目标,根据目标选择合适的细分标准是cRM系统中客户细分的原则。本课题中进行客户细分的主要目的是从现有客户的消费行为模式中找出客户的某些重要特征,为潜在客户的特征提供一个参考,以加强对潜在客户获取的决策力度。我们采用RFM模型进行客户群的细分。根据酒店用户的要求,分别把R、F、M三个要素划分为3个等级,结合这三个指标,可以把客户分成9个等级,也就是聚类成9个簇。在第三章建立的数据仓库模型中已经有了每个客户的RFM数第五章酒店cRM中客户获驭的实现据,利用在第四章中改进的k.means算法对客户数据进行聚类,就能得到现有客户细分的结果。实现聚类算法的主要数据结构:(1)记录一个簇的信息PublicStructureclusterlistDimMeanAsDouble’簇均值Integer’簇中记录数DimclusterNumAsDimCluserIdAsInteger’簇号DimSquareErrorAsDouble’簇中平方误差和EⅡdStructure(2)记录一个簇中所有记录的关键字PublicStructurerecordnumDimculsteridAsInteger’簇号DimrecordidAsEndStrIlctureArrayList’记录关键字(3)记录各个聚类中心间的距离Dimmean—dist(,)asdouble’用二维数组记录中心间的两两距离实现聚类算法的主要函数有:(1)init—mean():设定初使聚类中心(2)calc—mean—eucli():计算各中心间的欧几里德距离(3)calc—sanLeucli():计算各个样本点到中心欧几里德距离(4)calc—euclidean():计算两个点间的欧几里德距离公式(5)fino—cluster():找到离样本点最近距离的簇,并分配样本点到该簇(6)calc—new—mean():一次划分后计算新的聚类中心(7)calc_Jc():计算误差平方和准则函数(8)kmeans():运行k.means算法,若不满足算法结束条件则递归调用。(9)show—cluster():展示一个簇内的客户数据聚类的界面如图5—2所示,用户首先要输入允许的误差准则和聚类要生成的簇数。43图5—2聚类界面Fig.5—2theinterfaceofclustering5.3预测潜在客户的反应行为模型在早期的数据收集工作中,我们建立了酒店数据仓库,记录了很多潜在客户的信息,我们抽出一部分客户进行营销反应测试,这样就得到了分类用的训练集。一次市场活动后得到的客户反馈叫做“反应行为模式”,反应行为模式可以用来定义出不同类型的客户反应行为,并且可以对不同反应的可能性进行分类,以便深入的研究和制作报告。反应行为模式分为两种,一种是二元反应行为模式,在二元反应行为模式中,客户的反应被归纳成两类:是或者否;另~种是分类反应行为模式,分类反应行为模式允许根据所从事的商业领域定义多种反应行为,带有一些随机性。本文采用一种简单的反应分类方法一~二元反应行为模式,分类属性为潜在客户对酒店的反应。用1表示积极反应,即对该酒店有兴趣,可能会入住;0表示消极反应,即对于入住该酒店有兴趣。然后根据资深酒店专家的经验,选择以下属性作为测试属性。・职业:销售(1),非销售(O)●收入:<=2000元(1),>2000元(0)●地区:华北,华东.东北,西北,其他第五章酒店cRM中客户获取的实现●年龄:年轻(<=25),中年(20..55),老年(>=55)可以看到在这个训练集中,地区属性的取值较多,这也就是要改进ID3算法的启发式函数的原因。用改进的ID3算法对训练集数据进行学习就可以得到潜在客户的反应行为模型。实现ID3算法时定义的主要数据结构:(1)定义测试属性相关信息PublicStructuretestattributeDima.fieldAsstring’属性名Dima—entropyAsDouble’属性的增益Dima—countAsInteger’属性的取值个数Dima—valueAsA玎ayList’属性值列表EndStructure(2)定义分类属性相关信息PublicStructureclassattibuteDimclasslabel()AsInteger’类标号属性值DimcountAsInteger’该类中元组个数EndStructure(3)定义树节点结构PublicStructuretreeDimnodenameAsString’节点名称,用属性名表示DimfathemodeAsString’父节点标号DimnodetermAsstring’该节点的条件值DimleafAsB001ean’是否为叶子节点DimleafrecordAsstring’如果是叶子结点,记录数据的分布情况:如果’不是叶子节点,为空EndStructuref4)定义属性列表PublicStructureattrilistDimfieldsAsArrayList’表中的属性名DimnameAsArrayList’窗口显示的属性名』变三些查耋至圭兰堡篁塞DimnagAsArrayList’标记是否为类标号属性,1为类标号属性,O为’测试属性EndStructure实现ID3算法时定义的主要函数:(1)g吼一all—attri():获取测试属性、类标号属性列表(2)g饥_test—attri():获取测试属性的相关信息(属性名,取值个数,属性值)(3)get—class—attri():获取类标号属性的相关信息(属性名,取值个数,属性值)(4)gct—class_entro():计算测试属性的信息熵(5)g就je虬一entro():计算测试属性的条件熵(6)ganaratejree():生成分类树(7)tree—over();当前节点是否符合算法结束条件,若结束则创建叶子节点(8)creat—lea“):建立叶子节点图5-3是分类界面,用户可以在此选择测试属性和分类属性。图5—3决策树分类界面Fig.5—3theinterfaceofdecisiontreeclassification5.4小结本章阐述了如何在酒店cRM中实现客户获取。首先,介绍了当今比较流行的第五章酒店cRM中客户获取的实现RFM模型:最近~次消费、消费频率和消费金额,全面利用酒店的客户信息,阐述了在酒店cRM中实施客户获取的方法。本章应用第四章讨论的改进算法,结合现有客户的消费行为模型及潜在客户的反应行为模型为决策者提供参考。』耋三些查兰堡圭主垒篁塞结论与展望cRM是对企业和客户之间的交互活动进行管理的过程。在这个过程中,企业获得了许多关于现有客户的消费行为和潜在客户的有效数据。但大量的数据往往会防碍企业的工作,因为他们不得不从中筛选出有价值的信息。数据挖掘能自动地从庞大的数据堆中找出有用的信息,所以数据挖掘在cRM中得到了广泛的应用。本文针对酒店行业客户获取即潜在客户的挖掘这一主题进行研究,建立面向酒店cRM的数据仓库模型,并采用数据挖掘中的聚类和分类技术建立潜在客户的模型。文中分析了k—means聚类算法和ID3决策树算法的特点和存在的不足,针对其某些不足,提出了改进的方法,将其应用在“军山大酒店客户关系管理系统”的客户分析功能模块中,识别潜在客户群。论文的创新之处在于:(1)把cRM理念用于酒店行业,CRM为酒店企业提供了一种崭新的思路。cRM在我国的起步比较晚,应用于酒店行业的更少。通过使用数据仓库与数据挖掘工具对客户信息进行分析挖掘,找出其中的潜在客户,达到客户获取的目的,节约了酒店的运作成本,有一定的实用参考价值。(2)由于k.means算法以几何距离为度量,所以提出了根据三角形三边关系定律预先判断是否要计算样本点之间的距离,当符合一定条件时才计算样本点之间的距离的改进的k—meaIls聚类算法,减少了算法的时间开销。(3)提出采用属性熵增益平均值来选择决策树的最佳分裂属性,对启发式函数进行改进。数据挖掘是一门新兴的交叉学科,汇集了数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化等多种技术,由于本人知识面的限制,再加上实验数据有限,本文的工作还有待进一步的完善。比如:采用诸如神经网络、遗传算法等方法进行潜在客户反应行为的建模;根据酒店的具体使用情况不断地对模型进行评估和改进。我们相信cRM应用一定会成为酒店企业立足于现代信息社会的一把利器。参考文献参考文献[1]黄晓斌,邓爱贞.现代信息管理的深化一数据挖掘和知识发现的发展趋势.现代图书情报技术,2004.4[2]何荣勤.cRM原理.设计.实践.北京:电子工业出版社,2003[3]干雪芳,詹兆忠,罗福强.计算机现代饭店管理.重庆:重庆大学出版社,2002[4]陈建伟.基于多Agent协作机制的酒店客户关系管理系统的研究.工学硕士学位论文.广东工业大学,2004[5]王光宏,蒋平.数据挖掘综述.同济大学学报.2004,32(2)[6]李秋丹.数据挖掘相关算法的研究与实现.工学博士学位论文.大连理工大学,2004[7]国家信息化测评中心:连晓强.数据挖掘:金融信息化新热点http:,,www.niec,org.cIl,xxhlt,ltl2lO-3.htm[8]数据仓库之路:商业指南针.http:,,www.dwway.com/product.php?productid=l,2003.8[9]上海复旦德门软件有限公司:http:,,www.datamining.com.cn,#[10]DoNews,cOM:2004年IT应用走向.http://www.donews.net/ke0321,articles,137285.aspx,2004.10(11]王英磊.基于数据挖掘的客户分析在客户关系管理中的应用.工学硕士学位论文.北京航天航空大学,2000[12]中国人力资源网:全球cRM市场趋势分析.http:,,www.softhOuse.com.cn,html,200503,2005032210343100005786_html,2005+[13]硅谷动力:中国cRM市场发展现状.http:/,www.softhouse.com.cn,htmt,200502/2005020110551100004293.html,2005[14]戴君琴.面向cRM的数据挖掘技术的应用.情报技术,2004.7[15]w.H.Inmon著,王志海,林友芳等译.数据仓库.北京:机械工业出版社,2000[16]郝先臣,张德于,高光来,赵海.数据挖掘工具和应用中的问题.东北大学学报(自然科学版),VOL.22,No.2,200l[17]MacQueenJ.B:somemethodsforclassificationaⅡdanalysisofmultiVariateobservations.Proc.5一thSymp.MathematicalStatisticsandProbability,Berkelely,CA,VoI.1,1967[18]Kaufman,L.,Rousseeuw,P.J.,1990.FindingGroupsinData.AnIntroductiontoClusterAnalysis.Wiley,Canada.[19]张静.决策树分类方法及其在铁路客票营销分析中的应用.工学硕士学校论文,郑州大学,2003[20]TOMM.Mitcheu著,曾华军,张银奎等译.机器学习.北京:机械出版社,2003[21]张箍,常桂然,黄小原.数据挖掘技术在cRM中的应用,中国管理科学,2003,ll(1)[22]AiexBberson,stephensm“h,】(urtthearling著,贺奇,魏藜,蔡致远,郭志懋,郑骏译.构建面向cRM的数据挖掘应用.北京:人民邮电出版社,200l[23]蔡平.客户关系管理在饭店业中的应用研究.中南林学院..硕士学位论文,2003.12[24]OliviaParrPud著,朱扬勇,左子叶。张忠平等译.数据挖掘实践.北京:机械工业出版社,2003[25]chrisT0dman著,钟鸣,常征等译.支持cRM的数据仓库设计.北京:机械工业出版社,2004[26]沈兆阳.sQLserver2000OLAP解决方案一数据仓库与Analysisser、,ices.北京:清华大学出版社,200l[27]JiaweiHan,MichelineKa如【ber.DataMining:Conceptsand1bchniques[M].SanFraIlcisco:MorgaIlKaufmann,2000[28]IntroductiontoDataMiningclustering,http://www.cs.purdue.edu,homes,clifton,cs490d/Cluster.pdf,2004[29]李金宗.模式识别导论.北京:高等教育出版社,1994[30]Danpelleg,Andrewmoore.acceleratingexactk.meansalgorithmswithgeometricreasoⅡing.January2000,CMU—CS-00—105[3lJVanceFaber。ClusteringandtheContinuousk—MeansAlgorithm.LosAlamosScience.Number22,1994[32]孙总参,陶兰,齐建东,王保迎.基于k—d树的k—means聚类方法.计算机工程与设计.2004,V01.25[33]GregHamerly,CharlesElkan.Alternativestothek—meansalgorithmthatfindbetterclusterings.CIKM’02,NoVember4・9,2002,McLean,Virginia,USA.[34]J.M.Pe~na,J.A.Lozano,P.Larra~naga.AnempiricalcomparisonoffourinitializationmettlodsfortheK—Meansalgorithm.PatternRecognitioⅡLetters20(1999)[35]黄健元.模糊isodata聚类分析方法的改进.南京航空航天大学学报.v01.32,No.2,2000.4[36]李昕,郑字,江芳泽:用改进的RPcL算法提取聚类的最佳数目,上海大学学报.v01.5,No.5,oct.1999[37]XuL,KrzyzakA,0jaE:RivalpenalizedcoInpetitivelearningforclusteringanalysis,RBFnet,andcurvedetection[J】.1EEETransactionsonNeuralNetworks,1993,4(4)[38]QuinlaⅡJR.C4.5:programsforMachineLearning.SanMateo,CA:MorganKaufmann[39]QuinlanJR.Theef:FectofnoiseCarbonell,TMonconceptleaming,In:RSMichalske,JGMitchell,eds.Machine1986Le啪ing:AnArtmcialIntelligenceApproach,Morgan,[40]栾丽华,吉根林.决策树分类技术研究.计算机工程.VoL30,No9,2004.5[41]孙超利.数据挖掘决策树方法的研究与应用.河海大学.硕士学位论文,2003[42]史忠植.知识发现[M].北京:清华大学出版社,2002[43]Lopestreedemantaras,R.Adistance_basedattfibuteselectionmeasurefordecisioninduction.MachineLearniⅡg,1991[44]】lSmyth,R.M.Goodman.Ruleinductionusinginformationtheory.IⅡ.CtPiatetsky—ShapiroandDatabases.1990W.Frawley(eds).KnowledgeDiscoveryin5l广东工业大学硕士学位论文[45]王静红,李笔.基于决策树的一种改进算法.电讯技术.2004,5[46]唐华松,姚耀文.数据挖掘中决策树算法的探讨.计算机应用研究.2001[47]赵强利,杨学军,蒋艳凰.具有高可理解性的二分决策树生成算法研究.软件学报.2003V01.14No.12[48]J.R.Ouinlan:Simplifyingdecisiontrees.Int.J.ofMan・MachineStudies.27,1987[49]蒙祖强,蔡自兴.一种基于属性熵的决策树改进算法.第五届全球智能控制与自动化大会,2004[50]Gordons.Linoff’MichaelJ.A.Berry著,沈钧毅,宋擒豹,燕彩蓉译.web数据挖掘:将客户数据转化为客户价值.北京:电子工业出版社,2004[51]Bult_J.R,Wansbeek.T.OPtimal14(4),1997selectionfordirectmail.MarketingScience塞鎏兰堡塑璺耋耋墼鎏奎攻读学位期间发表的论文1.易瑁,梁志勇,唐平.基于xⅢ1的虚拟数据库中间件的研究.计算机与数字工程,2004年5期2.易瑁,路璐,唐平,梁志勇.构建基于cRM理念的中小型酒店管理信息系统.计算机与数字工程,2005年6期3.路璐,易瑶,林小平.数字签名在校园网身份认证模型中的应用.广东工业大学学报,已收录4.梁志勇,易瑁.帧差法在仓库监控智能跟踪系统中的研究.广东工业大学学报,2005年第1期5.梁志勇,陈云华,唐平。陈建伟,易瑁.最少帧差法在智能跟踪系统中的应用.微机发展,2004年第8期6.彭伟民,唐平,易瑁.基于需求的酒店管理系统的建模与实现.微机发展.已录用广东工业大学硕士学位论文独创性声明秉承学校严谨的学风与优良的科学道德,本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,不包含本人或其他用途使用过的成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明,并表示了谢意。本学位论文成果是本人在广东工业大学读书期间在导师的指导下取得的,论文成果归广东工业大学所有。申请学位论文与资料若有不实之处,本人承担一切相关责任,特此声明。指导教师签字:论文作者签字:岛招2005年5月j占日致谢本论文是在我的导师唐平副教授的悉心指导和亲切关怀下完成的,在此,首先对唐老师表示诚挚的敬意和衷心的感谢,感谢唐老师为我付出的汗水和心血。回首读研岁月,历历在目,万千思绪集聚心头。唐老师_严谨求实的治学态度、诲人不倦的工作作风、谦逊宽厚的品格深深的影响了我:她深厚的学术功底、求实的科研精神、踏实的工作作风以及敏锐的洞察力常常给我启迪。在生活上,唐老师也给了我无微不至的关怀,让我深深感受到团队的凝聚力和温暖。唐老师的循循善诱、谆谆教导经常激励着我,令我终生受益。感谢陆正康副教授在我剐跨入研究生学习阶段时给我的指导和鼓励,感谢他教授我做学问的方法。感谢计算机学院的张益新教授、张立臣教授、李振坤副教授、李之彦副教授、何振炎书记、李卫华教授、林小平老师、林芹老师在这三年里对我的关怀和帮助,使我得以顺利完成学业。感谢“军山大酒店客户关系管理系统”项目组的刘洪伟教授、崔洪刚老师、路璐老师、明俊峰老师对我的帮助。感谢同教研室的梁志勇同学,师兄钟详睿、陈建伟,师弟彭伟民、王越超,师妹杨英在学习、生活上对我的关心和帮助;感谢我的室友谢翠萍、樊敏,我们一起度过了三年美好的时光;感谢和我一起度过三年研究生学习生活的同学们,感谢他们三年来在学习和生活上的关心。感谢我的父母、哥哥、姐姐这么多年来给予的支持、鼓励和帮助,以及男友这三年来的相伴,他们默默无私地奉献、支持和厚望是我坚强的后盾和克服困难的力量源泉。三年紧张的学习生活就要告一段落了,我深知我取得的每一点成绩都离不开身边的老师、同学、家人和朋友的关怀和支持,最后,再次衷心感谢和祝福所有支持、帮助过我的老师、亲人、同学和朋友们。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top