个性化推荐技术综述
杨莉云
(广东商学院华商学院, 广州 511300)
摘要: Internet的发展在给用户带来丰富信息资源的同时也给用户快速找到自己需要的信息带来了很大的困难,用户迫切需要一种能够根据自身特点组织和调整信息的服务模式,个性化服务应运而生。本文根据推荐原理的不同分别介绍了基于内容的推荐技术、协同过滤推荐技术、混合推荐技术及其它的推荐技术,分析各种技术的优缺点及适用条件,并对今后个性化推荐技术的研究热点和发展方向进行了展望。
关键词:推荐系统;基于内容的推荐;协同过滤;关联规则
0 引言
信息技术的发展和互联网的普及使用户更方便地接触到更多的信息,但用户在享受信息技术带来的便利的同时,也遇到了信息“过载”的问题,用户无法从海量的信息中提取自己所需要的信息。一些搜索引擎通过用户输入关键字可以检索出相关内容,但由于缺乏用户兴趣的知识,会把所有与之相关的信息全部呈现给用户,不能过滤掉用户不感兴趣的信息。也有一些电子商务网站会有“热点推荐”的功能,但是面向所有用户的非个性化推荐。用户如何在一个网站上快速而有效地找到自己所需要的项目和信息?个性化推荐系统是解决这一问题的有效途径。
1基于内容的推荐
基于内容的推荐起源于信息检索领域,它利用资源和用户兴趣的相似性来过滤信息。首先分析项目的内容,根据用户评价过的项目建立用户的兴趣模型,即用户描述文件。根据用户描述文件的不同又可以分为基于向量空间模型的推荐、基于关键词分类的推荐、基于领域分类的推荐和基于潜在语义索引的推荐。
1.1基于向量空间模型的的推荐
基于向量空间模型的推荐是基于内容推荐的最常用的方法。该方法将用户描述文件及项目表示成一个n维特征向量{(t,,w1),(t2,w2),...(tn,wn)}。向量的每一维由一个关键词及其权重组成。权重可取布尔型和实数值,分别表示了用户是否对某个概念感兴趣及感兴趣的程度。关键词根据推荐项目的不同可以是项目不同的属性值,对文本项目来说,关键词就是从文档中抽取的单词,权重可以通过TF-IDF技术计算得到。对目标用户进行推荐时,将用户描述文件看成目标项目,可采用多种方式(如欧氏距离、余弦相似性、相关相似性等)计算其它项目与目标项目的相似性,按相似性从大到小的顺序将项目输出给用户。
[1]
1.2基于关键词分类的推荐
Mooney提出了基于文档特征词分类的预测思想:将推荐看成是项目分类问题。首先定义一组类(评分),并让用户对一组训练项目进行评价,基于这个评价计算每个关键词属于某个类的条件概率,从而得出用户的特征描述。然后根据这个特征描述计算推荐候选集中各个项目属于某
1
个类的后验概率。最后将这个后验概率作为项目的推荐预测并将具有最高得分的推荐提交给用户
[2]
。
用户的兴趣也是通过关键词来表达,与向量空间模型不同,用户描述文件用特征词-类别矩
阵Xmn来表示,m是特征词个数,n是类别数,每一个元素xi,j表示第i个特征词属于第的条件概率p(ai|cj),项目通过特征词来表达,没有项目描述文件。
j类
作者简介:杨莉云,女,1984年生,汉族,河南驻马店人,讲师;主要研究方向:电子商务、管理信息系统。 这种方法的假设条件是,所有的项目都可以通过特征词集合中的特征词来表达,每个特征词
出现的概率依赖于项目类别而独立于其它特征词。对给定的项目V,每一个类别的后验概率可以通过如下的贝叶斯规则进行计算:
p(cj|I)p(cj)p(I)p(ai1|I|i|cj)
I|其中ai为项目的第i个特征词,|是项目中特征词的数量。前验概率
p(I)可以被忽略,因
为对于任何一个给定的项目其是一个常量。
其中的参数按以下方式进行估算:目标用户对每一个训练项目item都给予一个评价,于是先验概率p(cj)可通过下式计算:
1|Examples|p(cj)
|C||Examples||Examples||itemj|其中itemj表示被给予评价rj的所有项目。
设Keywords表示所有训练项目中的所有不同的特征词,|Examples|表示训练集中的项目数,对于每一个的类别cj,n表示所有属于该类的的训练项目中的不同特征词的总数,对
Keywords中的每一个特征词ai,nk表示该词语在所有属于该类别的训练项目中的次数,则条
件概率p(ai|cj)可以通过下式来计算:
1|Examples|p(ai|cj)
|Keywords|n|Examples||nk|这些参数都通过Laplace估算进行“平滑”以避免对没有出现在有限训练样本中的特征词的零概率估算。
文档分类完成后,根据后验概率最高的类目决定项目的预期评价。岑咏华认为这种评价不科学,预期评价应该是所有类目后验概率的数学期望。最后,将预期评价较高的前K个项目作
[3]
为推荐呈现给用户。
2
1.3基于领域分类的推荐
为了更好地区别用户兴趣之间的差异,曾春等提出了一种基于概率模型的文本推荐方法,把用户兴趣文件表示为用户对不同领域感兴趣的概率,先建立一个领域分类模型,然后计算所有文档和用户在这个分类模型上的概率分布,用该概率分布来表达文档和用户兴趣。
假定领域类型的集合为C[4]
{c1,c2,...,cn},其中n是领域个数,cj表示第j个领域,用户
描述文件表示为一个条件概率的矢量:u{p(c1|u),p(c2|u),...,p(cn|u)},文档和用户兴趣的表达是一致的:d{p(c1|d),p(c2|d),...,p(cn|d)}。文档d对领域cj的后验概率为
p(cj|d)p(d|cj)p(cj)p(d)n其中,p(d)p(d|cj)p(cj),p(cj)j1cj中的文档数文档集中全部文档数
假定文档的所有特征都独立出现,则p(d|cj)可以表示为文档所有特征条件概率的乘积:
p(d|cj)=p(t|cj)
td假定n(cj,t)n(cj,t)表示特征t在类cj中出现的次数,n(cj)为cj中全部特征出现的次数之和,|v|表示文档集中全部不同特征的数目,根据Lidstome连续定律,对一正数,p(t|cj)的估计值为:
p(t|cj)=n(cj,t)n(cj)|v|
最后计算文档d推荐给用户u的概率:
p(u|d)=p(u)j1np(cj|u)p(cj|d)p(cj)=
这种方法不仅可以体现用户兴趣的多样性,而且由于用户感兴趣领域的个数远小于关键词的个数,算法的运算速度也得到了提高。
基于向量空间模型的推荐和基于领域分类的推荐用户描述文件都用向量空间来表示,只是每一维的含义不同,计算方法也不同。第二种方法的用户描述文件用关键词-类别矩阵来表示。方法二和方法三在计算文档的类别时都用到了朴素贝叶斯规则。虽然三种方法各不相同,但有一共同点:都直接或间接用关键词表达用户兴趣,由于同义词和多义词的存在,用关键词表达用户兴趣使得推荐结果难免有些偏颇。潜在主义索引(Latent Semantic Indexing,LSI)是基于向量空间模型的补充和扩展,最初应用于文本信息检索领域,有效地解决了同义词和多义词的问题。
[5]
1.4潜在语义索引
潜在语义索引(LSI)是一种概念检索方法,通过分析大量的文本集,自动生成关键字-概念,文档-概念之间的映射规则。该方法试图解决单纯词形匹配方法中的同义词和多义词问题,应用该方法对英文文献进行检索的查准率比传统的词形匹配算法高出10%-30%
[6]
。LSI方法对
3
索引项文档矩阵X进行奇异值分解(Singular Value Decomposition,即SVD),降维后的矩阵表达了索引项与文档之间的潜在主义关系。
在LSI模型中,索引项和文档的关系由索引项-文档矩阵Xtd来表示.其中矩阵Xtd的行向量(d维)表示t个不同的索引项,列微量(t维)表示文档集中d个不同的文档。矩阵中非0元素xij表示索引项i在文档
j中出现的次数,通常用索引项加权的方法来表示。
T对任意索引项-文档矩阵Xtd都有XtdTSD。其中T由Xtd的左奇异向量构成,
D由Xtd的右奇异向量构成,Sdiag(1,2,...,d),且1 2…d0,i为矩
阵Xtd的奇异值。取降维因子k,令k满足贡献率不等式:
aiaii1i1dk,为包含原始信息的
阈值。贡献率不等式是参考因子分析的相应概念提出的用于衡量k维空间因子对于整个空间的表示程度
[7]
。k值过小会使一些有用的信息丢失,k过大则会使运算量加大,根据不同的文本集
Tkd和处理要求,最佳的k值也不尽相同。SVD降维后的Xtd表示为Xtd=Ttk×Skk×D。
Ttk×Skk是tk阶矩阵,其t个行向量分别对应t个索引向量,将索引向量由d维降为k维;
Ddk×Skk是dk阶矩阵,其d个行向量分别对应d个文档向量,将文档向量由t维降为k维。
k维中的每一维对应一个伪概念。
根据Ddk×Skk矩阵,我们可以计算不同文档向量之间的相似性,找出目标文档的前N个邻居列表,然后根据该列表中各用户感兴趣的比例确定该文档的接收对象。
基于内容的推荐优点是直接、简单,推荐结果易于解释。但也有一定的局限:①仅适用于产品特征容易抽取的领域,在另外一些领域如电影、音乐、餐厅等项目特征不易被一组关键词来清晰描述时,基于内容的推荐就显得无能为力,即便是在文档领域,关键词也仅反映了文档内容的一部分,一般情况下还会有其它一些因素影响用户的评价,如文档的质量,下载所需时间,视觉效果(有无图像等)。所以不能从用户的评价中准确得到用户的兴趣信息。②只能推荐与用户已有偏好相似的项目,不能为用户发现新的感兴趣项目。
2.协同过滤推荐
目前研究最多也是应用最成熟的个性化推荐技术,是与基于内容的推荐完全不同的一种推荐方法,不是推荐与用户过去偏好相似的项目,而是根据其他用户的偏好信息产生推荐。通过分析用户评价信息(评分)把有相似需求或品味的用户联系起来,用户之间共享对项目的观点和评价,这样就可以更好地做出选择。Typestry是最早提出来的协同过滤推荐系统,用于过滤电子邮件,推荐电子新闻,由于其要求用户手工输入查询条件,不牵涉到用户间的相似性计算,严格来讲,它只是一个信息检索系统,只是对检索结果根据其它用户的反馈进行筛选推荐系统有GroupLens/NetPerceptions,Ringo/Firefly等。
[8]
。其它的协同过滤
4
根据算法运行期间所用到的数据不同,协同过滤推荐可以分为两大类:基于内存的协同过滤(memory-based collative filtering)和基于模型的协同过滤(model-based collative filtering)。
2.1基于内存的协同过滤
基于内存的算法运行期间需要将整个用户数据库调入内存,它包括基于用户的协同过滤和基于项目的协同过滤。基于用户的协同过滤是推荐系统最早采用的一种方之一,它基于这样一个假设:如果用户对一些项目的评分比较相似,则他们对其它项的评分也比较相似。系统根据用户对不同项目的评分来计算用户之间的相似性(余弦相似性、修正的余弦相似性、相关相似性等),取相似系数最大的前N个作为目标用户的邻居,并根据邻居用户的对项目的评价产生推荐。B Sarwar把算法分为三个主要的阶段:表示阶段、邻居形成阶段、推荐产生
[10]
[9]
,表示阶段用mn阶客户-项目评价矩阵表示,由于一个客户所评价/购买的项目只占了所有项目的一小部分,通常不到1%,这就产生了数据稀疏性问题,依此得出的相似系数会很不准确,对邻居形成阶段的相似性计算造成了障碍,由于确定目标用户的邻居用户是协同过滤的关键问题,许多学者对此进行了改进。
奇异值分解技术(Singular Value Decomposition)对原始矩阵进行降维处理
[11]
,这与基于内
容的推荐的潜在语义索引用到的方法是一样的,都减少了相应的列数,增加了数据的稠密性。文献[12]提出了基于项目的协同推荐,并其证明比基于用户的推荐效果好。首先计算目标项目与其它项目之间的相似性,根据用户已评分项目来预测用户对目标项目的评分,把评分最高的前N个项目作为推荐结果输出。二者在算法上并无本质区别,一个是计算用户间的相似性,一个是计算项目间的相似性,一个对客户-项目评价矩阵的行向量进行操作,一个对客户-项目评价矩阵的列向量进行操作。K Goldberg用主成分分析法进行了改进,从原始评分矩阵Rn*m中选出没有空值的k列形成标准矩阵An*k,再对An*k进行主成分分析,把K维降为2维,将n个用户的偏好信息映射到一个二维的特征平面上。在此平面上对用户聚类,预测除k个项目以外的其它项的得分,降序排列后输出给用户
[13]
。文献[14]使用形式符号来表示用户文件(Modal Symbolic User Profile),
计算用户每一个评分等级上其它用户的评分分布,最终的用户文件采用一个表示,其中
DD的矩阵来
第一行表示用户评分是1的项目其它人的评价是1,2…D表示共有多少个评分等级。
D的比例各是多少,每一行的数值相加等于1。这种方法计算简单但结果难以解释。S Kuwata
提出“一步到位协同过滤”( one-shot collaborative filtering)。与传统协同过滤方法不同,传统方法各自独立地预测未评分项的得分,一步到位协同过滤通过最小化已知评分分布和未知的评分分布的KL散度(Kullback-Leibler divergence)来同时预测所有未评分项的得分,并且各项的得分相互关联。
[15]
2.2基于模型的协同过滤
基于模型的算法首先构造一个用户评分的数据模型,运行期间将建立的模型调入内存。由Breese等人于1998年提出,从概率角度看待协同过滤问题,提出了两种基于模型的协同过滤方法:Bayesian聚类技术(Clustering)和Bayesian网络技术
[16]
。Bayesian聚类技术的基本思想
是将相同或相似偏好的用户分为一组,给定用户的分组,用户对各项目的偏好相互独立,用户所属类别和用户对各项目评分的联合概率分布通过贝叶斯公式来计算。LH Ungar在此基础上进行了改进,比较用不同算法(E-M算法、K-Means算法、Gibbs采样算法)来估计模型参数,得出结论Gibbs采样算法要优于其它两种算法并更有利于模型的扩展,但是计算量却很大最终得出的模型是一棵决策树,每一个项目都由其父节点预测其得分。
[17]
。
Bayesian网络技术:Bayesian网络中的节点代表项目,每个节点的状态代表其可能的得分,
5
基于内存的协同过滤可利用最新的用户数据产生推荐,但随着系统中项目的不断增多,用户数据库将变得非常庞大,利用整个用户数据库产生推荐非常耗时,从而使得系统的实时性难以保证,这也是基于内存的推荐算法面临的主要挑战。在基于模型的推荐算法中,模型的建立可以离线进行,因此能有效地缓解推荐算法的实时性问题。但模型相对于原始用户数据而言具有滞后性,为了保证模型的有效性必须对模型定期更新
[18]
。实际中也可以将两种技术相结合,DM Pennock
[19]
把用户评分看成由其真实喜好加上一系列高斯噪声得到。根据目标用户属于不同个性类型的概
率及各个性类型对目标项目的评分预测用户对目标项目评分的概率分布。另外也可以把基于模型的协同过滤推荐和基于内容的推荐结合起来,以充分利用系统中的数据(用户评分和项目特征)解决冷启动问题,提高推荐效果
[20]
。
与基于内容的推荐相比协同过滤有以下优点:①对内容信息不容易抽取的项目能产生完全自动化的推荐。②能根据项目的质量和用户的品味产生推荐。③能为用户发现新的兴趣。但也存在一些缺陷:①数据稀疏性问题:如前所述,大多数用户只是对一小部分项目进行了评分,原始的用户-评分矩阵非常稀疏,因此找到真正相似的用户是很难的,系统使用初期这个问题更加突出。②可扩展性:随着系统中项目和用户数量的增多数据库将变得非常庞大,为用户产生推荐的精度和实时性都因此而降低。③冷开始问题:如果没有人对某件项目评分,这件项目将永远得不到推荐。
3其它推荐技术
3.1关联规则推荐
关联规则由R Agrawal最先提出,它在大的顾客交易数据集上找出项集之间的关联性。分析顾客放入其购物篮中的项目,了解哪些项目同时频繁地被顾客同时购买,进而形成这些项目之间的相关推荐
[21]
。
关联规则挖掘是数据挖掘领域的一个重要分支。关联规则就是在一个交易数据库中统计购买了项目集X的交易中有多大比例的交易同时购买了项目集Y,得到的关联规则表示为:X=>Y[s%,c%]。其中s表示关联规则的支持度,c表示关联规则的置信度。使用关联规则发现算法找出所有满足最小支持度和最小置信度的关联规则R。
发现所有的有充分支持度和置信度的关联规则可以分为以下两个子问题其他组合称为小项目集.解决此问题的算法有Apriori和AprioriTid等。
用大项目集产生需要的规则。一般的想法是,如果ABCD和AB是大项目集,通过计算比率r=支持数(ABCD)/支持数(AB),从而确定是否有规则。仅当r大于或等于最小置信度时此规则才成立。
找出所有满足最小支持度和置信度的关联规则集R后,根据关联规则向顾客产生推荐又可分为以下几步:①找出R中所有被目标客户支持的关联规则R1,即关联规则左边的所有项目都被客户购买。②找出被关联规则R1所预测并且没有被目标客户所购买的所有项目P。③根据P中项目在关联规则R1中的置信度排序,如果某项目被多个规则预测,则取置信度最大者作为排序依据,挑选前N个项目作为算法输出。 其中关联规则的发现是算法的瓶颈,可以离线进行。该算法的优点是可以为用户发现新的兴趣。缺点是随着事务的增多,规则的发现将非常耗时,并且规则难以解释。
[22]
:
寻找那些事务的支持度超过最小支持度的项目的所有组合,把这些组合称为大的项目集,而
3.2基于知识的推荐
基于知识的推荐系统根据用户的偏好信息通过推断什么产品能满足用户的需求来产生推荐。基于知识的推荐特点是它要有功能知识:知道一项目如何满足一特定用户的需要,并能在用户的
6
需要和所推荐的项目之间建立关联。例如:PesonalLogic 推荐系统通过对话的方式使用户对产品的所有特征偏好作出描述,另外一些系统使用大量的决策支持或基于案例的推理工具来产生推荐。
与协同过滤推荐系统相比,基于知识的推荐系统有以下优点:①由于所产生的推荐不依赖于用户对项目的评价,所以基于知识的推荐不需要用到用户数据库。②由于所产生的推荐不依赖于用户兴趣文件,所以基于知识的推荐不会有“冷开始”问题。③由于所产生的推荐与用户以往的偏好没有关系,基于知识的推荐能根据用户的兴趣变化快速作出调整。④基于知识的推荐在汽车、房产、职业、学校等产品特征对用户来说作用重大而又易于比较的的产品领域能取得良好的推荐效果。
虽然基于知识的推荐系统有诸多优点,但是,也存在着一些不足:要想取得良好的推荐效果,系统必须对产品领域有深刻的理解,用户关心产品的哪些属性,这些属性如何满足用户的需求,并且把这些知识以易于推理的方式存储于知识库中。因此,知识库的设计是系统实现的瓶颈。
1
3.3基于效用的推荐
根据计算项目对用户的效用值来产生推荐。这种方法的特点是要求建立包括所有可能对用户效用产生影响的项目特征的效用函数,这样做的好处是它能综合体现产品价值的多方面因素,如交货时间、卖家的可靠性等。这一灵活性同时也是它的缺点:必须建立包含所有特征的用户偏好函数,为每一特征赋相应的权值,这样就会加重人机交互的负担,并且有时难以做到。
3.4 基于人口统计信息的推荐
人口信息用来识别喜欢某类项目的用户特征。人口特征可以包括年龄、性别、教育程度等。通过用户对项目的评价来识别具有相同偏好的用户群。用户统计信息的获取一般比较困难,一般采用人机对话的方式获取,也可以通过用户的个人主页信息来获取不需要领域知识。缺点:用户的人口统计信息难以得到
[23]
。优点:没有新用户问题,
3.5 基于网络结构的推荐
基于网络的推荐技术不考虑项目的属性,也不考虑用户的特征,而是把用户和项目都看成抽象的点。其中比较有代表性的是基于二部分图资源分配的推荐算法
[24]
。算法假设用户选择过的每
一个项目都有向用户推荐其它项目的能力,拥有资源的项目会把更多的资源交给自己青睐的项目。如果用户选择了某项目,则这两点之间就用1表示,否则用0表示。项目j愿意分配给项目i的
1资源配额wij可以表示为wijkjl1mailajlkl
其中m表示系统中的用户数量,kj表示项目j的度(被多少用户选择过),kl表示用户l的
度(该用户选择过多少项目),ail表示用户l是否选择过i项目,若选择过i项目,则ail1否则,ail0。如此,根据用户选择过的项目就可以放出所有未被选择的项目的资源分配,按照
资源分配从大到小的顺序排列,产生推荐结果。
4混合推荐
由于各种推荐技术各有优缺点,于是人们综合两种或两种以上的推荐技术来取得更好的推荐效果。基于内容的推荐和协同过滤是目前研究和应用最多的组合推荐方法,结合这两种过滤技术
1
http://www.personallogic. com
7
可以克服各自的一些缺点。为了克服协同过滤的稀疏性问题,可以利用用户浏览过的资源内容预期用户对其他资源的评价,这样可以增加资源评价的密度,利用这些评价再进行协同过滤,从而提高协同过滤的性能
[25]
。
Fab是最早的混合推荐系统。推荐过程分为两个阶段:收集网页以形成一个可管理的数据库或索引,随后将这些网页分发给特定的用户。用户描述文件通过分析用户评价过的网页的内容得到,在推荐时与其它用户的描述文件进行比较以找到相似用户。系统会向用户推荐基于自身描述文件得分较高的网页及相似用户评分较高的网页
BM Sarwar提出过滤器的概念
[27]
[26]
。
,每一个过滤器被看作是一个独立的用户,使用不同的算法
分析文章并为文章打分,打分后的文章被送到Grouplens推荐引擎,系统会根据用户评分和过滤器评分计算两者之间的相似性,从而为用户选择不同的过滤器,每个过滤器被赋予不同的权重。这样就可以预测用户对所有未评分项的评分,在此基础上进行协同过滤。N Good验证了把用过滤器得到的评分和协同过滤等到的评分结合起来得到的推荐结果要比单独根据过滤器或协同过滤方法得到的推荐结果好
[28]
。
[29]
M Claypool把基于内容的推荐和协同过滤推荐用于在线报纸推荐,把两种方法的预测结
果加权平均:初始赋予协同过滤推荐和基于内容推荐相同的权重,随着用户评分数据的增多,计算每种预测结果的绝对误差,并调整权值以使误差最小。权值与用户评分数据相关,所以对于不同的用户可有不同的权值。
P Melville用基于内容的预测计算用户对未评分项的评分,以解决评分矩阵的稀疏性问题与其它用户共同评价过的项目的个数决定。
与以上两种方法的基本思想类似,Q Li等也是把基于内容的推荐与协同过滤推荐加权平均
[32]
[31] [30]
,
把基于内容的评分和协同过滤的评分加权平均,权重由目标用户评价过的项目的个数及目标用户
。所不同的是并不直接依赖项目的内容计算目标用户对项目的评分,而是计算用户对不同属性
值的偏好程度(选评分大于3的项作为用户偏好的项目),据此对用户进行聚类,计算每个用户属于不同类的概率,再以此概率计算用户之间的相似性。最后把此相似系数与传统的依据原始评分矩阵得到的相似系数加权平均,权值通过最小化平均绝对误差(MAE)动态来调节。
M Garden同时用协同过滤和基于内容的过滤进行推荐
[33]
。与一般基于内容的推荐不同,它
利用用户对语义特征的偏好进行预测。允许用户自定义项目的特征并给出该特征的重要性及对项目得分的影响进行评价,根据对不同特征的态度来区分用户。项目也根据所有用户评价过的不同特征出现的次数来表示。最后根据用户和项目所拥有的共同特征及用户对该特征的评分计算项目的最后得分。
文献[34]将项目属性值引入协同过滤算法,把用户对项目的评分转化成对项目属性值的评分分布,从而得到用户描述文件,由用户描述文件计算用户之间的相似度。由于项目属性数远远小于项目数量,用这种方法可以有效地解决协同过滤算法中的数据稀疏性问题,同时提高系统的实时性。
另外一种混合思路是从机器学习的观点看待预测问题,把预测问题看作是标准的分类问题,典型的有C Basu提出的电影推荐,协同特征表示成集合的形式,这些特征混合了一些典型的内容特征。把这些数据输入到Ripper中以学习得到一个二进制分类器,区别用户喜欢和不喜欢的电影
[35]
。D Billsus将用户评价过的项作为训练样本,每一个样本表示成一个特征向量,每一分
[36]
量为其它用户对该项的评价,目标用户的评价作为类标签。根据学习得到的分类规则来预测用户对未评分项的评分
。
[37]
R Burke 提出基于知识的推荐与协同过滤相结合的系统,系统设置了一系列参数,根据参数取值决定采用何种推荐技术
。例如,在用户使用系统初期,使用基于知识的推荐,当各参数都
[38]
满足阀值要求时再采用协同过滤推荐。
在组合方式上,T Tran提出了七种组合思路
:
8
加权平均(weight):加权多个推荐方法的推荐结果。 转换(switch):根据具体情形在几个推荐方法之间转换。
混合(mixed):同时采用多种推荐技术给出多种推荐结果供用户参考。
特征组合(feature combination):组合来自不同推荐数据源的特征被另一种推荐算法所用。
瀑布(cascade):后一种推荐方法优化前一种推荐结果。
特征扩充(feature augmentation):后一个推荐方法的输入包含了前一个推荐方法的输出。 元层次模型(meta-level):前一个推荐方法所得出的模型作为后一个推荐方法的输入。
5.研究展望
个性化推荐对电子商务发展有着重要作用,虽然已取得了一些成果,但其应用范围还很狭窄,大部分网站还不具备个性化推荐功能,有推荐系统本身的问题,如数据稀疏性、可扩展性、实时性、冷开始等,也有用户与系统之间的沟通问题,如用户对系统不信任,不愿透露个人信息,或者用户不愿意提供更多的项目评价信息等。个性化推荐技术要想在实际应用中达到理想的效果就必须对以上问题加以解决。未来电子商务推荐研究的热点与方向有:
对推荐算法的进一步改进。提高推荐算法的推荐精度及实时性,使推荐系统能够产生更精确、实时的推荐。目前各种推荐算法存在一些缺点,如何对算法进一步改进使之产生更精确的推荐是个性化推荐研究的热点也是重点。
将Web使用挖掘应用到个性化推荐中。数据收集是个性化推荐的基础,其收集数据的数量和质量直接影响推荐的效果。传统的推荐系统要求用户显式输入对项目的评分,不但增加了用户的操作,而且数据单一,不足以描述人们对项目的复杂感知和反应。Web使用挖掘是由系统隐性获取,不需要用户的参与,在不打扰用户正常活动的情况下自动完成,得到的数据种类也比较多。
用户隐私保护研究。获得用户兴趣的最好方式是获得尽可能多的用户个人信息,这在基于用户统计信息的推荐和基于知识的推荐中尤为重要,考虑到系统安全和隐私问题,这些信息往往是用户所不愿意提供的。因此采取适当的用户隐私保护机制并提高数据收集过程的透明性,让用户了解推荐过程及用户个人信息的使用情况,从而提高对推荐的信任度和接受度具有重要作用。
参考文献:
[1]、吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J],情报学报,2006,25:55-62 [2]、 RJ Mooney, L Roy. Content-Based Book Recommending Using Learning for Text Categorization[C], Proceedings of the fifth ACM conference on Digital libraries, 2000
[3]、岑咏华,甘利人,丁晟春.基于内容的Web个性化推荐技术研究[J],图书情报工作2003.08.
[4]、曾春,邢春晓,周立柱.基于内容过滤的个性化搜索算法[J],软件学报,2003,14(5):999-1004.
[5]、S Deerwester,et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science,1990,41(6):391-407.
[6]、MW Berry, ST Dumais, GW O'Brien. Using linear algebra for intelligent information retrieval[J].SIAM Review,1995,37:573-595.
[7]、Lin Hongfei,et al Text Browsing Based on Latent Semantic Indexing[J]. Joural of Chinese Information Processing, 2000, 14(5):241-245.
[8]、D Goldberg;D Nichols,et al. Using collaborative filtering to weave an information tapestry[J].communications of the ACM, 1992,35(12), 61-70
9
[9]、P Resnick, N Iacovou, et al.Grouplens:An open architecture for collaborative filtering of netnews[C]. In proceedings of CSCW,1994:175-186
[10]、B Sarwar, G Karypis, J Konstan, J Riedl. analysis of recommendation algorithms for e-commerce[R]. Proceedings of the 2nd ACM conference on Electronic commerce, 2000:158-167
[11]、M Badrul. Sarwar,et al. Application of dimensionality reduction in recommender system-A case study [C]. In Proc of the WebKDD 2000 Workshop at the ACM GKDD2000,Boston,2000: 82~90
[12]、B Sarwar , G Karypis , J Konstan , JRiedl. Item-based collaborative filtering recommendation algorighms[C],In Proc.of WWW,2001: 285--295
[13]、K Goldberg, T Roeder, D Gupta, C Perkins. Eigentaste: A Constant Time Collaborative Filtering Algorithm[J]. Information Retrieval. 2001,4(2):133-151
[14]、B Leite ,et al. C2::A Collaborative Recommendation System Based on Modal Symbolic User Profile [C]. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence. 2006: 673-679
[15]、S Kuwata, N Ueda. one-shot collaborative filtering[J]. Computational Intelligence and Data Mining, 2007
[16]、JS Breese, D Heckerman, C Kadie. Empirical Analysis of Predictive Algorithms for Collaborative Filtering, Inproceedings of Fourteenth Conference on Uncertainty in Artificial Intelligence. Morgan Kaufmann,1998:43--52
[17]、LH Ungar, DP Foster.Clustering methods for collaborative filtering.Proe Recommender Systems,Papers from 1998 Workshop,Technical Report WS-98-08,Menlo Park,1998:84-88
[18]、潘红艳,个性化信息服务的研究与实现[D],2005.03
[19]、DM Pennock, et al. collaborative filtering by personality diagnosis:a hybrid memory-and model-based approach [C], Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence.2000
[20]、MK Condli , et al. Bayesian Mixed-Effects Models for Recommender Systems[C], Proceedings of the SIGIR-99 Workshop on Recommender Systems. 1999
[21]、R Agrawal, T Imieliński, A Swami. Mining Association Rules between Sets of Items in Large Databases[C], In Proc 1993ACM-SKMOD Int Conf Management of Data, 1993,207-216.
[22]、丁振国,陈静. 基于关联规则的个性化推荐系统[J],计算机集成制造系统,2003,09(10):891-893.
[23]、MJ PAZZANI , A Framework for Collaborative, Content-Based and Demographic Filtering[J], Artificial Intelligence Review,1999,13 (5-6):393-408
[24]、刘建国,周涛,汪秉宏,个性化推荐系统的研究进展[J],自然科学进展,2009.01 [25]、曾春等 .个性化服务技术综述. 软件学报,2002,13(10):1952-1961
[26]、M Balabanovic, Y Shoham. Fab: content-based, collaborative recommendation[J]. Communications of the ACM.1997,40(3): 66 -72
[27]、B Sarwar, J Konstan, Borchers, A Herlocker, J Miller and J Riedl, Using
filtering agents to improve production quality in the GroupLens research
collaborative filtering system[C]. Proceedings of the 1998 ACM conference on Computer
supported cooperative work. Nov. 1998: 345 - 354
10
[28]、N Good J. B Schafer, J A Konstan, A Borchers, B Sarwar, J Herlocker, and J Riedl. combining collaborative filtering with personal agents for better recommendations [C]. Proceedings of AAAI, 1999: 439 – 446
[29]、M Claypool, A Gokhale, T Miranda. combining content-based and collaborative filters in an online newspaper[J].ACM SIGIR Workshop on Recommender Systems, 1999
[30]、P Melville, RJ Mooney, R Nagarajan. content-boosted collaborative filtering for improved recommendations [C]. Eighteenth national conference on Artificial intelligence, 2001: 187 – 192
[31]、BM Kim, Q Li, et al. A new approach for combining content-based and collaborative filters[J]. Journal of Intelligent Information Systems.2006,27: 79-91
[32]、Q Li, BM Kim. An Approach for Combining Content-based and Collaborative Filters[C], Proceedings of the Sixth International Workshop on Information, Retrieval with Asian Languages, 2003:17-24
[33]、M Garden, G Dudek. mixed collaborative and content-based filtering with user-contributed semantic features[C], American Association for Artificial Intelligence,2006:1307-1312
[34]、王茜,杨莉云,杨德礼,面向用户偏好的属性值评分分布协同过滤算法[J],系统工程学报,2010.04
[35]、C Basu, H Hirsh, W Cohen. Recommendation as Classification: Using Social and Content-Based Information in Recommendation[C], Proceedings of the Fifteenth National Conference, AAA1 Press 1998:714-720
[36]、D Billsus, et al. learning collaborative information filters[C], the Fifteenth International Conference on Machine Learning, San Francisco:Morgan Kaufmann Publishers Inc.,1998.46-54.
[37]、R Burke, et al. Hybrid Recommender Systems: Survey and Experiments[J],User
Modeling and User-Adapted Interaction. 2002 ,12(4):331–370
[38]、T Tran. Designing Recommender Systems for E-Commerce:An Integration Approach,2006
Summary of personalized recommendation technology
Yang Li-yun
(Guangdong university of business studies,huashang college, Guangzhou, 511300)
Abstract: The development of Internet has brought us a wealth of information,but which
also makes it very difficult to find the information we need, users need a service that can show and adjust informatin according to their own characters eagerly, so Personalized service is developed. This paper introduces Content-based recommendation, collaborative filtering, hybrid recommendation technology,and other recommendation technologies according to their principles, analyzes advantages and disadvantages and application conditions for each technology, future research and development for personalized service were also discussed in the end.
Key words:recommendation system; contend-based recommendation; collaborative
filtering; association rules
11
12
因篇幅问题不能全部显示,请点此查看更多更全内容