基于主题的分布式信息检索技术研究

来源：乌哈旅游

维普资讯 http://www.cqvip.com

第３２卷　第ｌ２期　Ｌ３２　・计算机工程　２００６年６月　Ｊｕｎｅ　２００６　№ｌ２　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　软件技术与舅【据库・　￣ｉｍｑ，１０００￣３４２８（２００６）１２－－００８０－－０２　丈蕾标识码Ｉ　Ａ　中圈分类号，ＴＰ３１１．１３３．１　基于主题的分布式信息检索技术研究　张刚　，周昭涛　，王斌　（１．中国科学院计算技术研究所软件室，北京１０００８０；２．中国科学院研究生院，北京１０００３９）　■叠：介绍了一种基于主题的分布式信息检索方法，并对算法的有效性进行了深入的分析。该文通过文本聚类方法，把文档按照主题的　方式来划分，经过实验发现查询答案明显地汇聚在少数的文档集合中。由此表明，基于主题的分布式信息检索方法比传统分布式信息检索　方法在检索效果上有了显著的提高。　关ｔ讨：分布式信息检索；文本聚类；Ｋ平均聚类　Ｒｅｓｅａｒｃｈ　Ｏｎ　Ｔｏｐｉｃ　Ｂａｓｅｄ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａｌ　Ｔｅｃｈｎｏｌｏｇｙ　ＺＨＡＮＧ　Ｇａｎｇ　，ＺＨＯＵ　Ｚｈａｏｔａｏ　，ＷＡＮＧ　Ｂｉｎ’　（１．Ｓｏｆｔｗａｒｅ　Ｄｉｖｉｓｉｏｎ，Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｃｏｍｐｕｔｉｎｇ　Ｔｅｃｈｎｏｌｏｇｙ，Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ　１　０００８０；　２．Ｇｒａｄｕａｔｅ　Ｓｃｈｏｏｌ　ｏｆ　Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ　１０００３９）　［Ａｂｓｔｒａｃｔ］Ｔｈｉｓ　ｐａｐｅｒ　ｉｎｔｒｏｄｕｃｅｓ　ａ　ｔｏｐｉｃ　ｂａｓｅｄ　ｄｉｓｔｒｉｂｕｔｅｄ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｉｒｅｖａｌ　ｍｅ￣ｏｄ，ｍｏｍｕｇｈｌｙ　ａｎａｌｙｓｅｓ　ｔｈｅ　ｒｅａｓｏｎ　ｆｏｒ　ｔｈｅ　ｇｏｏｄ　ｐｅｒｆｏｒｍａｎｃｅ．　ｈｒｏｕｇｈ　ｔｅｘｔＴ　ｃｌｕｓｔｅｒｉｎｇ　ｍｅｔｈｏｄ，ｄｉｖｉｄｅｓ　ｔｈｅ　ｔｅｘｔ　ｂｙ　ｔｈｅｍｅ，ａｎｄ　ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｉｎｑｕｉｒｅｄ　ａｎｓｗｅｒｓ　ｏｂｖｉｏｕｓｌｙ　ｃｏｎｖｅｒｇｅ　ａｍｏｎｇ　ｍｉｎｏｒｉｔｙ　ｃｏｌｌｅｃｔｉｏｎｓ　ｏｆ　ｄｏｃｕｍｅｎｔｓ，ｓｕｃｈ　ｉｎｄｉｃａｔｅｓ　ｔｈａｔ　ｔｈｅ　ｔｏｐｉｃ　ｂａｓｅｄ　ｄｉｓｔｉｂｕｔｅｄ　ｉｒｎｆｏｒｍａｔｉｏｎ：ｒｅｔｉｅｖａｌｒ　ｍｅｔｈｏｄ　ａｃｈｉｅｖｅｓ　ｇｒｅａｔ　ｉｍｐｒｏｖｅｍｅｎｔ　ｃｏｍｐａｒｉｎｇ　ｔｏ　ｈｅ　ｔｔｒａｄｉｔｉｏｎａｌ　ｍｅｔｈｏｄ．　［Ｋｅｙ　ｗｏｒｄｓ］Ｄｉｓｔｒｉｂｕｔｅｄ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ；Ｔｅｘｔ　ｃｌｕｓｔｅｒｉｎｇ；Ｋ－ｍｅａｎｓ　ｃｌｕｓｔｅｒｉｎｇ　Ｗｅｂ信息的快速增长，给检索系统带来了巨大的挑战。　从某种意义上说，现在可以获得的信息太多了，以至于无法　对这些信息进行处理。以Ｇｏｏｇｌｅ搜索引擎为例，每个查询都　会返回成千上万个检索结果，用户不可能对所有结果全部浏　览。Ｇｏｏｇｌｅ搜索引擎索引的页面超过８０亿个，根据统计，　一行检索；用户的查询请求被发送到相应的检索服务器上进行　并发查询；查询的结果再经过结果合并过程，把最终的检索　结果返回给用户，从而完成一次分布式检索的过程。　，＾★Ｊ仉‘ｒｎ　ｔ　１．一　－—１ＰＬ一　　ｇＰ￣Ｌ　２　＿－－　—　Ｉ　ｌ　．一－一－恤索服务器ｌ　ｒ－１　●粕索服务器２［－－１　个查询用户通常只浏览前１０个结果，而每次查询都要查询　８０亿个页面，８０亿和Ｔｏｐｌ０形成了强烈的对比，如果能够只　对８０亿页面中的一部分进行搜索就能得到和搜索全部数据　相似甚至更好的搜索结果，那无疑对于搜索引擎的建设具有　ｌ　Ｉ　●　１］ｌＩ・　结果合并　Ｉ　ｌ　●　重要意义。可以粗略地计算一下，如果能够只检索其中的１０％　甚至更少的数据就能够得到相似或者更好的检索结果，那么　需要检索的数据量就只有８亿个页面，处理数据所需要的机　兰　！　网络　网络　｛ｌ佥索服务器　［＝＝＝】　圈１分布式倌■检｜ｆ盼体熏鳍杓　器也会减少到１０％。或者是可提供服务的用户数变为ｌ０倍。　如何能够只检索部分数据，就能够取得比较好的甚至超过检　索全部数据得到的检索结果，这就是分布式信息检索需要解　决的问题之一。　在分布式信息检索的构建中，首先要处理的就是文档集　合的划分问题，在以往的研究中文档集合的划分常常按照信　息的来源、信息的发布时间等信息，将一个大的文档集合划　分成几个文档集合。这种划分方法并不能使一个查询的答案　集中在某几个文档集合中，本文按照主题对文档集合进行划　分布式信息检索是信息检索研究的一个重要方向，主要　研究的问题包括：文档集合的表示。文档集合的选择，结果　合并等。本文介绍了一种基于主题的分布式信息检索技术，　比传统的分布式信息检索方法在检索的效果上有很大的提　高。可以通过检索部分文档集合，取得很好的检索效果，极　大地减少检索的计算开销。　分。从而使查询答案集中在少数文档集合中，提高分布式信　息检索的效果。　２主题的构建与文档集的划分　在按照主题对文档集合进行划分时，主题的建立和文档　集合的划分采用文本自动聚类的办法。从效率角度考虑，这　基金疆目：国家“９７３”计划基金资助项目“大规模文本内容计算”　（２００４ＣＢ３１８１０９）　１分布式信息检索的体系结构　分布式信息检索的体系结构如图１所示，一个具体的查　询过程可以描述如下：用户从客户端发出查询，经过分发服　务器对用户的查询进行集合选择，选择最适合的数据集合进　－作者倚介：张￣１Ｊ（１９７　７～），男，助理研究员，主研方向：信息检索，　自然语言处理；周昭涛，硕士；王斌，副研究员　收藉日期：２００５—０７—１０　Ｅ－ｍａｉｌ：ｇａｎｇｚｈａｎｇ＠ｉｃｔ．ａｃ．ｃｎ　８０－－－　维普资讯 http://www.cqvip.com

里采用了Ｋ平均聚类法　】，Ｋ平均聚类的算法如下：　（１）初始化选择Ｋ个聚类中心ｆＷＩ，ｗ２，…，Ｗｋ　Ｊ，Ｗ　＝ｉｌ，　．，∈（１，２…．，ｋ），ｌ∈（１，２，．．　），‘为要聚类的样本；　（２）类别Ｃ　由向量Ｗ　表示，对于每一个样本ｉ『Ｉ选择和　它最近的类另０　Ｃ　＋作为所属类另０，即Ｉｉ，一Ｗ　，一Ｗ　ｌ，　ｊｅ（１。２…　一　．　每一个单独的文档集合可以采用多种检索的方法，这里采用　了语言模型的检索算法　‘来进行检索。基于语言模型的检索　方法是１９９８年Ｐｏｎｔｅ和Ｃｒｏｆｔ提出的一种新颖信息检索的模　型，并且取得了很好的实验结果，基于语言模型的检索方法　（３ｌＸ，ｌ每个类别Ｃ　按ｗ　示向量；　ｉｌ／Ｉ　ＣＪ‘重新计算用来表　通过计算文档的语言模型与查询的语言模型的距离来表示文　档和查询的相似程度。这里采用了一阶语言模型，语言模型　之间的距离可以用Ｋｕｌｌｂａｃｋ—Ｌｅｉｂｌｅｒｊ距离来计算：　一　ｐ　（ｗ．１　ＫＬ（Ｑ，Ｄ）　Ｐｏ（　）ｌｏｇ　Ｄ、　，　（４）计算误差函数Ｅ＝Ｘｖ．ｉｌ￣Ｃ）Ｉｉｔ～ｗＪ　Ｉ　；　（５）如果聚类的结果不再发生变化，或者误差函数Ｅ小于　阈值，则停止，否则转（１）执行。　每个被选中的独立的引擎都会给查询返回的文档赋予一　定的权重ｄｏｃｓｃｏｒｅ，这是通过语言模型计算的文档和查询的　相似度来实现的。最终需要把各个引擎返回的结果进行合并，　在构建文档表示向量时，向量中第ｆ个特征的权重计算　方法如下：　（１＋ｌ０ｇ２（　。　）Ｗ　ｅｉｇｈｔ（ｗ，，ｄ）＝　————一————　Ｌ．　∑（１＋ｌｏｇ　（　））　１０ｇ　（％）　其中　表示词　在文档ｄ中的词频，Ｎ表示总的文档数目，　表示　在整个文档集台中的文档频率。在计算一个文档　与类别相似度时，采用向量夹角余弦的方法来度量。　３分布式检索方法　３．１集合选择算法　在进行集合选择时采用ＣＯＲＩ算法　，ＣＯＲＩ集合选择　算法和ＩＮＱＵＥＲＹ系统的检索算法相似，不同的是，在　ＩＮＱＵＥＲＹ中的文档相当于ＣＯＲＩ中的文档集合。ＣＯＲＩ采用　贝叶斯网络对文档集合进行选择，一个简单的贝叶斯网络如　图２所示。　数据　和网　壹询　圈２．｜单曲集合遗｜＿Ｉ贝叶新啊　文档集合尺　可以由一些关键词ｒ　表示，用户输入的　Ｑｕｅｒｙ由一系列的概念ｃ　俎成，关键词的权重用　ｆ　的方　法计算，计算的方法如下：　７ｆ　一　生——　‘＋５Ｏ＋１５０ｘｃｗｌａｖｇ—Ｃｗ　，：一　兰　Ｃ：　＋０　５，：，　Ｐ（ｒｋ　Ｒ；ｂ＋（Ｉ　ｆ）；＋（一）・・Ｊ１一ｂ）．Ｔ．，　　ｌｇ，（ｃ＋１．ｏ１　其中：ａｆ是文档集合尺　中含有关键词　的文档个数，ＣＷ是　文档集合Ｒ　中索引的关键词的数量，ａｖｇ＿ｃｗ是各个文档集　合中关键词的平均数，Ｃ是文档集合的数量，盯是含有关键　词　的文档集合的个数，ｂ是最小置信因子，通常取值为０．４。　通过上面的方法，可以对文档集合进行选择，选取那些　最可能含柯答案的文档集合来进行搜索。　３．２单引擎搜素与鳍果合并算扶　文档集合选择完毕，需要对被选择的文档集合进行检索，　并按照合并后的权重重新排序，文档合并后的权重应该与文　档本身的权重以及该文档所属文档集的权重都有关系，这里　将返回文档的权重ｄｏｃｓｃｏｒｅ与文档集合本身的权重ｄｂｓｃｏｒｅ　综合考虑，通过经验性加权公式（ｄｏｃｓｃｏｒｅ＋　Ａ＊ｄｂｓｃｏｒｅ　ｄｏｃｓｃｏｒｅ）／Ｂ来给出一个最终的文档权重，其中常　数Ａ取０．４，常数Ｂ取１．４。　４实验分析　为了验证基于主题的方法对于分布式信息检索效果的提　高，以通常的按照出版时间、信息来源划分文档集合的分布　式信息检索作为比较的下限（下面称为参考下限），检索的测　试集使用ＴＲＥＣ标准测试集（５５万文档），采用上面讨论的　主题构建的方法把文档集合划分成１００个主题。在实验中，　对于分布式信息检索方法的每个查询仅选择最相关的ｌＯ个　文档集合进行检索，测试了ＴＲＥＣ６的Ａｄ　Ｈｏｃ任务，测试工　具使用的是ＣＭＵ开发的ｌｅｍｕｒ检索实验系统【３】，实验结果　如　表１。　ｊ｜Ｉ１检Ｉｆ实　结果比较　基于主题的方法　参考下限　平均正确率　０．１１６１　０．０８３　ｏ　相关的文档数（篇）　ｌ】７　２　７７３　可以看出基于主题的分布式信息检索方法相对于传统的　分布式信息检索方法在检索的效果上有了很大的提高，平均　准确率提高了近３９％。　为了进一步分析基于主题的分布式信息检索能够提高检　索效果的原因，我们对每个查询的相关文档在各个文档集合　的分布情况进行了分析，对于每个查询对比了其相关文档在　基于主题的方法和参考下限的集合中的分布情况，图３以查　询３０１为例，图中纵坐标是集合中的答案数量，横坐标是文　档集合的编号（按照包含答案的多少排序编号，共有１００个　文档集合），系列１为基于主题的方法答案在文档集合中的分　布，系列２是参考下限中答案的分布情况，可以看出在基于　主题的方法中，答案集中在少数的几个文档集合中，而参考　下限的方法中，答案的分布相对比较平均。　４∞　３ｏｏ　一系列１　２００　一●系列２　１ｏ０　０　Ｉ　ｌＯ　１９　２８　３７　４６　５５（；４　８２　９１　１００　圈３囊号为３０１曲蠢ＩＩＩ不同捌分曲文糟集合曲分布　为了验证这个结论的普遍性，我们不仅测试了每个查询　（下转第８４页）　一８卜一　维普资讯 http://www.cqvip.com

如图３，当优先级１下的任务１（１）被调度后，ＯＳＴＣＢＰｒｉｏ　类型的实时内核，因此有这样的等价关系：任务响应时间＝　调度器寻找最高优先级任务所耗时间＋任务切换时间。具　体的测试方法是设计一个测试任务，分另Ⅱ把该任务的就绪时　候的和被调度器调度时候的系统时钟ｔｉｃｋ值保存到定义好的　两个变量中，并利用操作系统的ＨＯＯＫ例程（在ｐｃ／ＯＳＩＩ和　Ｔｂｌ［１］就会指向下一个同优先级的任务１（２），而当任务调度器　再次调度该优先级下的任务时，仍能在０（１）找到该任务，这　样会调度图３中的编号为ｌ（２）的任务。由于该调度器利用了　比较复杂的任务管理数据结构，并没有出现通常的调度算法　会遍历任务链表的操作，也就没有循环语句，所以整个算法　ＯＳＥＫ／ＶＤＸ操作系统中都支持有“钩子”例程）读出这两个变　的时间复杂度仍然保持在０（１），能够保证良好的实时性。具　体的算法实现如下：　ｖｏｉｄ　ＯＳＳｃｈｅｄ（ｖｏｉｄ）　—量后比较，经过５　０００次任务调度测试后，统计如表１。　表１一度■试统计　最大任　务响应　ｐｃ／ＯＳＩｌ　ＯＳＥＫ／ＶＤＸ　１．３ｍｓ　调度延时　＜Ｏ．１Ｉｌｌｓ　９９　８４ｌ　３Ｉｌ％　调度延时　＜Ｏ．２ｍｓ　９９．９０８ｌ２ｌ％　调度延时　＜０．５ｍｓ　９９　９３２　２ｌ７％　｛ＩＮＴ８Ｕ　ｙ；　ｃｐｕ—ｓｒ＝Ｏ：　ＯＳＥＮＴＥＲＣＲＩＴＩＣＡＬ（）；　—．—．系统　５　９ｍｓ　９８．６４５　３１３％　９８　９５２　８６１％　９９１Ｏ９　９７３％　ｉｆ（ＯＳＩｎｔＮｅｓｔｉｎｇ＝＝０＆＆ＯＳＬｏｃｋＮｅｓｔｉｎｇ＝＝Ｏ）｛　３结束语　本文提出了一种满足ＯＳＥＫ／ＶＤＸ操作系统规范的任务　管理机制，如表１所示，改进后的调度机制，在取得对同优　先级多任务调度支持的同时牺牲了部分任务响应效率，增加　了部分延时。在多次测试中，最差的任务响应时间有较大差　Ｙ＝ＯＳＵｎＭａｐＴｂｌ［ＯＳＲｄｙＧｒｐ］；　ＯＳＰｆｊｏＨｉｇｈＲｄｙ＝（ＩＮＴ８Ｕ）（（ｙ＜＜３）＋　ＯＳＵｎＭａｐＴｂｌ［ＯＳＲｄｙＴｂｌ［ｙ］］）；　ｉｆ（ＯＳＰｒｉｏＨｉｇｈＲｄｙ！＝ＯＳＰｒｉｏＣｕｒ）Ｉ／　优先级不同　／　ＯＳＴＣＢＨｉｇｈＲｄｙ＝ＯＳＴＣＢＰｒｉｏＴｂｌ［ＯＳＰｒｉｏＨｉｇｈＲｄｙ］；　ＯＳＣｔｘＳｗＣｔｒ＋＋：　ＯＳＴＡＳＫ——别。但基本能够满足汽车电子对实时性的需要。　参考文献　１　ＯＳＥＫ／ＶＤＸ　Ｓｐｅｃｉｆｉｃａｔｉｏｎｓ【Ｚ］．ｈｔｔｐ：＃ｗｗｗ．ＯＳＥＫ—ＶＤＸ．ｏｒｇ．　２　ＯＳＥＫ／ＶＤＸ　Ｏｐｅｒａｔｉｏｎ　Ｓｙｓｔｅｍ　Ｓｐｅｃｉｉｆｃａｔｉｏｎ　２．１【Ｚ］．ｈｔｔｐ：／／ｗｗｗ．　ＯＳＥＫ　ＶＤＸ．ｏｒｇ．　ＳＷＯ；）　ｅｌｓｅ｛／　优先级相同　／　ｉｆ（ＯＳＴＣＢＰｒｉｏＴｂｌ［ＯＳＰｒｉｏＨｉｇｈＲｄｙ卜＞ＯＳＴＣＢＩｄ！＝　ＯＳＰｒｉｏＣｕｒ一＞ＯＳＴＣＢＩｄ）｛　ＯＳＴＣＢＨｉｇｈＲｄｙ＝ＯＳＴＣＢＰｒｊｏＴｂｌ【ＯＳＰｆｉｏＨｉｇｈＲｄｙ］；　ＯＳＥＱＵ【ＯＳＰｆｉｏＨｉｇｈＲｄｙ】＋＋；　ＯＳＣｃｘＳｗＣｃｒ＋＋：　３　Ｌａｂｒｏｓｓｅ　Ｊ　Ｊ．邵贝贝译．嵌入式实时操作系统ＵＣ／ＯＳ．ＩＩ（第２　版）ｌＭ］．北京：北京航空航天大学出版社，２００３．　４　Ｌｏｖｅ　Ｒ．Ｌｉｎｕｘ　Ｋｅｒｎｅｌ　Ｄｅｖｅｌｏｐｍｅｎｔ［Ｍ］．Ｓａｍｓ　Ｐｕｂｌｉｓｈｉｎｇ，２００４．　５　Ａｂｂｏｔｔ　Ｒ，Ｇａｒｃｉａ—Ｍｏｌｉｎａ　Ｈ．Ｓｃｈｅｄｕｌｉｎｇ　Ｒｅａ１．ｔｉｍｅ　Ｔｒａｎｓａｃｔｉｏｎｓ［Ｊ１　ＡＣＭ　ＳＩＧＭＯＤ　Ｒｅｃｏｒｄ，Ｉ９８８，１７（１）：７１｜８１．　６　Ｈａｒｉｔｓａ　Ｊ　Ｒ，Ｌｉｖｎｙ　Ｍ，Ｃａｒｅｙ　Ｍ　Ｊ．Ｅａｒｌｉｅｓｔ　Ｄｅａｄｌｉｎｅ　Ｓｃｈｅｄｕｌｉｎｇ　ｆｏｒ　ＯＳ—ＴＡＳＫ　ＳＷ０；｝】）　Ｊ　２实验与仿真　由于本文所讨论的是和任务管理相关（任务就绪，任务　调度等）的一系列机制，因此实验仿真的主要目的是测试改　进后的任务响应时间，实验中分别对在同一优先级Ｆ多个任　务的情况做了压力测试。由于ＯＳＥＫ／ＶＤＸ操作系统是可剥夺　Ｒｅａｌ—ｔｉｍｅ　Ｄａｔａｂａｓｅ　Ｓｙｓｔｅｍｓ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ｌ　２　ＩＥＥＥ　Ｒｅａｌ—ｔｉｍｅ　Ｓｙｓｔｅｍｓ　Ｓｙｍｐｏｓｉｕｍ．Ｌｏｓ　Ａｌａｍｉｔｏｓ．ＣＡ．１　９９　ｌ：２３２—２３４．　（上接第８１页）　如何合理的组织文档集合，如何选择出最合适的集合进行检　索是非常重要的。本文通过文本聚类方法，把文档按照主题　的方式来划分，经过实验发现查询答案明显地汇聚在少数的　文档集合中，为进一步的文档集合选择创造了先决条件。通　答案的分布情况，而且还考察了５Ｏ个查询的整体分布情况，　如图４所示，其中横轴和纵轴的定义和图３类似，只是这里　是５Ｏ个查询相关文档个数叠加后的结果，其中系列１为基于　主题的方法答案在文档集合中的分布，系列２是参考下限中　答案的分布情况。从上面的实验可以看出，通过对主题的划　分可以使一个查询的相关文档集中在少数的几个文档集合　中，这样就为文档集合的选择提供了前提条件，也就是说如　果采用好的文档集合选择算法，只要选中那些包含相关文档　过和人们经常采用的按照信息的出版时间、信息来源等划分　方式对比，该方法在检索的效果上也有了明显的提高。　参考文献　１　Ｃａｌｌａｎ　Ｊ　Ｐ．Ｌｕ　Ｚ．Ｃｒｏｆｔ　Ｗ　Ｂ．Ｓｅａｒｃｈｉｎｇ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｃｏｌｌｅｃｔｉｏｎｓ　ｗｉｔｈ　Ｉｎｆｅｒｅｎｃｅ　Ｎｅｔｗｏｒｋｓ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆｔｈｅ　ＡＣＭ　ＳＩＧＩＲ，１９９５：２１－２８．　２　Ｊａｙ　Ｍ，Ｐｏｎｔｅ　Ｗ，Ｃｒｏｆｔ　Ｂ．Ａ　Ｌａｎｇｕａｇｅ　Ｍｏｄｅｌｉｎｇ　Ａｐｐ　ｒｏａｃｈ　ｔｏ　最多的文档集合来进行检索，就可以取得比较好的检索效果。　３０００　Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａｌ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＡＣＭ　ＳＩＧＩＲ，１９９８：　２７５—２８１．　２０００　ｌｏ０ｏ　——－一系列１　—．．一系列２　３　Ｏｇｉｌｖｉｅ　Ｃａｌｌａｎ　Ｊ　Ｅ　Ｅｘｐｅｒｉｍｅｎｔｓ　Ｕｓｉｎｇ　ｔｈｅ　Ｌｅｍｕｒ　Ｔｏｏｌｋｉｔ［Ｃ］．　０　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆｔｈｅＴＲＥＣ’Ｏｌ，２００１：１０３—１０８．　４　Ｘｕ　Ｊｉｎｘｉ，Ｃｒｏｆｔ　Ｗ　Ｂ．Ｃｌｕｓｔｅｒ－ｂａｓｅｄ　Ｌａｎｇｕａｇｅ　Ｍｏｄｅｌｓ　ｆｏｒ　Ｄｉｓｔｒｉｂｕｔｅｄ　圈４　５０十主ｊ．在不同的集合中的分布圈　Ｉｎｆｏｒｍａｔｉｏｎ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２２　Ａｎｎｕａｌ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　ＡＣＭ　ＳＩＧＩＲ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　ｉｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａｌ，Ｉ９９９：２５４．２６１．　５结论　在网络信息不断丰富的今天，分布式信息检索为人们迅　速查找到所需要的信息提供了一个很好的解决方案。在分布　５　Ｃａｌｌａｎ　Ｊ．Ｄｉｓｔｒｉｂｕｔｅｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａ［Ｍ］．Ａｄｖａｎｃｅｓ　ｉｎ　Ｉｎｆｏｒｍａｔｉｏｎａｌ　Ｒｅｔｒｉｅ，Ｊａ１．ＵＳＡ：Ｋｌｕｗｅｒ　Ａｃａｄｅｍｉｃ　Ｐｕｂｌｉｓｈｅｓ２００１．　．式信息检索中，由于不是对全部的文档集合同时检索，因此　一８４一　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文