本文作者: 陈定权 陈定权(中国科学院文献情报中心北京10008)【摘要】wch信息检索是一个集^上智能、数据挖掘、自然语言处珲、数掘库技术、}f算机蚓络等于一悼的综台技术。衅管搜索引辈的出现札一定栏度上缓解r用rT硝信。 自需求明以满足的矛盾.徊是它还没有达到令_凡满意的程度。奉文对web倍自检索技术佧r一个比较全f白『的沦进,允片从超链分析的角度,剐脚络链接的重要畦做了深人探lt井指出了它的教展方向,对遗方面的珊论研究和蛮际H发具有一定的参考价值。I关键词】搜索引擎链接分析wcb挖掘万堆网【分类号】(3§44AnReviewofWebInformationRetrievalChenDingquan‘’f?hPD州“"zPJz“floHdndItl如rm“toHcPnfPro,L?As.BPijinglo008{),Ch{nd)【Ahstract】weblnfomlatl(“rⅢval【sInt。g。aledwlthartⅢflallIltelllgⅢc·dalanllnlllg‘mtural【angu89eprofesslng-c(m1pLlternetwork.dat曲asetechnlogy.etcsParchc“91neresplvcspartly11serE’lnformatIollnee如,butItcan’tsatlsfv11sers’nce如.Thlspapero盯ersa州1ewoft11ecurrcntsearchP“glnedeslgn.如阳clallyfr。nllhev坨wofWebllnkanalysls,howI。applyljnkstrllcIureLntoscarche“91nelspopularresearchr(】p1。【Keywords】searche“K【neLLnkanalysiswebnllllmgworIdwIdewcb1引言随著互联网飞速发展,互联网E的信息皇爆炸式增长。如何在互联网上查找所需信息一直是热门的研究课题,搜索引擎也因此应运而生。从最早的日录主题型的搜索引擎发展刮检索型的搜索引擎、元搜索引擎、分布式搜索引擎,现任发展到应用数据挖掘、人』=智能等技术的智能搜索引擎.从而使得用户可以更好地利用网络信息资源。目前计多搜索引擎般都使用传统信息榆索算法干¨技术。然而传统的信息检索算法主要是从相对少量和同佝的文献集合(如新闻、节目等)发展过来的。然『『f,web卜的信息具有巨噩的、异构的、非结构或半结构的、动忐的、分布的等特散·对传统的信息检索技术提出了挑战。本文就网络信息检索的相关技术作一个综述和对最新技术作一十展望2搜索引鼙冉具体埘论搜索引擎的各项技术之前,让我f¨先回顾一下搜索引擎是如何工作的。典型的搜索引擎由以下几个部分组成“:爬行器(或称为机器人、蜘蛛等).索引生成器、查询检索器等三』=模块。 其中爬行器主要完成信息获取工作.以期为将来的服务提供数据.索引生成器是通过分析获取的网页.收稿日期:20叭一l28排除HTMI.等语言的标志符号,将出现的字或者词(排除停用词)抽取出来,并记录每个字词的出现网址投相应位置,最后将结果存^索引数据库。检索模块苒先分析用户检索时给出的提问式.再访问搜索引擎已羟建立的索引,并通过一定的匹配算法.获得相应的检索结果,般要对结果按照相关程度将结果有序地近同给用p(有时还可以返回它认为与用户检索词丰日关的特征词),用户ur以将认为是相关的文档(和相关特征词)反馈给眼务器,服务器根据用户的反馈重新构造检索式、修改检索词权值重新检索。,重新将结果返同给用广.这个过程可姒重复直到用户满意或放弃为止。下面几部分分别介绍下信息采集、网页存储系统、索引、结泉排序、以及w乩l·nk的各项应用。 3信息采集在爬行器郜分.主要考虑以下几个问翘:·下载什盘网贝。 ?舟太多数情况下.爬行器不可能下载所有喇页,只能F薮其中一郫分的.这样.如何F载比较“重萼”的刚页就是一个很现实的问题.判断十网其是打重嬖的依据是什。 幺?日前有眦r3种::义.只有存阿站服务器端放置特殊杯记文件,爬行器d采集有的网站服务器按照爬行器的要求建立索引文件,爬行器只采集这十索引文件即可。·幢行器怎样并行束上作?由于网页数量的庞大,许多爬行器在多台机器上丁作,井行F载网贞,从而使得在蛀短的时间内下载更多的网页。诅显然.这些并行工作的爬行器必须协倒上作,以便使得不同的爬行器币会重复访问。并行工作处坪的好坏,直接影响爬行器的效率。4web网页存储网页数据库用来管理所有采集的网页,它应该是个扩展性能好的存储系统,有两个接口:面向爬行器的和面向索引器的。一个优秀的网页存储体系具备以下几点“1:-良好的扩展性z为r适|立网页爆炸式增长.必须能够无缝链接分布的网页数据库。·双重访问方式,应泼能够提供随机访『nJ和流方式访问。随机方式町以快速集一指定的网更.用于响应用户的检索查洵,而流山式可咀访问整个网页数据库-吱其叶1的一部分,用于索引和分析模块之巾。·大量数据的快速更新:web变化相当快.网贞数据库需要处理快速变化的网页,瓣免更新过程与检索同页相互冲突。‘管理过时的罔贞:很多网页可能从它的站点中耐掉,这样必须有一种机制能够自动监测和管理过时的网页.或者删掉或者保留。如(∞gk就将过时网页岩成“阿页快麒”保留起来t。在技术l霹考虑“下问题,1:‘网贝的存储分配:是采用哈希(IIash)方式还是统一分配(【inlformdrJb叭lon)·物理州虹的组织^法:对于单个刚贝.可能仃在二种可能的操作:网页添加/插入.高速流^武访问,随机贝面访问。组织A式的不同租凡程度上决定r这些操作的性能好坏。 目前有Hahhhsed、Log叫ructured、Hashedklg等组织^式。‘更新蕈路:更新一般由爬行器来完成。爬行器是定期采集还是小停地采集?定期采集是部分爬行j查是全部?当是部分爬行时.只是爬行部分网页州采更新,争部爬行时.是将采集结粜完争替换已经存在的阿页。 更新也有两种方式:1)将采集的网页直接存人数据库2)先存人到另外地方,用另外的程序束单独更新,索在搜索引擎中一般有以下几类索引:内容索引(∞ntent【ndex)和结构索引(s1ruclurelndex或链索引(1inkindcx)。 这蝗索引在建立时候涉及到索引的结构、索引的可扩展性和分布特点、索引生成的片行化等技术问题。I皿k索U为r埘超链创建索引.被抓墩的网Ⅲ著成是有节点和边的有向罔。其中节点为页面,边为超链.超链结构索引必须是可·40·扩展和高效的,最通用的结构信息是相邻信息,例如网负p,簌取p所指向的州贝“及指向p的网页。 如何处理这些大规模的有向阿是一十非常棘手的问题。·史牟索引即使超链索引所带来的功能多么有效.但史奉索一jl始终是索搜0l擎住判断一篇文档是弁tJ查询相戈的主要方法。蓖文主饕是甚于谢的索引,规语有摹于词和基于字的两种晴况。为r灿理攫宁与英文的混台查询.如”甲A”等关谜词.也有学者将中立英史统一址理’,这方面有比较成熟的算法.在此不作详细讨论。·其它索引有些搜索0l擎允许对某一特定领域或特定站点进行检索,此时需要建市站点索引(川-tkx),陵站点索引将其一域名映射为属于耶十域名的网页。还可吼建立其它类似的索0I(如地域.语种等)用束改善或增加搜索引擎的功能。索引文件通常占有相当大的空间。如何存储大容量索引井且要求俘取快捷^便·也是一十热点问题。有许多研究古提出了基f压缩的二或j级索引的方案[67。在保汪_自应速度的前提下.浚方案町咀大大减少索引文件的空间。 6结果排序与超链分析查询检索器根据用户提交的查询式。按照某种策略,将它认为是与用户查询式相关的文档根据相关度从太到小返回给用户。经典的布尔模型、概率模型、向量空间模型是基于特征词来进行相关度判断。许多同页因为含有检索词.但是离用户真正的相关度相差太远,有的不含有检索词,但也是与用户相关的。再者,用于表达文档的那些特征词也不能完全代表文档。后来许多学者发现,在嘲页之间的相互链接中包含了丰富的信息”1。根据这个思想.人们试图从那些链接信息来挖掘一些可以改善搜索引擎的技术。如GoogleⅢ、百度。等搜索引擎已经部分采用了这项技术,尽管不是很成熟,但已经显示出I加k对检索性能具有很大的影响.‘P8EeRank““P“geRank的基本思想楚:个页面被多次引用·即很多贝面有指向它的链接,则这个贞而很蕈霹一十贞面尽管没有被多次引用·但被一十重曙皿面川Ⅲ则遗个虹面也可能艰重菩十负甭f的菔餐惟敲均匀的分m并f∈递到它所引用的页面,H“)代表指向贞面l的贞卅集台.N(一)表示页面t巾指向托它页面的超链戡日。R(-)表币为贝画-的相关度。亦寓际的(gk中采用如下公式:R‘1卜‘1一完美国际。’+。 ‘.击.赫与‘P89e8Bnn认为【的胜俸值为o.8j)。 Pag如Brln就根据这十原理.与关键词检索以及其它基于』=奉的技术一起来提高矗询质量。例如链接的标记文字(柚c110rtext)可以认为是对链宿贞面的概括。 因为网页数晕之巨大,不可能对全部的贞呵进行PageRank分析,所以吏际的工作过程如下:先用基丁关键俐的搜索得到一十集合.取前面N个。然唇对这N个瓦面应用PageR㈣k苒法t得到最终的排序结果。这个算法只对Indezreels、Ⅲ【I。grrees、comp【eIel“”rtltPOraph有效.而埘两parnTe、GcncfGraphs无效。具体可眦参与”,所以P89eRaflk还需要进一步优化结合其它的技术一起d能很好T_作。’H1Ts1~1oHITs(HypenexI1ndL¨edT。plcsearch)骷早是存1099年由KklnbP‘g提出。 与P89eR枷k不J司的是它依赖于查询式。HITs认为贞面的重要性依赖于正在查询的查询,C每页有两个级别《现代图书情报技术》2【J(J2年第2期信息检索技术总第92期(矾n“ng):权威级别(依赖于指向占的虫面)、中心级别(依赖于它指向导l凡的负面)。 1。作过程如下:11用蛾于文本的搜索引擎得到某一直询的结粜结合R(称为Ko。cs“)2)将R所指向的贝向集台“及其它指向R的Ⅱ面集口包含进来形成集合s3)将所有豇向的权威级别、中心缎别争部霞钊蛤值为l再按照如下算法汁算:Repealun【l】∞nvc。Bp(收敛)}0r“Pags一.车.h血乏”No,maJlzeEnd∑。j∑。 h?一苴中B(1)代表情向贞面·的所卉页面集合F(-)代表页面J所指向的甄面集台。 最后根据仪威级别的大小返幽培H户。M。ghabgh。 南1在只考虑链接囚崇条件下、埘Inde97P}trees、c)Llt({。greelrPP‘、(、(mlph乩lpMlltPGr8ph、B1l】lrl¨P、(reneral(衲I“1h几种网络拓扑圈的性能做r一十大概的评帖。 且它粪似的算法还有sAIsA、psAI,sA,PHlTs等.基本豫理与HITs褶同,具体可以参考史献”一,·片它】Ⅲ1k^Ⅲ11yⅢ应用.&RlIhclusIerl㈨日胁搜索引擎的宝占果进小是々人满直。』基于词或短语的文本聚类算法不问,有学着使用超链分析来对结果进行聚娄。 它是蕞于(:o‘mtⅢ·和c。upl-”g,析来过滤无关文梢.将质景高的文档进行瘫类.提供给用户进行浏览和i方问。例如用户检索“J89uar”,将结果聚粪如下一』8卅J¨Car.J“guarclLIb、MagazlneonJ89caJ.、J8H(:anl’等等.从而方便用r1浏览。 盛QtleryByExampks[81¨根据宴例查找-也一f“称之为找相关阿贞。根据崩户需甍查找的某一耍例-例如一t网贞,找{¨与之相差类似的嘲虹。在(:o。 Mle和Nr旧a旷中支_『荨丝个服务。 传统的倩息检索技术是果用文本相似度,而在wtb环境中,可以充分挖掘链接结协来实现。基本思想是:知果网负A指向阔负l和(1.则R和c可能相关、K【eIngP。g声称将ll¨s算洼硝加修改也uJl川司靶实现实例奇拽,n¨n8H州¨“ger提出r胁种斡浊:nJnlⅢlnmnH洼、t(Jc州l辑让鹱于艟接舒析舯算法总体f优于H芏木川¨『业∞型.矗MIJ川【lH¨、Isi卅贝路径址L’KI地卅的一椰廿、删期L1RI:http:78∞glr㈨7t山outTlj.#。‘氆lP“mI就是主帆地址aI帕u【hlmJ是路径,两音主帆H2椰Hl是镜像呵站.与H仅与112叶1的文档矗HJ中其打柑同路径的相似文帕,厦之亦然,镜像网站具有干H似的地链销佝。通垃超链分析unl检测Hj近似的镜像网站。从而可以再省索01宅M辛¨俘储空间,精G(o日raph”S㈣pc8给定的wch同页是局部地区的还是争酗的抑或世仝I”界范闱内的人刈其感辨趣?通过对超链分析可眦得出恢嗣页的兴趣覆盖范匍,这叶、信息tⅡH帮助搜索引擎根据用户所在地区束裁戒榆索结粜.盎Idennfyi“Mn,nlⅡnltIcs1‘盘网络l有许多n线的巾某些有共f司兴趣的人“J创琏、维护、使『『|的刚贞·这牡踟面圭【i成r一个虚拟的社会州件。 例如数据库、J必趣小组等根据中心网丑和性威问页之间的相互关系·,I“找出这些虚{H的礼会圊体。 血【:毗‘g。mallo¨8RuTcec∞1PjlaIlon记-留搜索引擎按照层次刊的分类系统将同页分类,传统方法是闩=|人【米进j分凳、编辑。基于分类样本的文梢自动分类fnj题日前在估息榆索镪城【l:在研究。chakrah巾等人在传统的技术的毖础上加^超链信息分析.通过试验验正加^超铬分析可以提高分类的精度。通过该项技术IⅡ以在定程度r实现某特定分娄体系刈资掉自动分类,垒W曲hpH¨F{lc新开传奇It'r¨w乩影响因子是从期刊影响匠子发展过束它的基本帐理是t越多网页面过链接指向某一站点或区域.它就越有影响力。但是这些链接电需要进行分析:有些链接是导航,链源阿面酌重霹性电影响链宿页衙的重要性可能~个链源指向一十站点的几个网页等,目前wEB影Ⅱ目因子能打应用刮蛮际当中辽有待进一步研究。7总结w乩数据挖掘,可以分为三类。卜”‘t内容挖掘、结构挖掘、用户访问模式挖掘,其中内容挖掘有基十文率和基丁多媒体结构挖掘土要是从wcb组织结构和链接关系中推导信息、知识I用户访问模式挖掘主要是想从用户的访问日志中挖掘用户的访问模式。过去的搜索引擎主要是从网贞中挖掘内容信息.现在正在转向充分利用结构信息来挖掘信息.干0用用户访问模式来实现个性化服务,改善服务模式。如何有技利用结构信息、目前正处干一个初步试验发展阶段,如何抓住机会开发自己的智能型、知识型搜索引擎屉我们应该共同面临的课题。参考文献:1ArvindAr·Ju“g】】oo(、ho.eI。 l】s帅rfhl”gthew曲AcMTr8nsactlo㈣nIntet1echn01(,gy.2t)n1.1(1):243[2]M盯lste】IaAg。stlandMas㈣oMelI1儿f。Ⅲ】.inR_tmvaI㈨thwPlESSlR’2000,l’p242285.卸gvPrl8HRPrllIlHeldPIhe。*2c岍)s]zhlxLa“Ec’hen.xIanTm“gM㈨g.R1(hard¨.F。wkfFEAIIfRES:Real一¨nleAdap¨vPFchl¨rPⅢl(1rb】enf【.。 【rnmzf("wt,hbc盯(hJ.c’fTkAmcrlsoⅢlvhhf¨tl¨1(1r热血传奇r¨hI1Ⅷy.2f)01.j2(8):nj二66=【1]ut“K1。搜索,jl毕ht‘I’:/g。oglc.c。nI【二l陈牛科十中娅Z个戈摧索引警的设计-o戎耻计算机啦刚研究.期m.1R(3).¨I3,rsJ刘{fi嫒.』永成.刊惜毕q,足个盘批索乐统巾的压缩模型和模式nM技术中文估息学报,川∽】.14({j.121_'[7.泉海燕,张仲义.丛f单汉字索一j【的令土犄,糸系统的优化研究.中立信息学报,2001.15(1).14l”[8]MunlhRhcnzgcrHy肚rllIlk^㈨IyⅢforhwEB.1EEI:1ill¨C1putl”g.101.【1)35“】『9]度牟球中文地索引警htlp:/,h1【hco。 n,0Se。K‘’yHrlll信息库更新相关信息内容。上述的操作过程是在没有用任何干预之下自动完成。通知代理同样会将通知界面代理。页面该内容已改变。当用户浏览时会向用户提醒有新的信息咱们玩家啊内容有待浏览,井适时调查显示内容和山式-给信息用户呈现最新的信息。 以上三种技术是现阶段实施网上主动性信息服务的主要技术,它们的成熟与完善还有待时日。随着信息技术的发展,必将有更多有关主动信息服务的技术出现。 参考文赫二『1]盛小平.试论虚拟图书馆的信息共享管理.罔书馆杂志,1999,(11)[2]蔡巍.PusH技术简介.中国信息导报,1999,(3)L3jhttp//.pulnfo.com/ohuant【州hanB/ebuslness/buslne$s。 ■P,k。盘■k蠹幸。k,kj■≤kjk■t■tk■kk】-k-k=-■女业■t■tkjk业■t■业■■t:-业业■t■t■}■t-k■tk■P矗=-■}■t:‘j■立jk(上接第41页)[Iz]JonM.KIclnber口Hubs.AuthorltIendC。mmun¨iesACMC(】rrIputlngSey,1999.3“4):l3[13jJonM.Kleinbe’gAutho儿LatlvesourcnaHypefllnkedEnvIronment.JournaloftheACM.1090.46(5).604632[14]Geo。geM。ghabghabD眦overi“gauthoritlndhubs而小ffetlopol。g啪1web91aphstruclures.1nfa【10nPrssl“g8ndM旷一t,2002,38(1):111140[15]A蚍nB。r州m,m此£h.R。 b#m,efd】HndmgA“ch。 “㈨andIubsFromL】nkStructuresonthcworldWLdcweb.WWWlO,MHy,20叫-Ho“gKo”g.415429Aval】ablPfhttp,/www.acm.o。 g[16]YIto“gw8“gandMasKltsuregawaL1nkBascdclustcn“g。 lWebSearchRItsWebAgeInformatIodMgenItnt(WAIM’2001),225236.Sprlng盯-VcrlagBcrImHeldelberg200l[17]JcffrcyDeantMonlkaR.Henzi“gerHndl“ERejatedp89ntheWof【dWl如W曲.ComDutcrNctwork8,1999.3114671479[j8]Davjd(出sDn,J。nKleinb8rg,etaI.hferri“gw曲communities·58·fromLlⅡkT。p。 l。gy.Hypertext’98-P11tsbu。ghPAUSA2撕233Avail曲】fromhttp://"肌orz[19]soun)en(、hakrabanJ,ByI)om,etal-Autt叭urcecompilatlonbyana【yzl“ghyperlink8tructure抽d8ssoc】atedtextComputeTNetkdISDNsyslem1998,30:6574[20]蓠奇t李伟基于链接的学术性www网络资源评价与分类疗法.情报学报,z001,20(2):186一102[21]氏t町r“gsenTh(hfcufatIonofw曲ImpactFact。‰Juf[humentation,1098.54(2)236243[22]MlkeThelwau.webImpactFact。rsandS叫hc。 帅口eJ。 fr)。㈣en【auon,2000,56(2).185189[23]刚小华.w“站点的越链结构挖掘.计算机工程与应用.200l,(8):6465L24J邓英,李明web数据挖掘技术技工具研究计算机工程与应用.2001,(20):6465[25:王继成,浩金贵-张福炎web文本挖掘技术研究,计算机研究与发展2000,37(5):513520[26]韩寰伟·孟小峰,王静·等.web挖掘研究计算机研究与发展Z001,38(4):405414。 本文《Web信息检索技术最新进展》 --- 作者: 陈定权
以下为国内多位玩家推荐的实时文章:
轻变国战传奇1.76内挂加速器网游风云幻化苍龙
龙吟内挂凌云传奇私服无补丁中变不封速网通网游轻变
战狼1.76复古传奇私服外挂网游
天天元素4种族冰法火法网游
元神盾牌传奇1.76封加速私服网游天启
雷霆二合一传奇私服1.76英雄合击加强版网游
血饮狂刀1.85狂雷版,战神版,战神合击终极网游
1.76极品网通,人气最旺的1.85传奇SF,传奇SF不是合击的
中变态热血传奇私服网游
幻化1.85炎龙君临傲皇版本韩版霸主网游
长久服非组流传奇私服网游盛大辉煌战甲
祥瑞转生传奇2元当会员传奇私服上线送金钻网游合击
热血合击私服送两个倚天网游新地图
03怀旧版传奇,仙剑传奇狐狸谷地图坐标,1.76精品新地图
六职业传奇1.85天裂商业版本网游天启
山鬼轻变国战最火变态传奇变态传奇私服网网游君林天下
1.76世纪精品,传奇私服武器升级最多升几个,马上要开的传奇SF
1.76连击私服,找不到私服客户端是怎么回事,刚新出传奇SF网站
金牛版内挂人气最好变态传奇私服网网游东北
战狼传奇2012毁灭版本传奇SF176神啸网游
|