中文全文检索技术研究(硕士论文)

jianhu01

贡献于2012-07-01

字数:0 关键词: 搜索引擎

华中师范大学 硕士学位论文 中文全文检索技术研究 姓名:于波 申请学位级别:硕士 专业:计算机应用技术 指导教师:何婷婷 20030101 硕士拳位论文MASTER’S’11ltgSIS捅璺全文检索技术是信息处理的各领域中的重要技术。本文对全文检索技术进行了以下几方面的研究:l、介绍了国内外检索技术的发展过程,讨论了普通文本检索、概念信息检索、超文本信息检索、多媒体信息检索、数据挖掘等的技术特点。2、研究了全文检索技术的两种主要索引方法的特点和实现过程。其中基于字表的检索方法由于具有无需分词、实现容易的优点,因而在实践中被广泛采用。然后针对该算法存在的“索引库较大、匹配速度不高和查全率较高而查准率较低”等缺点,引入了第二种检索方法:基于词表的检索方法。3、研究了中文自动分词技术,这是中文全文检索钟的关键技术。对其中的几种方法,如机械匹配法(即MM法)、特征词库法、约束矩阵法、语法分析法和理解切分法等做了详细的比较和分析,并归纳出各自特点。其中MM法由于实现简单.并且是其它方法的基础,本文对其进行了着重介绍。4、在MM方法的基础上,本文对一种利用基于字、词和词组的混合模型来实现中文全文检索的方法进行了探索和研究。该算法的基本原理是:把所有的单字、词还是词组都作为语词,建立汉语词语二叉树。分词时,读取二叉树右边的内容,并比较左节点的长度,得到有意义的最小长度的语词。然后又庄这种算法的基础上进一步讨论了~种改进的MM法以减少词语的歧义切分。5、设计了校园网内Web页面的搜索引擎,该引擎的主要特点是:将搜索引擎主要分为前端和后端,后端获取Web文档,然后分词,建立和更新索引:前端提取索引库中的内容,向客户提供检索服务。在该系统中利用网络蜘蛛,扫描校园网中所有HTML文档,寻找所有与检索关键字相关的页面。并将向量空间的思想运用到其中,即可提取出其中的资源中心.即检索结果。关键词:全文检索,倒排文件,自动分词,二叉树,搜索引擎,向量空间 ⑩硕士学位论文M^sTER’S11{ES【SAbstract11圯fulltextretrieval(FTR)isthe#maltechnologyofdisposingtheinformation.ThearticledoesSomeresearchofthefulltextretrievaltechnology.1、Thearticlesummarizethedevelopmentofthewebsearchtechnologyinthedomesticcountryandaboard.Itwillrefertonotonlythecommondocumentretrievalintheweb,butalsothequeryofconceptinformation,hypertextinformation,multimediainformationandthedatamining.Thesenewtechnologyarealsointroducedbriefly.n地articleliststhespecificationofthefulltextretrievaltechnology,atthesametimethedeficienciesarealsoreferredandthetrendsofthefuturearedemonstrated.2、ThepaperdemonstratesthetwoindexmethodsoftheFTR.Searchbasedonthewordslistisverysimpleintheimplementationofthealgorithmwithoutdividingthewordsanditisusedwidely.Becauseofconsiderablestoragespaceandlargerindexdatabase,higherrateinthefLlllsearchingandthelowerrateintheexactsearching,thearticledemonstratesanewretrievalmethodbasedonthephraselist.3、ChineseWordsDividedSyncopationTechnologyisthedifficultyofthequerytechniquebasedonphrase.Somedividedsyncopationsuchasmechanicalmatchingmethod,featurephraselibrarymethod,restrictionmatrixmethod,syntaxanalysismethodandcomprehendedsyncopationmethodareemphasized.TheMMmethodiseasytorealizeandthefoundationofothermethods,andisintroducedemphatically.4、nlearticlepurposethehybridmodelingbasedoncharacter,wordandphraseastheChineseFTRusingMMmethod.ToreducededivergentdividedsyncopationanimprovedMMmethodispmmpted.5、TheretrievalsystemadoptingthealgorithmcouldsearchforWbrldwidewebpagesinsch001.Thesearchenginescouldbeclassifiedfrontsearchingenginesandmetasearchingengines:themetaonegetW曲document,thenslicetheword,ii establishandupdateindex;thefrontoneextractthecontentoftheindexlibrary,providetheusersqueryservice.ItusesnetworkspidertOscanningallHTMLdocumentsandfindoutthepageswhichisuseful.ThenitusestheideaofVectorSpaceModel(VSM)tOpickuptheresult.Keywords:FullTextRetrieval,InvertedFiles,DividedSyncopation,SearchEngines,VectorSpaceMod ⑧硕士学位论文MASTER’STttES[S第一章序言20世纪90年代,信息技术突飞猛进,Intemet/Intranet席卷全球,产生了大量的文本、声音、图像、数据库等各种形式的电子信息资源。随着大容量的存储介质技术与馆藏信息数字化的发展,各种形式的电子资源经过收集、加:{:,就可以通过网络提供远程的存取,实现资源的管理与共享。面对越来越多的信息,迫切需要一个高效的检索系统,以便对这些信息进行整理和加__【。1.1信息检索的发展过程纵观计算机信息检索系统的发展,可以将其发展过程划分为三个阶段。第一阶段:1971年以前建立的许多信息检索系统,其:工作方式是传统的批处理检索方式。这一阶段的数据存取与数据通信能力都比较差。第二阶段:1971年以后,产生并发展了联机情报检索系统,如OCI.C.Dialog在线数据库联机检索系统。这~一阶段的特点是联机数据库集中管理,.总有完备的数据库联机检索功能,但其数据通信能力较差。第三阶段:以Intemet的出现为标志,系统大多采用分布式的刚络化管骂1,其信息资源的主要特点是:数字形式表达、多媒体和多载体、内容覆盖全社会领域、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求高等。这些特点导致了信息处理从传统模式向新型模式的转变,知体系结构从终端董机方式到客户/J]7务器结构方式,网络环境从局域网到Internet等开放网.应剧接口从封闭界面到www等,信息结构从结构化到非结构化,系统功能从尊纯信息检索到综合信息管理和服务等等。这些变化必将促使信息检索技术的研究和不断发展,以满足人们对提高信息利用能力的需要。全文检索是信息检索发展的最前沿和目前的最高阶段。1.2全文检索技术的发展全文检索(Full—TextRetrieval)是指以全文本信息为主要检索对象,允许垌户以自然语言根据资料内容而不是外在特征来实现检索的先进查询手段。“文海捞针”是对全文检索的形象描述,全面、准确和快速是衡量全文检索系统的关键指标。全文检索技术的出现,导致了信息检索领域的一场革命;比起传统 ⑧硕士学位论文MASTER’STHESIS的标引检索来,全文检索技术提供了全新的、强大的检索功能,是发现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础。以全文检索为核心技术的搜索引擎已经成为网络时代的主流技术之一。在全文检索研究领域中,基于概念、超文本信息检索最为活跃,并已取得了突破性进展。1.2.1基于概念的信息检索技术基于概念的信息检索是指通过对文献中的原文信息进行语义上的自然语言处理,析取各种概念信息,并由此形成一个知识库。然后,根据对用户提问的理解,检索知识库中的相关信息,以提供直接的回答。概念信息检索有以下几个特性:l、具有分析和理解自然语言的能力。可以对输入的原文根据其概念内容进行组织和安排,以析取相关的概念信息和范畴知识。然后,通过记忆机制将它们存储到知识库中,以备检索用。2、记忆机制能够自动补充与更新。3、具有用自然语言回答用户提问的能力。概念信息检索技术的上述特性,使系统的查全率和查准率都得到提高。Web上的Excite搜索引擎就是采用概念信息检索理论设计的数据库,在Excite搜索引擎输入检索词“elderlypeoplefinancialconcerns”,系统可将含有“economicstatusofretiredpeople”和“thefinancialconcemsofseniorcitizens”等与检索词概念一致的信息作为返回结果,可见系统自动将“elderlypeople”与“retiredpeople”和“seniorcitizens”、“financialconcelTiS”与“economicstatus”进行了概念匹配。由于基于概念的信息检索技术具备了智能检索的一些特性,其系统分析和理解原文内容及用户提问信息的能力较强,因此,备受检索用户的青睐。1,2.2超文本信息检索技术超文本信息检索技术是以超文本网络为基础的文献检索技术。超文本信息组织的特点是正文信息以节点而不是以字符串作为信息的基本单元,节点间通过链进行连接。在检索文献时,其检索技术应能满足节点间的多种链接关系可以动态地选择性激发,根据思维联想或新信息的需要,通过链从一个节点到另一个节点。Interact上的搜索引擎代表了超文本信息检索技术的发展水平,网2 ⑧硕士学位论文MASTER’S‘rHESlS上建立和运行的多个基于超文本信息的全文检索系统如:A1.tavista、Yahoo!、LyCOS、Infoseek等著名引擎,不仅检索速度快.还普遍实现了自动分类、自动摘要、自动索引等功能,使Web信息得到有效的组织,极大地方便了用户对internet信息的查找和利用。123基于内容的多媒体检索技术的发展多媒体信息检索是指对图形、图像、文本、声音、动画等多媒体信息进行检索的过程。目前,一种被称为基于图像内容检索(ContentBasedImageRetrieval,CBIR)的多媒体检索技术正在成为国际上众多公司、大学和研究机构的研究热点。CBIR技术是随着大量多媒体信息的出现而产生,是解决多媒体信息检索的有效途径。传统的数据库检索是采用基于关键词的检索方式,甲期的图像数据库如KodakPictureExchangeSystem(KPX)、thePressI,inkLibrary和theTimeArchiveCollection沿袭了这种检索方式,采用描述性文本进行检索。由于图像和视频信息的内容具有丰富的内涵,在许多情况下仅用几个关键词难以充分描述,而且作为关键词的图像特征的选取也有很大的主观性。冈此,这种传统检索技术有很大的局限性。于是,基于内容检索技术应运而生。它区别r传统的检索手段,融合了图像理解技术,从而可以提供一种从巨容的图像/视频库中,根据人们提出的要求进行有效检索的方法。根据所处理的对琢,CBlR可分为静J卜图像检索和视频检索两种。与传统的检索方式相比较,CBIR具有以下特点:l、利用反映图像/视频内容的特征来进行检索;2、是相似度检索,即根据库中各个被检索单元(图像或镜头)与检索要求的相似性程度而返回检索结果;3、除了利用反应图像/视频内容的特征来进行特征检索外,还提供厂多种其它检索手段,如可通过提供样本图像进行相似性检索,也可通过人机交互进行浏览检索等。在现有的系统中,IBM的QBIC(QueryByImageContent)系统i可以说是第一个真正的功能齐全的CBIR系统,它对CBIR技术的发展也产生了深远的影响。QBIC系统提供了对静止图像和视频信号的检索手段。在静止图像检索中,提供了颜色、纹理、草图、形状、多物体等多种检索方法,并提供了根据样本1 图像进行相似性检索的方法。在视频检索中,包括了分镜头检测、主运动估计、建立层描述、通过拼接完成代表帧生成等多种视频处理手段,并在此基础上提供了通过物体运动、摄像机运动的附加视频检索手段。由加州大学圣地亚哥分校开发的Virage系统在美国市场上目前是最畅销的CBIR系统。Virage系统提供了将多种检索特征相融合的手段,用户可以定义各检索特征在检索中的权重,从而可报据自己的需要控制检索方向。Virage系统还提供了浏览检索手段——系统首先从图像库中随机选取一组图像,供用户从中选择与检索要求接近的图像,若这些随机图像中没有满足要求的,用户可要求系统重新选取,直到图像组中有与检索要求相近者。基于内容的多媒体信息检索技术有着广阔的应用前景,它可广泛用于电子会议、远程教学、远程医疗、电子图书馆、军事指挥系统等方面,大容量图像数据库的检索是其主要应用方向。作为一种新兴的技术,CBIR目前还处于初级阶段,只能利用一些相对简单的特征来检索,但随着研究的不断深入和发展,其功能也会越来越强大,将成为未来信息社会中不可缺少的技术和工具。1.2.4数据挖掘技术的发展数据挖掘(DataMining)就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是近年来在信息检索技术基础上发展起来的一门技术,是信息检索技术的一个重要分支。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Datafusion)等。特别要指出的是,数据挖掘技术不仅是面向特定的数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,企图发现事件间的相互关联,以指导实际问题的求解,甚至利用已有的数据对未来的活动进行预测。数据挖掘是一门广义的交叉学科,它汇集了数据库、人工智能、数理统计、可视化、并行计算等多方面的技术。在信息网络化时代,单个的人利用传统的手段几乎不可能处理或阅读整个信息库。同时鉴于信息库中存在着大量无用和冗余的信息,往往使用户所寻找的信息量与信息总量相比非常小,因此如何“去粗取精、由表及里”并迅速、准确以及适量地提供用户所需信息,同时在一定程度上揭示信息与信息之间的关联是文本挖掘的主要任务。4 硕士学位论文MA盯ER’S7⋯EslS数据挖掘与传统信息检索的区别和联系:1、传统的信息检索较适合于数据类型同构的信息库。但是对于异构数据组成的信息库,例如多媒体等则不擅长。2、传统的信息检索需要用户将要寻找的事件以关键词的形式较准确的描述出来,作为查询提交给系统。但往往这与人们通常的思维行为模式背道而驰,再有用户经常并不真地知道要什么信息。3、由于字义本身与其概念的延伸不在同一级上,造成利用传统信息榆索所寻找的信息可能仅仅是字面本身的信息,但往往人们想要的是这个信息的概念及相关的成分,而不仅仅是字面所表达的信息。4、传统信息检索可以被当作挖掘的底层工具,换言之,传统信息检索关注“词”的处理而信息挖掘则关心“词”的本原(Ontology)。5、传统信息检索尽管引入布尔运算,作为逻辑算子使用户能够较准确地表达查询。但其结果往往导致或丢失一些信息或产生大量冗余信息。6、传统信息检索通常是用户从信息库中去找他想要的。而信息挖掘是看信息库中到底存在些什么。目前,信息挖掘的研究和开发以及应用还刚剐起步,但已显示出较好的发展前景,随着信息挖掘的应用与技术的成熟,必将成为信息内容服务业的主流,以支持‘个快速的、新兴的Intemet信启、服务市场。13全文检索的特点1、方便灵活的全文存储和管理功能。对库的各种操作简便灵活,易于掌握,可对库中的记录进行编辑、修改、裁减、扣‘印、编排。树型多级分类管理可使系统建库数量不限,数据容量可以无限大。2、丰富全面的检索方式。包括支持布尔检索(与、或、非、异或)、位置逻辑检索(同段、同旬、相差几个字以及前后次序有关等)几十种检索方式。全交检索系统是一种存储文献全文或其主要部分并能提供全文检索的源数据库,与书目数据库、事实数据库相比较.主要检索特点是:(1)包含信息的原始性。库中信息基本上是未经信息加工的原始文本,具有客观性。‘2)信息检索的彻底性。可对文中任何字、词、句进行检索,还可表示 ⑩硕士学位论文MAsTER’STHESIS检索词间的复杂位置关系。(3)所用检索语言的自然性。不作标引,借助截词、邻接等匹配方法,,以自然语言检索所需文献。(4)数据相对的稳定性。全文数据库数据基本上是封闭的,一般不需更新。.(5)检索结果的准全性。利用后控制表及检索技术可以改善检索效果。3、系统支持GB国标码、OBK大字符集码、BIG5繁体字码和多语种处理能力。支持中、日、西、俄及其他东方文字或者图像输入和存储。4、支持多种格式文档资料和各种多媒体信息的管理和检索。包括各种格式化的文档(wPs、TxT、CCED、WORDSTAR)以及HTML页面的超文本链接,自动索引格式化的文档和页面,书版排版格式(s2、PS2、s72)直接入库,实现全文检索功能,流行的图像格式(GIF、BMP、TIFF、JPG、PCX)和声音动画文件(WAV、MID、FLC)的存储和播放,MicrosoftOffice文件的语音识别、合成,图形和图像处理与传送以及超文本的链接处理技术,图像、图形、视频和音频信息的存储、管理、检索和播放以及各种文字处理软件、图表制作软件产生的格式化文件的存储、管理、检索和输出。5、采用数据和索引压缩技术,以提高系统的查询效率.降低空间的膨胀率。6、支持结构化数据和非结构化数据的存储,同时实现数字型、日期型、定长和变长字符型、文本型、文档型(如MSWord,HTWL等)和多媒体数据型。7、系统广泛的兼容性。支持多种硬件平台,如小型机、服务器、PC机。目前流行的硬件平台有:IBM、SUN、DEC、SGI、Unisys、NCR、Alpha、VAX等。支持多种操作系统,如服务器上运行的Unix、Scounix、WindowsNT:客户机上运行的Windows3.X、Windows95、WindowsNT、Web浏览器。中文全文检索系统应能支持以上软、硬件平台中的绝大部分,以保证用户在Internet应用方面具有优势,同时使信息服务系统的水平升级和垂直升级简便易行。8、采用Client/Server体系结构,可使系统具有良好的可伸缩性和可选择性,在实际多用户环境中可以获得更高的性能,适合于以网络为中心的计算模式和Interact应用。6 1.4全文检索所面临的问题虽然全文检索技术日趋成熟,文献型的检索系统的开发和使用也相当广+泛,一些记录达千万级的大型数据库已经使用多时,在索引结构、检索技术、查询性能、词查(Thesaurus)管理、自动标引、自动摘要和自然语言处理等相关领域均取得了显著进展,但现在信息检索的研究和开发工作也面临着许多挑战:一无所不在的信息检索。无所不在的信息检索要求把信息检索技术扩展到单面、光盘出版、企业信息库、Web站点、Intemet搜索引擎、电子商务和数据仓库等各个领域。~自然语言处理技术。无论从数据挖掘,还是提供更易使用的自然语言查询接口方面,中文自然语言处理是关键因素,但是中文自动标引在80年代比较热烈的研究没有取得可用的突破性成果;自动摘要和自动分类系统的可用性仍缺乏实际证明;机器翻译系统仍然是仁者见仁.,智者见智。..检索系统的评价。和其他领域一样,信息检索技术的研究和系统开发需要科学的评价,我国863计’划已经开始对中文OCR、自动分词、自动摘要进行统一测试评测,建立检索系统的评测也十分必要。一多媒体内容检索。我国信息检索的研究主要是针对“数据库记录”和“丈字”。对图像、音频和视频信息的基于内容的检索研究需要大大增强。在某些数字图书馆软件系统中已经实现内容图像检索,针对音频和视频信息的检索存圈外也取得了很多成果。一Internet搜索引擎。全文检索技术是类似于Altavista等搜索引擎的核心支撑技术,由于Web是以HTML作为置标语言,因此相关排序等算法肯定和普通文本的检索不同,同时因为网上信息太多、信息不可能被完全覆盖,对检索的要求也首先是查准,然后是查全,除了文字页面的搜索引擎外,图像、音频、视频信息的搜索引擎也在发展中。1.5全文检索的方法目前所研究的全文检索方法主要有两种:基于统计的方法和基于知识的方法。基于统计的方法是利用查询变量在目标对象中的各统计指标来描述它们之 ⑩硕士学位论文MASTER’STHESIS间的相关度;基于知识的方法要求引入知识库的信息用以分析查询变量,从而检索出具有一定匹配度的信息。基于统计的方法在信息检索中的应用相当普遍。从简单的文本搜索到信息挖掘都能发现它的踪影。为了优化检索结果,部分研究引入遗传、神经网络等算法。实际上,基于知识的方法是在基于统计方法的基础上发展起来的,较为典型的研究为基于内容的检索。尤其在计算机图像和视频等领域,基于内容白q检索吸引了大批研究者,其目的是提取对象的特征,并附以识别特征的知识库结构。1.6全文结构全文整体结构如下:第一章介绍了特点和主要方法,指出了当前全文检索所面临的问题。第二章描述了全文检索技术中的主要方法之一一字索引。第三章分析、比较了几种中文自动分词方法的特点和区别。第四章利用前面所述自动分词方法实现基于词索引表的全文检索,并提出一种改进的机械匹配法以提高检索效率。第五章是全文的重点,在该章中利用全文检索技术构造了一个适用于校园网内的搜索引擎。第六章对全文作了小结。8 ⑧硕士学位论文MAS_【ER’SI'HESIS第二章基于字表的检索方法汉字全文检索系统和西文全文检索系统相比,在原理和方法上都有相同之处。首先在计算机内部,无论汉字还是西文都是以字节形式存储。两种技术的差别主要是由于汉语本身造成的。与西方文字和文本比较,汉字文本中的词是由一个或多个单字构成。词与词之间无间隔,实词和虚词之间也无问隔,检索的基本单元可以是单个汉字.也可以是词。所以,存在两种基本的检索方法:基于字表的检索方法和基于词表的检索方法。下面,我们来讨论基于字表的检索方法。21.宇表检索系统基本设计21.1字表的组织字表法索引库的主要部分是每个字的字表信息,字表结构如表21所示,其中字符i对应的字表记录了该字符在源文档中所出现的位置Pix。位置可以采用字符相对于文档头的偏移字符数表示,而,1i按通常情况采用相对于文档头的偏移字节数,这样可以大大减小位置的数值大小,有利rj进一步采用压缩技术。建立字表索引时,需要扫描整个源文档,对出现的每。个有效字符,计算其在文档中出现的位置,并将该位置的值加入到对应的字表巾。212检索策略⋯啊PjlPl2P1j阿P21P22P23⋯的I’,IPi2Pi3●●,中PiIPj2Pj3●●索引库中的个字表记录了对应字符在源文档中的所有位置信息,考察个字符串,如两个字的字符串其中xY(X、Y表示任意的汉字字符),假设X的位置为P。,如果字符串在源文档中出现,Y则的位置凡必定等3rjP。+1tj为两个汉字间的字符距离)。在索引库中,x的字表中将包含P。,而Y的字表中也必然包含P。+1。进行检索时,扫描x和Y各自对应的字表,若文档中有该词出现,则必定有x对应的字表中存在位置值Px,Y对应的字表中存在位9 ⑥硕士学位论文MASTER’STHESIS置值Py,使得Py=P。+1成立,每查到一对这样的位置值,就是检索到字串XY一次。扫描完两字的字表,就可检索出该字符串的所有出现。2.1.3索引库结构字表是索引库中最主要的部分,在每个汉字字符对应的字表中,包含该字符出现在所有文档中的全部位置。为了区分每个位置值属于哪个文档,每个字符的字表被分为多个字表段,每段对应一个文档,记录该字符在此文档中的出现位置。字表采用倒排文件结构,如表2.2所示。r£二二::::二I二=====∑∑,f文档编号}字频】位置序列l每个字表段起始部分记录当前文档的编号,随后是该字符在文档中的出现频率,最后是该字符在文档中的所有出现位置序列。每个字符的所有字表段按文档编号递增的顺序排列,如果该字符在文档k中没有出现,则不存在文档k对应的字表段。2.2索引创建及其优化2.1.2.1基本的索引创建方法系统采用的索引创建方法不需要排序,分为如下两步。第一步分析源文档,产生临时的中间文件,我们称为分析过程。当前只处理GB码字符。其中包含全部字符.既有汉字,又有一般的数字,标点符号等。GB码第一个字节的范围是0XAl~0XF7,第二个字节的范围是0XAl~0XFE。汉字从“啊”开始,首字节为176-247,第二个字节为161~254。根据这种分布规律,可以方便地定位每个字符对应的字表信息。源文档经过处理,其包含的每个字符的对应信息写到一个临时的中间文件。对于每个字符,其在临时文件中的对应信息包括:该字所出现的当前文档编号,在该文档中的出现频率,出现的位置序列和该字符出现在下一个文档中的数据的指针数据在文件中的偏移值。第二步处理临时10 ⑧硕士学位论文MAS’I硬’S’fI瑾SIS文件,依次从临时文件中读取每个字符出现在每一篇文章中的数据信息,生成最终的倒排文件,在这里称为创建过程。生成的最终倒排文件中包含每个字符出现在所有文档中的信息。包含:该字符出现的当前文档的编号,出现频率和相应的位嚣序列。处理过程如图2.1所示:幽2l萦弓I创建ijic栏222改进后的索引创建方法在上述方法rh对于源文件的分析过程本身需要一定的时间,随着处理数据集规模的增大,相应的分析时间增大,但第二步创建过程所需的时fHj也迅速增大。该过程需要大量的随机读取操作来遍历每个字符对应的所有信扈、。当彭:据的规模增大时,遍历每个字符的临时数据的操作变得很慢。这是由于字符对应的每个字表的数据在临时文件中有一定距离,遍历需要不断地移动文件指针来读玻这些数据。利用操作系统提供的虚拟内存技术可以优化索引的创建过程。Windows操作系统用虚拟内存来动态管理运行时的交换文件。为了提供比实际物理内存还多的内存容量以供使用,Windows操作系统占用了硬盘上的一部分空间作为虚拟内存。当CPU有要求时,首先会读取内存中的资料。当内存容量不够用时,Windows就会将需要暂时储存的数据写入硬盘。内存映射文件技术是Windows ⑧硕士学位论文MAsTER’STHESISNT提供的一种新的文件数据存取机制。利用内存映射文件技术,系统可以在2GB的地址空间中为文件保留一部分空间,并将文件映射到这块保留空间。一旦文件被映射之后,W'mdowsNT将仔细管理页映射、缓冲以及高速缓冲等任务。通过把临时文件映射到虚拟内存中,可以大大加快对临时文件的访问速度。对于较小的源数据集,分析处理后生成的临时文件也较小,使用内存映射文件可以大大加快创建过程。但当数据规模增大时,该方法的性能迅速降低,甚至比没有使用内存映射文件都差。性能的降低一方面由于机器有限的内存,其小于临时文件的大小。另外一方面,同一个字符相邻的数据在临时文件中距离过大,导致大量的缺页中断,系统性能大大降低。解决该问题的有效方法是把原有的单个的大的中间文件分成多个小的临时文件,在分析过程中生成多个小的临时文件,创建过程依次处理每个临时文件,将其映射到虚拟内存中,可以充分利用直接内存访问的速度,并且减少缺页中断。2.3索引的压缩技术2.3.1索引的压缩与查询分析由于全文检索系统通常处理的都是海量数据,经过处理生成的索引数据也是很大的,因此采用一定的压缩策略,可以节约存储空间。另外,全文检索系统执行检索时,通常需要读取~定的索引数据。采用压缩技术,可以减少读取数据所需的时间,从而有可能提高检索速度。在研究索引I/O压缩技术时,一方面希望能够减少索引数据占用的磁盘空间,但同时不能降低检索速度,否则系统的性能就会下降。假设Tr为检索时读取未压缩索引数据所需的I/O时间,Tc为内存中实际匹配和查找时间,则针对未压缩索引数据执行检索所需的总时间T可以表示为:T2Tr+Tc(1)对压缩索引数据执行检索所需的总时间T’可以表示为:T’=W+Td+Tc(2)其中,Tr’为检索时读取压缩索引数据所需的I/O时间Td为解压缩时间。 ⑧硕士学位论文MASIER’S7r}lESIS在检索中,一般情况下读入的部分压缩数据需要解压缩,然后进行匹配和奄找,最坏的情况下,所有读入的压缩数据都需要解压,因此会使用更多的时间。合理的压缩技术应该保证检索压缩索引数据时读取索引数据的时间和对索引数据解压缩的时间总和不大于检索未压缩数据时读取索引数据所需的时间,即:T‘≤Tf31Tr’+Td≤Trr4、23.2压缩方法在来压缩的索引文件中,文档编号占用4B,字频占用2B,每个位置值占用2B。在字表中源文档的编号是按递增的顺序排列的,可以采用运行长度编码的方法表示文档编号。对于任何文档编号,只记录其相对于前一个:艾档编号的偏移值。同样,某个字符在一篇文章中的所有出现位置必然是按升序排列的+也可以采用这种方法进行编码,对每一出现位置记录其相对于前一个出现位嚣的相对偏移值。采用差值编码,可咀减小数值的范围,以便于列这些差值进步采用短的长度表示。采用字节对齐的方法压缩索引,对于‘个给定的正整数,可以用1个或多个字节表示,表示该数的首字节的最左边两位为标志位,指示该数值共占用几个字节,剩余位可以用来存储实际的数,即l~4B可以分别罔6,14:22。30b来保存实际的数。经过压缩,每个文档编号就不必一定要占用4B。tL女1I,文档编号为80,用该方法表示为二进制位串:0100000001010000,只需要2B、对于字频和位置值,一般较小,不会大于32768,所以可以采用一位做标志位指示该数占用】B或2B。2.4小结本章在分析实际需求和现有技术的基础上,研究了字表法全文检索中索引的创建优化及压缩技术:使用虚拟内存技术可以火大提高索引的创建时闾,索引的压缩技术可以减少索引文件所占用的磁盘空间,也可以提高检索的速度,但解压也有一定的代价,检索速度因此降低。 第三章汉语自动分词方法相对于单字索引,词表法适用于大规模应用,索引库可以组织得比较小,检索速度比较快,而且还可以实现同义词、反义词的概念检索,但其难点在于中文自动分词及分词中歧义的处理。下面我们通过介绍几种主要的分词方法,并讨论在分词中如何进行歧义处理。3.1机械匹配法机械匹配法的基本思想是:事先建立一词库,其中包含所有可能出现的词。对给定的待分词的汉字串S,按照某种确定的原则切取s的子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割剩余的部分。直到剩余部分为空:否则,该子串不是词,转上重新切取S的子串进行匹配。机械匹配法的数据结构较为简单。一般来说,词库可分为基本词库和专业词库。为了提高查找匹配效率,它们又可细分为单字词库、双字词库、三字词库、四字词库和多字词库等。对机械匹配法,每个词库中的词条都非常简单,只需记录词的内部表示,而不必附带其他信息。词库可根据内部表示的大小组织成一个有序表。这样便于用二分法进行匹配查找。但是,由于整个词库一般较大,无法一次调入内存,结果,一次匹配查找往往需要多次访问外存,执行速度不一定十分理想。对此,一种改进的方法是:按照某种确定的原则f如词的首字)将整个词库分成若干个子词库,使每个词库均可一次调入内存,而每个子词库均按内部表示的大小组织成一个有序表。这样,执行一次匹配查找时,首先确定待查串可能属于哪个子词库,然后把那个子词库调入内存按二分法进行查找。如果相同子词库中词的内部表示长度不一,那么,标准二分法还必须加以修改。总之,词库的设计应以既省空间又能快速执行匹配查找为目标。词库的建立是机械匹配法成败之关键。这里一个重要的问题是:到底哪些词该收入词库?哪些不应收入词库?词库小了也许不够用,词库大了既费空间又费查找时间,甚至造成大量的歧义切分。一般来说,词库的好坏可通过两个参数来衡量,即覆盖率和利用率。覆盖率是指词库中出现在待切分语料中的词的数量与待切分语料的实际含词量之比,而利用率是指词库中出现在待切分语14 ⑧硕士学位论文MAS旺It’SnIESIS料中的词的数量与词库含词量之比。这两个参数都依赖于词库和待切分的语料,并且两者相互制约。为了获得高的覆盖率和高的利用率,一般采用基本词库加专业词库的做法,其中,基本词库中收集那些与语料无关的常用词汇而专业词库则根据语料所属专业来选取。即使这样,也不能保证词库中确实含有特定语料中的所有词。为了对付这种情况,自动分词系统应该为用户提供动态维护(包括扩充)词库的功能。31.1最大匹配法和最小匹配法根据字串切取的策略,机械匹配法分为最大匹配法和最小匹配法。根据匹配不成功时重新切取的策略,机械匹配法又分为增字法和减字法。增字法般与虽小匹配法相结合,减字法一般与最大匹配法相结合。最大匹配法的基本思想是:假设词表中最长的词由i个字组成,则每次从句予头上截取一个长度为i的字串,令它同词表中的词条依次匹配,如果同表中的却有这样的一个i字词,匹配成功,就把这个字串作为一个词从句子头上切分出去。然后再从句子余F的头上截取另一个i字字串,重复上述过程,鼠到句予被切分完为止。如果在词表中找不到一个词条能与当前字串匹配,就从浚字串的串尾减去一个字,用i—l字长的字串到词表中去查找,若匹配成功同样把该字串作为一个词切分出去:若匹配失败,从该字串串尾再减去一个字,用i一2宇氏的字串去匹配词表,赢到匹配成功。最小匹配法的方法和最大匹配法相反:它是按词表中最短长度的1个宁(般为j—1)从句子头开始截取字串与词表中的词条进行匹配。若匹配成功,就把这个宁串作为一个词从句子头上切分出去。然后再从句子余下的头上截取另⋯个j字字串,重复上述过程,直到句子被切分完为止。若匹配失败,则将字串串尾加一个字,得到j+1字长的字串,与词表中的词条匹配,若匹配成功同样把该字串作为一个词切分出去;若匹配失败,则继续在串尾加一个字,用汁!字串l{{j词表匹配,直到匹配成功。例1,输入句子“中华人民共和国成立了”。假设词表中有“中华人民共和国”,“成立”,“了”,“中华”,“人民”,“共和国”,“中”,“华”,“人”,“民”,“共和”,“困”,“共”,“和”等词,词表中最长的词是7个字(i=7),最短的词是1个字(i=1)。1S ⑧硕士学位论文MU、.STER’ST}王ESIS若使用最大匹配法:第一次从旬首截取的7字字串“中华人民共和国”就匹配成功。句子余下的部分为3字字串“成立了”,词表中没有这样的3字词,字串截尾的新串“成立”,匹配成功。句子余下部分“了”,也匹配成功。于是句子被切分为“中华人民共和国/成立/了”。若使用最小匹配法:第一次从句首截取“中”,匹配成功;接着截取“华”,匹配成功,继续切分句子余下的部分,最终句子被切分为“中/华,人/民供/和/国/成立/了”。例2,输入句子“有个人叫张梦云”。运用最大匹配法得到的结果为“有/个人/nq/张梦云”,撮小匹配法的结果为“有/个/人/Ⅱq,张梦云”。可见,最小匹配法的原则是“短词优先”,即认为对于同一个句子来说,切分的词最短时是最佳切分结果:而最大匹配法的原则是“长词优先”,即认为对于同一个句子来说,切分的词数最少时是最佳切分结果。由于大多数汉字均可构成单字词,所以按最小匹配法分词的结果往往因分得太细而不合要求(如例1)。反之,虽然最大匹配法的评估原则在大多数情况下是合理的,但当长词覆盖短词时,也会引起切分错误(如例2)。在实际运用中,我们使用最大匹配法较多。3.1.2正向匹配法和逆向匹配法根据切取子串的方向,机械匹配法又分为正向匹配法和逆向匹配法。前面所讲的是正向匹配法。如果从句子的尾部开始从右向左扫描,便是逆向匹配法。若匹配失败,就要从当前字串中去掉最前头的一个字以形成新串(逆向最大匹配法);或在当前字串前面加上一个字以形成新串(逆向最小匹配法)进行匹配。例1,输入句子“中国以新的姿态出现在世界东方”。正向最大匹配法:中国/以/新,的,姿态/出现,在世/界/东方(误)逆向最大匹配法:中国/以/新/的/姿态/出/现在/世界/东方(误)例2,输入句子“他使节约粮食进一步形成风气”正向最大匹配法:他/使节/约/粮食,进一步/形成/风气(误)逆向最大匹配法:他/使/节约,粮食,进一步,形成,风气(正)例3,输入句子“这件事反应了一个人的精神面貌”16 ⑥硕士学位论文MASffER’STI工ESIS正向最大匹配法:这/件,事/反应,了/一/个人/的/精神/面貌(误)逆向最大匹配法:这,件/事/反应/了/一/个人/的/精神/面貌(误)例4,输入句子“美国加州大学的科学家发现⋯⋯”正向最大匹配法:美国/自n'l-H/大学1的/科学家/发现⋯.(『F)逆向最大匹配法:美国/N'J、It/大学/的,科学家/发现⋯..(正)由以上瞍例可知,利用正向最大匹配法和逆向最大匹配法切分同一义本,有四种不同情况:情况l,两种方法切分结果不同,且两种结果均不j1_::确(如例1);情况2,两种方法切分结果不同,但其中有一种结果正确:情况3,两种方法切分结果相同,但结果都错误:情况4,两中方法切分结果相同,且是正确的。可见为便于发现歧义切分,可将两者有机地结合起来形成双向匹配法。由于正向匹配法和逆向匹配法对词库的组织有不同的要求,所以,将它们结合时,要重新考虑词库的组织以便两者都能快速执行。32特征词库法特征词库法的基本思想是:事先建立一个特征词库,其中包含各种具有切分特征的词。对给定的待分词的汉字串S,首先根据特征词库将S分割成若十个较短的孑串,然后对每个子串分别采用机械匹配法进行切分。实际上这是⋯1种“分而治之”的办法。由于每个子串都比s短,所以切分速度较快。特征词库法的理论基础是:虽然汉语的形态标志没有英语等西方语占那样丰富,但是汉语中还是存在一些形态标志的。并且,这些形态标志为汉语的切分提供了重要的依据,所以在自动切分时,应尽可能加以利用。~般来说,各种词缀(包括前缀和后缀)、虚词和重叠词等都可作为切分特征。虽然它们的数量有限,但由于它们的使用频率一般较高,所以把它们单独分离出来先行处理是可行的、有效的。这样做也便于系统的维护。因为不同类型的特征词往往要求不同的处理,所以特征词库中的词条不但要记录词的内部表示,而且还要记录它的类型。特征词库的规模一般4;火,往往可一次调入内存,并且可按使用频率的大小来排列。切分时按频率由大到小的顺序依次处理。选取特征词的依据是汉语语法中的构词法和构形法等。但是,也应该看到, ⑧硕士学位论文MASTER’STHESIS汉语中经常出现一些不合常规的例外现象。对此,在建立特征词库时应尽可能全面地加以考虑,最好能预计各种例外情形以便特殊处理。由于特征词库中的每个词条往往是对若干词的抽象,所以这些词的切分得到了统一的处理。结果,机械匹配法中的词库就不必包含这些词,达到了既省空间又加快查找速度的效果。上面给出的两种分词方法的·个共同的特点就是孤立地考虑词的形式。然而,出现在汉语中的每个词除了具有形式之外,还具有词性和词义。此外,相邻词汇的词性和词义必须是相容的,否则就会出现不合语法或不合逻辑。换句话说,汉语中相邻词汇的词性和词义之间必须满足一定的约束关系,这些约束关系是判断自动切分结果正确与否的重要依据,必须设法体现在分词方法中。下面将要给出的方法就是沿这条思路对前面给出的方法的改进。3.3约束矩阵法为了说明引入约束矩阵法的背景,下面先解释一下什么叫做歧义切分。所谓歧义切分是指相同的汉字串被切分成不同的词的序列。典型的歧义切分包括交集型歧义切分和组合型歧义切分。所谓交集型歧义切分是指形为ABC的汉字串既可切分成AB/C,又可切分成A/BC。如汉字串“计算机房”既可切分成“计算机,房”又可切分成“计算/机房”。所谓组合型歧义切分是指形为AB的汉字串既可切分成AB,又可切分成A/B。如汉字串“任何”既可切分成“任何”又可切分成“任,何”。现在的问题是,当某个汉字串具有歧义切分时,怎样在这些切分结果中挑选一个正确的结果作为最终可用的切分结果。约束矩阵法就是为了解决这个问题而提出来的。约束矩阵法的基本思想是事先建立一个语法约束矩阵和一个语义约束矩阵,其中的元素分别表明具有某词性的词与具有另一词性的词的相邻是否符合语法以及属于某语义类的词与属于另一语义类的词的相邻是否符合逻辑。另外,事先还要建立一个词库,其中包含所有可能出现的词,它们的各种可能的词性和语义类。对给定的待分词的汉字串S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则从词库中取出该词的所有词性和语 ⑧硕士学位论文MASFER’ST}{ES【s义类,然后根据约束矩阵判断这些词性和语义类中是否存在与已切分出来的相邻词相容的部分。若有,则该予串是词,记下它的所有相容的词性和语义类作为后继切分的基础,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取S的子串进行匹配。假设不同的词性共有N种,不同的语义类共有M种,那么语法约束矩阵可实现成N*N的布尔矩阵G,G0,J)=TRUE表示具有词性I的词后直接紧跟具有词性J的词是合语法的。同样,语义约束矩阵可实现成M*M的布尔矩阵s,s(1,J)=TRUE表示具有语义类I的词后直接紧跟具有语义类J的词是合逻辑的。约束矩阵法的前提和基础是存在对词的性质的分类和对词的语义的分类。但是,词的分类问题,特别是词的语义的分类问题并不那么简单。按什么原m1分?该分多细?都是值得研究的问题。并且,为了不同的目的而进行的分类往往结果不。当然,在这里,分类的目的是为了便于形成对切分有效的约束矩阵。在确定了词的分类后,约束矩阵的形成既可以现有的语法和语义规则为基础,又可以对大语料库的分析结果为基础。在约束矩阵法中,词库中的词条不但要记录词的内部表示,而且还要屺录它的各种可能的词性和语义类(为便于动态维护,这些信息口J。用链表结构米实现)。由于兼类现象在汉语中卜分普遍,并且大多数词都有许多不同的义项:所以每个词条所需空问将比前面给出的两种方法大得多。但是,约束矩阵法的一个优点是,分词的结果不但把连续的汉字串分割成了词的序列,I向乱它还给出其中每个词的词性和语义类。如果分词系统是另一个更大的汉语处理系统的子系统,那么,那个更大的汉语处理系统便可充分利用这些信息进行语法和语义分析。另方面,确实应该看到,由于约束矩阵法只利用了相邻侧汇的约束关系,而汉语中大量存在跨词汇的约束关系,所以它的作用是十分仃限的。当分词系统是某个包含语法分析系统的更大的系统的予系统时,+种理想的做法是:把语法分析系统和分词系统溶为一体。这就是下面将要给出的语法分析法。3.4语法分析法引入语法分析法的背景与约束矩阵法相同,它们的不同之处仅在于前者通9 过语法规则给出全局约束,而后者仅通过约束矩阵给出局部约束。为了说明语法分析法的作用,下面考察一下几个汉语句子的切分问题。对汉语句子“他在计算机房基建投资”。按机械匹配法,它既可切分成“他/在/计算机/房/基建,投资”,又可切分成“他,在/计算,机房,基建/投资”。到底该选哪个作为切分结果,机械匹配法无法确定。但是,只要对它们进行语法分析,就不难发现前者不合汉语语法,后者符合汉语语法。所以应以后者作为切分结果。相反,汉语句子“他在计算机房调试程序”应切分成“他/在,计算机/房/调试/程序”。因此,相同的汉字串“计算机房”在不同的语言环境中可有不同的切分,对特定的语言环境到底采用哪种切分可借助语法分析来确定。同理,“何时何地任何职”应切分成“何/时/何/地I任,何/职”,而“任何人都应遵法守纪”应切分成“任何/人t都,应/遵法/守纪”。事实证明:借助语法分析来提高切分正确率是完全可能的。语法分析法的基本思想是,事先建立一套汉语语法规则,其中的规则不但给出某成份的结构(即它由哪些子成份构成),而且还给出它的子成份之间必须满足的约束条件。另外,事先还要建立一个词库,其中包含所有可能出现的词和它们的各种可能的词类。对给定的待分词的汉语句子s,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则从词库中取出该词的所有词类,然后根据语法规则进行语法分析(包括语法分析树的构造和约束条件的检查,这时不但要使用该词的所有词类,而且还要使用前面已分析部分的结果)。若分析正确,则该子串是词,记下语法分析的结果作为后继切分的基础,继续分割剩余的部分,直到剩余部分为空:否则,该子串不是词,转上重新切取S的子串进行匹配。这里首先需要确定语法规则的内部表示。为了加快分析速度,一般将整个语法规则库分成若干个子库(如根据规则右部的第一个分量或最后一个分量来分类)。每个子库中的规则又可按使用频度来排序。一条规则实际上就是一个产生式加上一个关于该产生式右部各分量的约束条件。约束条件可实现成布尔函数。语法规则的形成是自然语言形式的结果,是用计算机分析和处理自然语言的前提和基础。历史上,正是为了实现自然语言的形式化而建立了形式语言理2n ⑧硕士学位论文MASrER’STJ{ESIS2======222222==!=●。::=:;=:=======!!!!=!!!!!==!=!==2222222—22论。另一方面,在用形式语言理论来描述和处理自然语言的过程中所遇到的各种问题又不断地促使新理论的提出和完善。这种理论研究与实际应用的循环不但使理论得到进化,而且也使人们对自然语言的认识不断深化。但是,到目前为止,这一循环还远没有达到饱和状态。也就是说,理论结果和实际需要之间还有很大的距离。具体体现在:为描述和处理自然语言而提出的形式语法规则还不能完全覆盖丰富多彩的自然语言现象。结果,语法分析法的应用将不可避免有其局限性。理想的系统应为语法规则的增删和修改提供手段。另外,语法分析法要求保存分析时产生的所有中间结果(语法分析树).故它的空间开销要大些。不过,由于分词的最终结果包括一棵语法分析树,所以后继处理中就不必再进行语法分析了。3.5理解切分法经验告诉我们,人们在阅读汉语文章时,并不存在孤立的切分阶段,而是一边切分,一边理解。面对一段含有歧义切分的汉字串,,^.们总是采用一种司理解的切分而放弃不可理解的切分。一般来说,切分是理解的基础,理解是切分之目的,可理解性是判断切分正确与否的标准。切分与理解的这种相互依赣关系决定了要想提高切分结果的正确率,就必须在切分法中引进“理解”成份。理解切分法就是这样种具有“理解”成份的切分法。它与语法分析法的关系是,后者是觚者的基础。但是,除了进行语法分析外,它还要进行语义分析,理解切分法的基本思想是:1、事先建立~个词库,其中包含所有可能出现的词和它们的各种语义信息2、对给定的待分词的汉语句子s,按照某种确定的原则(例如按正向最大匹配法)切耿S的子串3、若该子串与词库中的某词条相匹配,则从词库中驭出该词的所有语义信息:若不匹配,则转1,按某种原则重新切区子串(例如减去子串尾的最后一个子),并继续匹配词库,直到匹配成功4、调用语义分析程序进行语义分析(包括形成理解结果和检查约束条件,这时不但要使用该词的所有语义信息,而且还要使用前面已分析部分的理解结 ⑧硕士学位论文MASⅡR’STHESIS果)。5、若分析正确,则该子串是词,记下理解结果作为后继切分的基础,继续分割剩余部分,直到剩余部分为空;否则,该子串不是词,转3重新切取s的子串进行匹配。这里涉及到理解结果的内部表示的问题。常见的表示方法有基于格语法的语义框架法、语义网络法、概念结构法、功能描述法等。理解结果的形成由对应的语义分析程序来负责。词库中需记录哪些语义信息以及它们的表示形式,这些问题都根据语义分析程序的需要来确定。由于理解切分法的最终结果包括理解结果的内部表示,所以,它为后继的处理提供了一个很高的起点。但是,也应该指出,为了有效地实现理解切分法,还有许多理论问题需要研究。并且,即使采用理解切分法也不能解决所有的歧义切分问题。例如,汉语句子“乒乓球拍卖完了”既可切分成“乒乓球/拍,卖/完/了”又可切分成“乒乓球/拍卖/完/了”。并且两者都是可理解的。这时.除非具有进一步的语用和语境知识,否则即使人也无法判断该采用哪一种切分。3.6,J、结自动分词的几种方法:机械匹配法、特征词库法、约束矩阵法、语法分析法、理解切分法各有其特点。机械匹配法是这几种分词方法中的基础。为了解决机械匹配法中的分词歧义的问题,最简单的办法是同时采用正向最大匹配法和逆向最大匹配法进行双向切分。但由于切分字串和匹配词表的次数为一般方法的两倍,速度较慢,需要过多内存,所以一般不予采用,而且,双向切分只能找出大部分的歧义,而不能在两种切分结果不同时选择出正确的切分结果,也无法完全实现分词无歧义。特征词库法主要是通过将待分字串分解,建立特征词库,以实现字串的快速切分:约束矩阵法是在分词的同时分析已切分的字串与前后字词的逻辑关系,如果符合约束条件就是词.否则便不是,来实现无歧义切分;语法分析发是通过对已分字串与其所在句子的语法关系是否合理,来实现词语的正确切分;理解切分法在分词的同时需要进行文章的语义分析。这几种方法不光实现起来较复杂,而且其分词的准确性很大程度上取决于所采用的约束条件的充分 ⑧硕士学位论文MASfER’S‘rHESIS性和语法、语义规则的完整性,所以就实现的可行性来说,机械匹配法中的最大匹配法(MM法)不失为一种简单、有效的分词算法。如果能对MM法进行适当的改进,以提高分词的准确性,则它将在中文全文检索领域得到更广泛的应用。在下面一章里,我们将在最大匹配法的基础上,提出一种改进方法,以实现尽可能无歧义的检索。 ⑥硕士学位论文MASTER’STHESIS第四章4.1预处理算法4.1.1建立词库语词:在这里我们把字、多字词。基于词表的检索方法词、词组统称为语词。词包括单字词、两字词、思想根源:借用了汉语中词组本位的思想和汉语树库的构建。L:为词库T.:为词库中基于每个汉语单字的字、词、词组的语词树N,:为每个语词树中的语词节点L={TI,T2,T3⋯⋯⋯⋯⋯⋯⋯)T;={Ni,N2,N3⋯”...⋯⋯⋯。.)如图4.1:图4.I一般树结构语词树考虑N-叉树存储结构的优点是:结构简单,可以方便的构造任意的二叉树,可以方便的实现二叉树操作中的查询、插入、和删除操作。我们把每个单字可能构成的各种词语普通树(图4.1)用二叉树(图4.2)的形式表示出来,虽然可能增加树的深度,但却降低了算法的复杂度,减少了搜索时间。 ⑧硕士学位论文MASTER’ST}tESIS由于根节点是汉语单字,所以在词的扩展中不需要再增加整棵的树,只需要增加部分树枝即可,只要计算机的容量足够大,词库的更新不再是问题。幽42二义树结构语倒树每含节点及其左子树是一个语词层级,其排列顺序是按照文本比较的降序排列的,在同一语词层级内,我们可以采用二分法快速定位;每个节点的右子树对应此节点的下一个语词层级,从而在分词时能够层层递进找到匹配的词。每棵树的根节点即词首汉字的地址排放按照h(cc)=(91+c1)Ac2的地址排放(c,,c2)为汉字CC的高、低字节的机器内码值,^为异或运算符。词典的建立采用C语言,二叉树每个节点的数据结构可以表示如下:structTreeinfo{stringData:imtail:25 ⑧硕士学位论文MASTER’STHESISTreeinfo+Leit,Treeinfo’mght;}结构中,Data表示一个词干,如:‘阶级’:tail表示对应词组分词文档库所在的地址,如tail4表示‘中间阶级’这个词组对应的分词文档库的地址;Left指向对应节点的左子树;Right指向对应节点的右子树。之所以增加地址tail项,是为了提高文档分词结束后存入分词文档库的速度,也是为了提高查询的速度。4.1.2建立停用词库在汉语中有一些虚词如“啊”、“的”、“了”等词,并无具体的含义,在检索中意义不大,不会用作检索关键词,我们称作停用词。这些停用词虽然个数很少,但出现频率很高,在索引中占用较大的存储空间,而在检索时却很少用到。所以如果建立停用词库,不对停用词建立索引,将提高检索效率。4.1.3算法分词时,从句子流中读入一个汉字,然后根据根节点地址h(ri)找到对应的单个汉字,因为根节点的左指针为空,所以直接由其右指针指向的节点数据datastrl的长度Ncl从句子流中读入Ncl个汉字filestrl,如果filestrl比datastrl小,则继续取左指针对应语词datastr2长度的filset2与datastr2比较;如果filestrl与datastrl相等,则停止对左子树的比较,取右指针对应语词datastr2长度的filestr2与dataStr2比较:如果filestrl比datastrl大,则表明这个单汉字对应树的比较从datastrl的父节点结束。以此类推到分词结束。算法描述如下。设句子流中某个句子Fi=ala2⋯a18j+1⋯an,设当前分词指针P指向汉字码(!)据h(aj)=(91’C10)AC20(C10,C20为汉字aj的高、低字节的机器内码值)找到单汉字a;对应的语词树。(2)存储节点对应的数据datastrk_I,扫描节点左指针指向的节点数据datastrk,计算Ncli=Len(datastr0,把Fi中filestrk=ajaj+l⋯jaj+Ncl读入进行分析(3)如果datastrk=NULL则转(5)如果strcomp(五lestrk,datastrk,I)=1则转(5)26 ⑧硕士学位论文MAS’rER’S1IIESIS如果strcomp(filestrk,datastrk,0=o贝Uk=k+l转(4)如果strcomp(filestrk,datastrk.1)=一1则转(2)(4)存储节点对应的数据dataStrk-l,扫描节点右指针指向的节点数掘datastrk,计算Ncli。Len(datastrD,把Fi中filestrk=ajaj十Ijaj+Ncl读入进行分析,转(3)(5)把新分出的词到datastrk.1结束加上分词符,顺序放入已分词文档数据库,此数据库包括了位置字段,等待后续处理。41.4待分字串的预处理在机械分词过程中,把句子中的字串和词表中的词条进行匹配是必须进行且不断重复的步骤。我们注意到,如果词表是按增序排列的话,具有同样前缀的词相隔不远。由此想到,我们可以在开始分词前进行一个预处理过程,按某‘算法对句子进行扫描,保存下字段的内部结构信息而不仅仅是对某一长度的字串进行匹配。通过选择合适的算法,在预处理过程中就能完成分侧过程中所有的数据库访问操作。在实际分词的时候可以直接用到这些结果。这样做的好处是:阏为它保存了所有的切分可能,所以预处理过程可以不加改变地用于各种机械分词算法,便于算法的实现:而且利用它也可以找出所有可能的歧义‘芦段。s[i.EN]s[i1图4.3用来l!ll存字段结构信息的数据结构 ⑥硕士学位论文MAs’rER’STHESIS在预处理过程中,需要一种符合要求的数据结构来保存字段的内部结构信息。我们选择的数据结构形式如图4.3所示:其中数组S[LEN]的内容是待分析的句子,s【i】为句子中的第i+1个字;ci指向首宇为S【i】的字段的内部结构信息;Wik表示S【i捧0S[i+Wik]组成一个分词单位;Dio是Wik所表示的分词单位的属性,如它在词库中的位置,词性等。例如,如果句子中有字串“中华人民共和国”,通过增字扫描可以得到词典中首字为“中”的分词单位有“中”、“中华”、“中华人民”、“中华人民共和国”,除去首字的字串长分别为0、l、3、6,在内存中的表示如图4.4所示:”矗1)6属性属性属性图4.4首字为“中”的字段的内部结构信息有了这些信息,在实际分词时就很容易从“中”开始,在句子中截取一定长度的字串来得到符合条件的词条。利用以上的数据结构,我们可以实现预处理过程,其算法大致描述如下:PretreatmentⅣ函数中常量LEN为句子长度,常量MAXWORDLEN为词表的最大词长(for(i=O:i=LEN即超出句子尾,,部时还应进行相应的调整{ ⑧硕士学位论文MAS‘I’ERST1fESIS2’22211竺!1222’’!。!!!!!!!!!!!!!12警!!!!!!!!!!!!!!!!_!!!!!!!!Wik=j;k++:StoreData(Dik);//保存该词条的属性}})}42索引的构成索引库由两级构成:第一级为词语级索引,是图4.2中右子树的“RF”部分;第二级为文档级,是该词语在某一文档中出现的位嚣。其具体结构如图45:硎诰级景‘jI番I(R¨文档级索引表2浏45中文索引库结构其rhldoclen为该词语对应索引表2的长度;doclink为该汉字对应索引表2的地址指针;docid为该词语所出现文档的序号:poslen为词语出现的频率;posI.posn为词语在文档中出现的位置检索的时候,不需要将所有索引表预先调入内存,可以采取~种请调策略。+般只词语级索引表1调入内存,而索引表2依旧在辅存:根据索引表1中甜应索引表2的位置信息调入索引表2。这样,虽然整个索引库较大,但只占用较少的主存空fuJ,检索速度较高。为了进一步降低索引库的大小,提高检索速度,还可以对索引表2进行适当的压缩: ⑩硕士学位论文MASTER’ST}正SIS1、posn为字符在文档中出现的位置,一般用相对于文档头的字节数表示,而这里用字符数表示。这样,每个位置信息所需要的存储空间比原先要减少大约一半。2、位置信息不再用相对于文档头的偏移字符数表示,而是用该位置相对于该字在本文档中前一出现位置的偏移字符数表示。因为,若posl,pos2⋯.:.posn表示相对于文档头的位置信息,则posl⋯⋯posn必然是以升序排列。为了节省空间,posl存放该汉字相对于文档头的偏移字符数,pos2存放该汉字相对于posl的偏移字符数,即posn为该字相对posn.1的位置。4.3改进嗍算法的基本思路前面描述了最大匹配法(MaximumMatchingMethod,简称MM法)的基本过程。MM法的评价原则是“长词优先”,然而现有的最大匹配法,不论顺向还是逆向,增字或减字,都是在局部范围进行最大匹配,即每次最大匹配的范围都是最先i个或最后i个字符。这样并没有充分体现“长词优先”的原则。例如以下句子:句子1:“当中华人民共和国成立的时候”句子2:“当他看到小孩子时”如果用正向的MM法进行分词,第二个句子的结果是:“当/他/看N/d'孩子t时”,切分是正确的。但第一个句子的结果却是;“当中/华人,民/共和国/成立/的/时候”。显然,“当中华人民共和国”是歧义字段,这里的切分是错误的。如果用反向的MM法即RMM法进行分词,第一个句子的结果是:“当/中华人民共和国/成立/的/时候”。切分是正确的。但第二个句子的结果是:“当/他/看到/,J、孩/子时”,“小孩子时”又成为了歧义字段。可以看到,以上两种分词方法都在一定情况下产生了歧义切分。这里歧义产生的原因是没有充分体现“长词优先”的原则。“中华人民共和国”和“小孩子”都是句子里最长的词,但是在某些情况下被切分开来。为了对这种情况进行改进,我们提出一种改进的MM法,其基本思想如下:假设词表中最长的词由i个字组成,句子长度为N,为了便于讨论,假设是采取归左原则进行切分。 硕士学位论文MASrER’SiIIESIS先从句子第1个字开始截取一个长度为i的字串(即句子的开头i个字),令它同词表中的词条依次匹配。如果在词表中找不到一个词条能同当前字串匹配,就从句子第2个字开始截取一个长度为i的字串重复以上过程。如果还找4i到,则依次从第3,4,⋯⋯N—i个字开始截取长度为i的字串进行匹配。如果在某一次匹配中查到词表中确有这样一个i字词,匹配成功,就把这个字审作为一个词从句子中切分出去,把原旬中位于这个字串左右两边的部分视为两个新的句子,递归调用这一过程。如果所有的匹配都不成功,说明句予中没有长度为i的词.则开始寻找长度i~l的词。重复这个过程直到整个句子被切分。例如对刚才。的句子l:“当中华人民共和国成立的时候”,设i=7,首先截取的字串是“当中华人民共和”,匹配不成功,接着截取字段“中华人民共fIj国”,匹配成功,把它切分出来。原来的句予变成两个子旬:“当”和“成立i向时候”。对它们再分别进行以上过程,直到所有的词被切分出来为止。同样,对于句子2:“当他看到小孩子时”,首先被匹配成功的字串显然是这个句子中最长的分词单位“小孩子”。可以看到,本算法在整仑句子的范嘲内寻找最长词,充分体现了“长词优先”的原则,成功地处理了MM法和RMM法1i能正确切分的句子。本算法的大致描述如下:Scqment‘s[oj,S[LEN—1])//对SlOl到sB.EN.1】的字串his叫进行分i,+lgi?嚣LEN为句子长度,常量MAxwORDLEN为词表的最人1刊K{fbr(j:=MAXWORDLEN—j;j>=0;i一)ffbr(i0;I0)//判断SlilN_¥r匀句TI?JG:i一’Segment(s[o],s[i-1]);//对SlOlNsli.1J的字串进行分1日If(i+j,第六章结束语全文检索技术是当今信息检索发展的最高端和最前沿,它从上个睦纪发展至今.在文本检索方面已比较成熟。近年来,随着Intemet的迅速发展,网络上信息日趋繁多和复杂,对信息检索的要求越来越高。全文检索技术以其较高的查准率和查全率,较简单的检索算法被广泛应用于网络信息的检索r1]T如:搜索引擎,数字图书馆文献检索,针对用户的各种信息的检索,等等。fatlit:I。并无万能东西,全文检索技术也有其缺点和不足,这也是厂‘大学者醛/』研究,努力改进的部分。由于汉语自身的特点,使得汉字全文检索远比西:芝全文检索复杂,汉字全文检索技术也远不如西文全文检索技术发展得充分、成熟。汉字全文检索技术发展的障碍主要在于以下几点:l、高的裔全率和高的查准率不可能同时捌有。使用单汉字检索力法,其何较高的查令率和较低的查准率;使用词检索方法,具有较高的查准率和较低的查全率。:、存词检索方法中,分词易产生歧义。氕不论是字榆索还是词检索,倒排索引文件都会占用较大的存储空闻特别是字检索,虽然检索算法简单,单庞大的索引文件极影nH检索速发,4、检索会产|I_l_:太鼍的重复或无用的符合检索条件的文档,不利于j;l】户觇:{lI爻取卡i用的信扈。针刈以1.问题,本文主要做J’以下L作:1、介绍了国内外全文检索技术的发展动态,分析了全文检索技术的优缺点,指}{{了今后的发展方向。2、分别介绍r字索引和词索引的主要方法。3、将全丈检索技术运用于搜索引擎中,实现校园网络中的检索。本文鼠在研究中文全文检索技术,并尝试构造适合于。定范制的搜索引擎。今后还需对如何更大程度的提高检索速度和检索效率作迸~步研究。 ⑧硕士学位论文MASTER’STIIESIS参考文献1.苏广利.因特网信息检索工具的十大发展方向.图书馆建设,2001,l:75—762.雷春明,焦玉英.Web页面信息检索智能代理模式研究.现代图书情报技术,2001,第3期:30-323.黄岜,符绍宏.自动分词技术及其在信息检索中应用的研究.现代图书情报技术,2001,第3期:26—29。4.高迎,王丽君,王锡钢.Simutem:一个中文信息检索系统.鞍山师范学院学报,200l,第3期:82—855.储节旺,鲍克忠.网上信息检索目标与策略的转换.情报理论与实践,2002,第25卷第1期:55—576.曹元大,贺海军,涂哲明.中文Web文档全文检索系统的设计及实现.北京理工大学学报,2002,第22卷第l期:68—717.周前,肖建华.全文检索中的文本学习技术研究.湖南工程学院学报,2001,第1l卷第2期:64—678.曹元大,贺海军,涂哲明,王琴.全文检索字索引技术的研究与实现.计算机工程,2002,第28卷第6期:260—2629.刘志勇.网络环境下信息检索效率的评价.大连大学学报,2002,第23卷第1期:110一11210.张开舟,张惠惠.万维网信息检索系统开发技术.情报学报,2002,第2l卷第1期:42-4711.周涛.两种全文信息检索系统的比较研究.情报理论与实践,2002,第25卷第2期:138—14012.陈华辉.一个中英文全文搜索引擎的设计与实现.计算机应用研究2001,第三期:13l—13313.陈淑燕,瞿高峰.全文检索系统的数据库设计.延安大学学报(自然科学版),2001,3.第20卷第l期:31--3414.郑庆华,张炜.超文本全文检索技术的研究与实现.西安交通大学学报,2001,4第35卷第4期:377—381 硕士誊7j沦=_=、I,t3ILcf、⋯jN、l5.张俭恭,陈定权.汉字全文榆索系统的关键技术与实现.现代图书情报技术.200l,第2期:16一1816.李志蜀,李果.中文搜索引擎的原理剖析及开发实现技术.讨’算机应用研究.200j第1l期:96‘一9917杨建林全文检索研究.情报理论与实践,第23卷2000年第1期:12⋯㈦18.苏新宁.超文本技术在全文检索系统中的实现.情报学搬,2000年l2月,第i9卷第6划:582一一5%i9.马迎春.全定检索系统概述.情报科学,2000年l2月第18卷第12期:l1.3:l1352().董春晓.力。维刚卜的全文检索技术及其发展.情报理论与实践第2,{卷2000年第1期:。3一一5521.李广。建,黄永文基于WWW的全文检索系统设汁与实现.现代图B情报技术,2000句-第2j昵:26—2822.裘汀南,马克芬一种基于Web的全文检索系统的建●:方法现代图书情报技术,20()0年的2期:I{23423_顾眷厌,f玉,顾永立.古爿运发汉字全义检索的实现与探汜计篇f:机哪‘l!.1998年2月第24卷第2梵H:60—7224.赵曾贻,陈天娥,朱兰.一种基于语词的分词方法.另、州大学学报1日然利‘、≯’,2002年7月第18卷第3煳:44482j.蒋微.中史搜索引擎的自动分词算法.电脑歼发与应用,2002年第15卷笫n期:2小一2726.陈天娥,赵曾贻罄于字、词、词组的中文搜索引擎分闯系统.武汝l:业学院学报,2002年第。{期:37—4027.郭髑!。苏rf,义,王爻.崔骏’1种改进的MM分词算法微型r乜脑J、t用200;2年第18卷第l期:13、、一1628.赵新民.搜索引擎的中文信息处理技术.现代情报,2002年5月第j期:98—10029.陈桂林,王永成,韩客松,王刚.一’种改进的快速分词算法.计算机研究与发展,2000年4月第37卷第4期:418--424d7零《峙、 30.欧振猛,余顺争.中文分词算法在搜索引擎应用中的研究.计算机工程与应用,2000.8:80一8331.谭琼,史忠植.分词中的歧义处理.计算机工程与应用,2002,11:125-12832.邹海山,吴勇.吴月珠.陈阵.中文搜索引擎中的中文信息处理技术.计算机应用研究,2000,第12期:21-2433.闫引堂,周晓强.交集型歧义字段切分方法研究.情报学报,2002,第19卷第6期:637—64334.秦洪晶.Internet中文信息检索技术.青海大学学报,2000,第13卷第4期:86—8935.丁丰,董娜.林碧琴,袁保宗.自然语言处理系统中自动分词的研究.北方交通大学学报,1999,第23卷第6期:3l-3336.严威,赵政.开发中文搜索引擎汉语处理的关键技术.计算机工程,1999,第25卷第6期:5—737.李盛涛,吴丽辉,于满泉.潘文锋,余智华,王斌程,学旗.主题Web信息采集的研究与分析.语言计算与基于内容的文本处理.清华大学出版社.2003年7月:488--49438.傅国宏,王晓龙.基于词形的汉语文本切分方法.情报学报.1999,第18卷第3期:235—24039.刘说,王斌,杨志峰,张鑫.Web关键资源发现中的链接分析技术.语言计算与基于内容的文本处理.清华大学出版社.2003年7月:495—50040.郑延斌.自动分词中的歧义处理.微型机与应用,1998,第6期:9—10,4941.邹育理.Web环境下的信息检索.大学图书情报学刊,2001,第3期:14—1642.鲁松,白硕,黄雄,张健.基于向量空间模型的有导词义消歧.计算机研究与发展,2001,第38卷第6期:662—66743.张英福,郝志娟.计算机检索策略初探.图书馆学研究,2000,6:63—6544.陈建秋,邓飞其,刘发贵.智能化搜索引擎分析与探讨.广州大学学报(自然科学版),2002,第1卷第3期:39—4245.何军,周明天.信息网络中的信息过滤技术.系统工程与电子技术,2001,第23卷第11期:76—7946.李蕾,王楠,张剑,钟义信,郭祥吴,贾自燕.中文搜索引擎概念检索初探.4R 硕士堂垃?e(¨、‘r£ItS.¨jSj、汁算机_1:程与应用,2000,6:卜447.董春晓.万维网上的全文检索技术及其发展.情报理论与实践,2000,第23卷第l期:53一j548.金燕,李建华,杨宇航,www上的全文信息检索技术.计算机应用研究,1999,第l期:40—4349.朱靖波,姚天顺中文信息自动抽取.东北大学学报(自然科学版),1998,第】9卷第l其月:52~5450.郭祥吴,钟义信,杨丽.基于两字词簇的汉语快速自动分词算法.情报学报,j998,第l7卷第5期:352—3575i尹锋.汉语自动分词研究的现状与新思维.现代图书情报技术,I998,第,1期:222b。2.杨雅群,张建中,刘兵超文本超媒体技术及其发展.电子展望与决策,t997.第1期::38—1153.刘伟权,钟义信.自然语言处理与全文情报检索,情报理论!,实践。l997,第20卷第1期:4346j0.余盛可.超丈本。p的迷路问题.讨算机研究与发胺,1994,第:31卷第5期:2428j§.肖夏,孙茂松,邹嘉彦.利用卜F文信息解决汉id-自动分词中的组合型歧义汁算机:I。程‘o应用,2001.19:87—9056.杨雅群,张建中,刘兵.超文本超媒体技术及其发展电予展-钽与决策.1907年第_期:嘏一4lj7.潘有能一个自动分词分类系统的实现.情报学报,2002年2月第21卷第i期:384lj8.r承,邵志清基于字表的中文搜索引擎分词系统的设计与实现汁算l=f1.i程,2001年2月第27卷第1期:191~19359.严海兵.Internet搜索引擎检索功能的研究.苏州城市建设环境保护学院学报,2001年3月第3卷第1期:58-6260.王丽君,高迎,乇锡钢,中文检索系统中查询的扩展.小型微型计算机系统,2002年7月第23卷第7期:894—89649 ⑨硕士学位论文MASFERlST】lESIS读研期间发表的论文1.遗传算法在网络流量及带宽分配中的应用,中南民族学院学报(自然科学版),2001,92.利用全文检索技术实现Web也的搜索,数理医药学杂志,2003年第16卷第5期 硕士学位论文&IAS惩R’S】1JIESIS致谢光阴荏苒,我结束了在华中师范大学两年的学习生活。在这难忘的两年时问里,我得到了众多老师和朋友们的无私帮助,是他们的鼓励和支持使我有了战胜困难、完成学业的勇气。首先,我要对我的导师何婷婷副教授表示衷心的感谢和敬意。在学习中,她以严谨的治学态度、丰富的学术知识对进行了我不厌其烦的启发和指导。她渊博的学识给我树立了学习的榜样,而她那一丝不苟、孜孜以求之的工作作风更让我在获得知识的同时也明白了做人的道理。感谢肖德宝教授、谭根稳书记、胡金柱教授、冯刚教授、陈利副教授、魏长华教授、魏开平副教授和李晓燕教授等所有老师对我的精心栽培和谆谆教诲。最后,我要特别感谢我的班主任吴爱莲老师,她热情的支持和关怀给了我进取的力量,我唯有以自己今后的努力和对社会的奉献来回报所有关,心和支持我的人。作者于波2003年12月 中文全文检索技术研究 作者: 于波 学位授予单位: 华中师范大学 相似文献(10条) 1.学位论文 徐艳军 OpenBASE中文全文检索设计与实现 2007 全文检索 (Full-Text Retrieval) 是基于内容而不仅是外在特征的检索方式,是信息检索的发展。在全文检索的研究上,取得了不小的进展,有很 多成型的理论和工具。关系型数据库对于类似文本这类非结构化的数据处理起来没有优势,因此有必要把全文检索技术与数据库结合起来,增强数据库 对文本的处理能力。 国家信息产业部的电子信息产业基金招标项目是本文的一个重要课题背景。数据库的全文检索要解决体系结构、分词、索引 、存储以及展现等问题,并且对性能要求比较严格。 本文先介绍和分析了全文检索的关键技术,结合 OpenBASE 设计了一个全文检索架构,增加 了文本转换、分类器和向量构造器。基于词典的分词方法具有快速、易于实现的特点,本文采用的正是基于词典的并且根据编码特性设计的一种新的分 词算法,同时结合了基于规则的消歧、未登录词识别算法,提高分词的准确率。在 OpenBASE 数据库中增加了对全文检索操作的语句,并实现了全文索 引的重建和增量更新两种索引更新方式。 测试表明,设计的全文检索系统能够完成中西文的全文检索。应用本系统提高了文本检索的效率,改善 了 OpenBASE 的全文检索性能。 2.期刊论文 田范江.李丛蓉.王鼎兴.TIAN Fan-jiang.LI Cong-rong.WANG Ding-xing 采用合作缓存技术的并行全 文检索 -小型微型计算机系统2000,21(1) 全文检索是一种资源消耗型操作,并行全文检索可以缩短全文检索的响应时间,以前的并行检索研究主要集中在磁盘资源和CPU资源的优化利用方面 ,本文提出了一种采用合作缓存技术的并行全文检索模型,以优化对内存资源的利用,并对该模型进行了分析和评价,说明该模型可以有效地提高检索性能. 3.学位论文 李丛蓉 分布式中文全文检索技术的研究与实现 2000 全文检索是现代信息检索技术的一个非常重要的分支,该文对分布式中文全文检索的有关技术进行了较为深入的研究.该文的重点放在了分布式的全 文检索技术上.研究人员对应用层文件缓存技术在分布式全文检索中的应用前景进行了探讨,并研究了如何对检索结果进行缓存以及共享的问题. 4.学位论文 刘雪芹 单汉字全文检索技术研究 2005 随着计算机技术的快速发展,信息的种类和数量以惊人的速度增长,其中又以文字信息量最大。如何对这些大量的文本信息进行存储和快速检索 ,一直是信息技术中研究的热点问题,全文检索系统正是满足人们的这些要求应运而生的。全文检索的一个重要应用就是办公自动化领域,在我国随着 办公自动化进程的加速,对全文检索特别是中文全文检索的需求激增。全文检索技术已是办公自动化系统的一个重要组成部分。 本文研究内容 :1.在对现有全文检索理论和检索系统的分析基础上,对基于单汉字的全文检索技术及其标引方法进行了优化研究,提出了一种基于Unicode字符串的倒 排文件存储结构及其检索方法。 2.将单汉字全文检索技术与web技术相融合,较为全面深入地探讨了建立一个应用于局域网的单汉字全文检索系统 所涉及的主要技术,基本上完整地展现了构建web信息检索系统的方法。 5.学位论文 顾轶 全文检索引擎Lucene分析&Windows Mobile桌面搜索设计与实现 2007 信息是对客观事物的反映,是对社会、自然界的事物特征、现象、本质及规律的描述。信息的生产、传播、搜集与查询是人类最基本的活动之一。 在计算机发展的早期,由于计算机硬件存储介质十分的昂贵,个人或企业所拥有的信息量并不多,个人或企业对信息量的手动组织和管理,能够满足人 们对信息检索的需求。然而随着计算机硬件和通信技术的迅速发展,个人PC或企业工作站所占用的硬件介质也越来越多,同时Internet的出现和互联网 爆炸性的发展,用户所能访问'的信息量呈指数级增长,传统式的手工管理信息,手动的检索信息远远满足不了用户的需求。 传统的利用图书馆相 应的编目体系其粒度是“书”或者是“文章”。随着计算机与信息技术的发展,信息检索(Information Retrieval)系统,可以使用户在“关键词”的粒 度上得到相关的信息。最典型的应用就是搜索引擎。桌面搜索(Desktop Search)是近来搜索引擎领域比较热门的课题,它可以提供用户在极短的时间内 ,从PC硬盘海量信息中找到想要的信息。同样,随着手机日益向高端化,智能化方向发展,人们越来越依赖手机来进行信息交换,短消息(SMS),日程表 ,任务,联系人等等文本信息在手机硬件存储上堆积越来越多,手机用户也越来越迫切需要Mobile Desktop Search功能。 本文介绍了信息检索 (Information Retrieval)各种模型,分析每个模型如何表示查询和文档以及相关性;详细阐述了信息检索过程中词法分析机制,重点探讨中文分词技术 ;详细分析信息检索过程中信息组织和索引机制,重点介绍了实现倒排索引的数据结构;详细分析开源的全文搜索工具包—Lucene,阐述Lucene总体架 构和系统结构,重点对Lucene数据流进行分析,探讨Lucene的索引机制,分析Lucene倒排表索引原理和倒排索引文件格式;最后详细设计移动桌面搜索 ,该应用基于Windows Mobile 5.0 pocketpc phone edition,以Lucene作为信息组织和索引后台,调用Pocket Outlook Object Model,MAPI,CEMAPI来获取Mail,SMS,Calendar,Tasks,Contacts,并添加到Lucene索引中,来提供给用户查询。 6.期刊论文 常璐 SQL Server 2000全文检索服务的实现与使用 -江苏图书馆学报2002(6) 论文首先介绍了全文检索的主要方法及其发展现状.接着给出一个使用SQL Server 2000实现全文检索服务的实例,并用ASP调用ADO控件,在Web平台上 实现了全文的布尔检索和加权检索.最后对SQL Server2000的全文检索服务进行了简单分析. 7.学位论文 李梅 基于全文数据库的全文检索算法研究与实现 2002 该文讨论了设计全文数据库的一些关键技术,提出了一种基于单字表的全文数据库的构架方法,同时将单汉字无标引全文检索与全文后控检索方式相 结合,有助于提高检索速度和检索的查全率.在检索算法方面,依据构造的全文数据库,该文提出了具体的检索算法公式.该文对检索结果集的排序问题进行 了讨论,并采用用户反馈信息量,使最后检出的结果在应用中不断得到优化.在全文数据库和全文检索算法已经在具体环境下编程实现. 8.学位论文 王海勋 信息检索算法及其在数据库领域中的应用 1996 该文探讨信息检索(Information Retrieval) 的意义及其实现算法.首先回顾了当前信息检索领域的发展概况,并在实践的基础上,给出了一个基于位 图(Bitmap)模式的全文检索方案,作了该方案用于汉字文献索引、检索的性能分析,提出了进一步的改进策略.文章对算法的具体实现作了详尽的分析,并 且探讨了文献信息检索算法嵌入数据库系统的可能性及实现方案. 9.期刊论文 唐培丽.胡明.解飞.刘钢.TANG Pei-li.HU Ming.XIE Fei.LIU Gang 全文检索搜索引擎中文信息处理技 术研究 -情报科学2006,24(6) 本文深入分析了全文检索中文搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词.针对向量空间信息检索模型,本文设计了 一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在 Web文档中的重要程度.最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求. 10.期刊论文 靖培栋.宋雯斐 全文检索单元词索引技术研究 -情报理论与实践2006,29(1) 单汉字索引是中文全文检索索引技术中一个主要方法,此方法在索引的空间和检索的效率方面都存在不足.本文引入单元词索引,并分析试验数据,表 明引入单元词索引后,索引的空间效率和检索的时间效率均有提高. 本文链接:http://d.g.wanfangdata.com.cn/Thesis_W025039.aspx 下载时间:2010年1月18日

下载文档,方便阅读与编辑

文档的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享文档获得金币 ] 0 人已下载

下载文档

相关文档