人人范文网 范文大全

中文信息处理论文

发布时间:2020-03-02 09:24:29 来源:范文大全 收藏本文 下载本文 手机版

搜索引擎

摘要: Internet 上日新月异的大量信息资源充斥,人们对信息的需求越来越多,各式各样的搜索引擎应世而生,然而随着大数据的到来,这对搜索引擎提出更高要求。但是面对这么大量的数据,一般的搜索引擎有些吃不消,不能满足人们的需求,然而基于自然语言处理技术的智能搜索引擎出现了,本文将介绍搜索引擎用到自然语言处理技术去。

关键字:搜索引擎,自然语言处理,概念控制

Search engine (*********************) Abstract: Changing a lot of information on the Internet is full of resources, people demand more and more information, a variety of search engines should the world was born, but with the arrival of big data, which is the search engine, higher demands.But the face of such a large amount of data, general search engines too much for some, can not meet people\'s needs, however, based on natural language proceing technology, smart search engines appeared, this article describes the search engine to use natural language proceing technology. Keyword: search engine,Natural Language Proceing, Control Concepts

1 搜索引擎

1.1 搜索引的擎定义

搜索引擎,是指在Internet中主动搜索信息并能自动查询、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人Web Robots)或网站登录等方式,将Internet上大量网站的页面收集到本地,经过加工处理而建成数据库,当用户输入关键字(Keyword)查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。

1.2 搜索引擎的分类

在搜索引擎的发展过程中,出现了各式各样类型的搜索引擎。根据索引方法来划分,可以分为基于概念(Concept Based)的搜索引擎:和基于关键字匹配(Keyword Based)的搜索引擎等。根据搜索引擎索引、检索信息的方式来分,可以分为:基于目录的搜索引擎、基于机器人的搜索引擎、分布式搜索引擎、基于客户的搜索引擎、元搜索引擎和代理搜索引擎;根据搜索引擎索引信息的范围来划分,可以分为:综合式搜索引擎、专题式搜索引擎和特殊型搜索引擎;

1.3搜索引擎的评价标准

从功能上讲,搜索引擎实质上是一种网络信息检索工具,不同的搜索引擎所提供的服务在性能上差异很大,为了帮助用户有效的选择,也为了对搜索引擎的改进提供参考,非常有必要对各种搜索引擎进行比较和评价,传统的检索工具发展已经有百年历史,其评价标准已相当成熟,搜索引擎虽然与传统的检索工具有着很大的区别,其相应的评价标准也不尽相同,但仍可以借鉴传统检索工具的评价标准对网络检索工具进行评价。这些评价标准包括:

(1)搜索引擎收录信息的范围 (2)反馈的信息量及内容的准确性 (3)反馈的查询结果错误率 (4)报道与内容更新速度 (5)搜索引擎的检索性能 (6)搜索引擎的响应时间 (7)检索界面友好性 (8)精品推荐

(9)与其它搜索引擎的友情链接 (10)搜索引擎的系统性能。

搜索引擎的功能在于将分散的网址集中起来,分类提供给用户,以便快速查找到所需的信息.常规搜索引擎一般都带有数据库资源,因此对搜索引擎的比较主要集中在数据库资源和搜索引擎的性能两个方面。数据库资源方面的比较研究主要包括:数据库规模、索引方式、以及资源内容(如声音、图像、Usenet、FTP、Newsgroup、Gopher、Email等资源)。

检索性能的比较,主要有布尔检索、复杂布尔检索、相邻和相邻and/or检索(NEAR、ADJ、FAR、BEFORE、FOLLOWEDBY、、、截词检索、检索范围限定、出版日期限定、多语种检索、多种版本选择、大小写有别、概念检索、词语加权、词语限定、自然语言检索、特定字段检索、缺省值、检索结果显示方式、显示数量选择、相关排序、站点评价、相似性检索、结果过滤、用户界面、查准率、响应时间等方面的比较研究。

2 自然语言技术

2.1自然语言处理引入

现代科技的发展使人类进入了信息时代。对于人类而言,最自然、最重要、效率最高的信息载体之一 就是自然语言。人类能够利用自然语言进行信息的传递和交流,这是人类与动物的本质区别之一。语言是思维的载体,是人际交流的重要的工具。在人类历史上以语言文字形式记载和流传的知识。!知识总量的80%以上。在信息化社会里,语言信息处理的技术水平和每年所处理的信息总量已成为衡最一个国家现代化水平的重要的标志之一。

语言是人类最重要的交际工具。语言交际的模式主要是表达和理解,一方表达,另一方理

解。语言交际就是在一定的场合、依据一定的规则、表达和理解一定的意思,句法、谙义和语用在实际中是二位一体的。

从第一台电子计算机诞生到现在半个多世纪过去了,人类已经由发明工具延伸自己的四肢进化到延 伸人脑。计算机一开始只是科学家、l:程师的计算工具,现在已经逐步进入人众的日常生活。因特网将世界各地的电脑连成一片,人们可以在网上查询或发布信息,可以在网上聊大、漫游、购物甚至在网上生存。“电脑+网络”止在从延伸人的大脑发展为延伸人的生存空间,网络社会使人类的交际行为和方式发生重人变化,语言开始从单纯人类最重要的交际L具发展到可以进行人和机器之间的交流。

从表达方和理解方来石,现在交际行为至少有以卜四种模式: A人表达人理解 B机器表达人理解 C人表达机器理解 D机器表达机器理解

以电脑为发送信息的“一方”或接受信息的“另一方.,研究电脑如何表达人的语言(模式B)是“自然语言生成.,研究电脑如何理解人的语言(模式C)是“自然语言理解,.机器翻译(MT)需要电脑理解一种自然语言,然后转化生成为另一种语言,所以是既包含自然语言理解研究,也包含自然语言生成研究(属于模式D),还包含语言之间的转换研究.因此,研究“自然语言处理”,不可以不研究语言交际,不可以不研究人脑的语言机制和模拟人脑的语言机制。

2.2 自然语言研究的进程

人工智能是以建立智能化的,自主的计算机为目标一门学科,它研究的课题包括:专家系统、问题求解、逻辑和不确定问题、自然语言处理、机器人学、学习机、视觉和模式识别等等。

其中自然语言处理是人工智能的核心课题,包括自然语言的分析理解和综合生成。起初,自然语言处理强调立新主义,用人工智能的方法(如状态空间搜索、知识表示和机器学习等)来处理自然语言。

在这个阶段,人们集中力量建立各种规则系统,试图通过规则的演算来解决语言的分析和生成问题.但是不久人们发现,自然语言远不是一个精确定义的符号体系,梢心构造的规则只能在严格受限的领域内起作用,无法处理大规模真实文本中的种种复杂的语言现象.到了80年代后期,计算语言学开始注重对大规模真实文本的处理,出现了语料库语言学,其特点是以经验主义为旗帜,以对大规模真实文本的统计为主要方法。

语料库语言学认为,人类的一切语言知识都组含在大规模的语料之中,可以通过统计来发现这些知识。以前人们凭主观内省而得到的语言知识是不完整的,甚至可能是错误的。语料库语言学在真实文本的词性标注上大了一个打胜仗。以前人们制定了各种语言学规则来标注词性,正确率并不高,而运用统计方法和训练语料(已标注过的语料)来标注词性,准确率高达95%左右。然而,语料统计的方法也不是万能的,随着语言信息处理层次的提高,简单的统计模型越来越暴露出其缺点:难于处理长距离依赖的语言现象,难以获得高度概括的知识以顺利地处理训练语料之外的语料。目前,在对大规模真实文本进行自动句法分析这一关键问题上,还没有取得突破性进展。

2.3自然语言理解研究理论、方法及应用范围

计算机是1946年出现的,50年代初,人们就开始了用计算机处理自然语言研究,这首先是从机器翻译开始的,1954年,美国GeorgetOWn大学在IBM公司协助下研制的第一个俄英机器翻译系统。该系统规模较小,只有6条语法规则,250左右各单词,但是它的研制成功极大地推动了机器翻译的开发.世界许多国家,包括我国,都开始了机器翻译的研究。这个时期,理论上出现了许多有价值的思想,还设计了专门的机译程序设计语言.但是由于自然语言是极其复杂的,其处理涉及了许多知识和手段,而且它的研究水平离不开当代的语言学、计算机科学研究、特别是人工智能的研究实际水平。因此,没有研制成功真正使用的机器翻译系统。

在经过了一段乐观时期后,人们开始对机器翻译、人工智能的研究产生了怀疑。19“年,美国科学院发表了著名的ALPAC报告,这个报告对机器翻译墓本采取了否定的态度。从此,机器翻译的发展进入了低潮期.许多学者的研究重心转向了自然语言理解的基本理论和方法,同时人工智能也在发展之中。人工智能的前辈们提出了多种知识的表示、启发式搜索理论和各种推理方法,并且把对自然语言的理解作为人工智能的一个应用课题来研究.在后来的三十多年里,自然语言理论一直在发展着,涌现出了一大批新的理论和方法.这些新的理论和方法可以归纳为以下3个体系:

(1) 基于语法的分析法

1957年Chomsky提出了转换生成语法理论.1972年,W以川s以这个理论为基础,涉及了扩充转移网络(ATN),并完成了LUNAR系统.1997年MARCUS提出了语法分析的确定性算法.进入80年代,又有许多以复杂特性集为特征的语法出现,例如词汇功能语法(LFG)、广 义短语结构语法(GpSG)、功能合一语法(FUG)等等。

(2) 基于语法加语义的分析法

以FILLMORE在1968年提出的格语法为代表。格语法一般分为语法格和语义格两个系统。最早的语法格只有6个,目前英语中使用的有20多左右,日语中用到了70多个,汉语可分出20多个。格语法是以动词驱动的,只要找到动词,就可以不关主、谓、宾的次序如何,都可以用语义框架将其愈思表达出来。由于语义框架的结构形式和所使用的格分类体系有限,限制了语义框架的表达能力.在很多语言形式里,格分析不能给出唯一或正确的答案。

(3)基于语义的分析法

包括QulLUAN的语义网络理论和SCHANK的概念从属(CO)理论.在这些理论中,词所代表的概念由若干属性描述,属性之间存在各种语义关系.语句就是由这些属性和语义关系交织成的一个语义网。语言的理解过程就是把语句映射成语义网.语义网的缺点是没有考虑语法形式对意义的反作用。虽然可以用来表达句子的含义,但无法使用形式化的方法由句子生成语义网络。

进入90年代以来,自然语言理解学术界出现了“唯理主义,和“经脸主义.两种倾向.所谓唯理主义指以生成语言学理论为基础的方法,包括各种以规则推理为主要手段的分析方法:所谓经验主义则是指以大规模语料库的分析为墓础的方法.从此,基于语料库的自然语言理解研究(或称语料库语言学)成为自然语言理解的又一个重点。

这些理论的不断发展,再加上计算机硬件水平的飞速发展极大地提高了计算机的速度和存储量,为自然语言理解的实用化提供了可能。

3.搜索引擎与自然语言处理技术

3.1 概念控制及其实现基础

3.1.1 概念控制的目的

自然语言检索指用户在检索时可输入自然语言表达的检索要求,检索工具在接收到用户提问后,首先利用一个禁用词表从提问中剔除那些没有实质主题意义的词汇,例如各种副词、介词、代词、常用请求词、检索提问词,然后将余下的词汇作为关键词进行检索。这种方法是目前通常使用的方法,随着信息处理技术的发展,关键词的提取将会根据句子的整体意思以及词汇的重要性来选择。

概念并不是孤立存在的,一个概念总是与其它概念之间存在着各种各样的关系,如上下位关系、同义关系、反义关系等。关键词也会出现一词多义、一义多词以及同一事物多种表述的情形。根据概念之间的相互联系,在词的概念含义层次上建立联系,为检索用户提供相关的结果分析是概念控制的一个应用前景。

例如,“体育”这一概念根据上下立类的关系可以细分为足球、排球、奥运会、亚运会等,单纯的字面匹配会漏检甚至误检很多与之相关的信息。通过概念控制就可以将一个上位类的概念扩展为多个子概念。体育新闻的检索就可以扩展为:体育新闻、球类(足球、篮球、排球)、田径运动、体育赛事(奥运会、亚运会、世界杯)等概念,同时对那些具有下位概念的词汇可以再次扩展,这样就大大地提高了检索效果。

“计算器”和“电脑”是同一事物的不同表述,机械匹配的话就只能检索到有关“计算器”或“计算机”的信息,采用概念控制的相关方法可以将这些相同概念的词汇统一到检索匹配中,这样就扩大了检索面,提高了检全率。在自然语言检索系统中进行慨念控制,就是把信息检索从目前的基于关键词层面提高到基于知识(概念)层面,能够从概念意义层次上来认识和处理检索用户的请求,从而提高检全率和检准率。

3.1.2 概念控制的主要方法

目前虽然没有一个检索系统可以完全实现理想状态下的高层次的语义检索,但有些自然语言检索系统已经采用概念控制查询。主要的方法是利用知识体系建立概念间的关系进行查询扩展,深度匹配,优化检索效果。

概念控制的内容包括:提问句概念语义块的抽取,从提问句中切分出概念词或词组等语义单位;基于知识体系对抽取出的语义单元进行概念扩展;概念的组配,将选择出的各检索单位基于知识体系的组织信息转换成体现概念关系的逻辑表达式。

概念抽取不等同于分词处理,其中包括普通概念的识别和人名、地名、事件名等专有名词的识别,并进行概念提取。对于普通的概念字符串采用逆向最长匹配算法(或正向最长匹配算法),并综合切割标记等分词手段切分就可以进行概念抽取。对于词典中未收录的概念词,可以采取基于句模、句子结构分析、词和词组构成规则、句内结构性标志字、标点符号等来进行切分。除切割标志外,已知的词也可作切割标记使用。

自然语言检索系统的本质是查询满足特定主题概念的文本,因此被检索的内容不是和提问句的字面匹配。对提问进行分析后抽取出的主要是概念或概念的组合,需要进行概念匹配,这就需要对检索句中的词进行概念扩展,即考虑提问句中词的同近义词、上下位词和关联词。可以通过知识体系保存同近义关系、上下位关系和其它关联关系,当处理用户检索需求时,通过查询知识体系可对提问句中的词按概念进行扩展。

如“我国今天的体育新闻”,可以通过知识体系对“体育”进行扩展,查询包括“篮球”、“赛车”、“奥运会”、“世界杯”等方面的内容,“今天”一词指检索者进行检索时的日期,因此需通过规则将“今天”映像为检索时的时间,将“我国”扩展为“我国”V“中国”V“中华人民共和国”(知识体系中可能只存在“中国”和“中华人民共和国”之间的同义关系,没有“我国”这一词条)。

概念组配,按其内在逻辑关系,可分为限定组配和相交组配。限定组配将一个概念的内涵增加到另一个概念的内涵中,从而加深概念的内涵,缩小或限定了概念的外延。相交组配将具有共同的属概念、概念之间具有相交关系、外延部分重合的概念组合成一个新概念。在构成查询表达式时,基于知识体系的扩展词和原词间为“逻辑加”的关系。如“美丽”扩展为“美丽”V“漂亮”V……V“标志”。提问句中语义块间的关系通常为逻辑乘的关系。语义块间的概念组配通常存在如下逻辑关系:(1)主谓结构,描述的是一种陈述与被陈述的关系。(2)偏正结构,描述的是一种修饰与被修饰的关系。(3)动宾结构,描述的是一种作用和被作用的关系。(4)并列结构,描述的是一种成分间的并列关系[1]。主谓结构、偏正结构和动宾结构间为“逻辑乘”关系,并列结构为“逻辑加”关系。但通过对检索提问句进行分析后发现,部分并列结构在用户的检索概念中为“逻辑乘”关系,于是采用通过句模分析和指示标志来确定语义块间的“逻辑乘”或“逻辑加”关系。提问句语义块之间的“逻辑加”关系通常存在显式指示标志,如“或”等。分析传统的主、谓、宾、定、状、补六大成分与句型的关系,可以辅助获取语义块的逻辑关系。检索提问句的语义概念和提问句的结构紧密相关。需要分析谓语的性质、句子的结构,如“把”字、“被”字句等。

概念控制的3项关键技术中,概念扩展和概念组配都离不开知识体系的支持,知识体系的好坏直接关系到检索效果的优劣。

3.2 概念控制系统

国内外已有一些检索系统在不同程度上实现了概念控制,代表系统有首信搜索引擎、孙悟空、UMLS等。下面以UMLS为例进行介绍。

UMLS(Unified Medical Language System,美国统一医学语言系统),是美国国立医学图书馆(NLM)于1986年开始研制的一项长期开发研究计划,旨在克服计算器生物医学信息检索中的两个显着障碍(相同的概念具有不同的表达方式;有用的信息分散在不同的数据库系统中),使用户很容易地跨越了在病案系统、文献摘要数据库、全文数据库以及专家系统之间的屏障。

UMILS包括4个部分:专家词典、超级叙词表、语义网络、情报源图谱。专家词典是一个包含众多生物医学词汇的英语词典,可以确定英语词汇的范围以及识别生物医学术语和文本词的词形变异,也为超级叙词表提供了确定范围的医学术语和词汇。超级叙词表是生物医学概念、术语、词汇及其涵义等级范畴的广泛集成。语义网络是为建立概念、术语间错综复杂的关系而没计的,它为超级叙词表中所有慨念提供了语义类型、语义关系和语义结构。

情报源图谱是一个关于生物医学机读情报资源的数据库,其目的是利用超级叙词表和语义网络实现以下功能:确定情报源与特定提问的相关性,以便选取最合适的情报源;为用户提供特定情报源的范围、功能和检索条件等人工可读的信息;自动链接相关情报源;在一个或多个情报源中自动检索并自动组织检索的结果。

4.综述

在自然语言处理的世界里,本文所讲的只是其中的一个很小的一部分,为了应对大数据的到来,基于自然语言处理的搜索引擎必不可少。现在自然语言处理技术逐渐成熟,但是还有许多问题还没有解决,要想实现真正如自然语言去处理问题任重而道远。

软件工程(中文信息处理)硕士专业学位研究生培养方案

关于举办“中文信息处理国际研讨会”的请示

中文论文网站

中文论文(傲慢与偏见)

论文摘要2 中文

中文学科论文写作

中文论文资助目录

中文学科论文写作

印刷中文论文翻译

中文论文写作要点

中文信息处理论文
《中文信息处理论文.doc》
将本文的Word文档下载到电脑,方便编辑。
推荐度:
点击下载文档
点击下载本文文档