人人范文网 范文大全

信息检索

发布时间:2020-03-02 18:04:17 来源:范文大全 收藏本文 下载本文 手机版

信息检索

1.信息检索的概念。狭义信息检索是指用户找出有关信息的过程。广义信息检索是将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。 2.信息检索的类型

(1)按照检索对象的不同划分

早期分为:文献检索、事实检索、数据检索。

当前三分方法:文本检索、音频与视频检索、数值检索。 (2)按检索手段划分:手工检索、机器检索

3.简述信息检索的基本原理

信息检索的基本原理:对信息集合与需求集合的匹配与选择。

实现信息检索,主要涉及三个关键要素:信息集合、用户信息需求、匹配选择。

一、信息集合:信息集合是指有关某一领域的,经采集、加工的信息集合体。

二、需求集合:用户的信息需求是在社会实践活动中产生的。当人们在完成某一任务或工作时,经常觉得缺少某些知识,这就产生了信息需求。

三、选择与匹配:要在信息集合中快速获取用户所需信息,需要信息检索提供一种匹配机制,能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。

匹配机制至少包括两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。 4.计算机信息检索经历了

脱机检索阶段、联机检索阶段、光盘检索阶段、网络检索阶段。 5.信息检索领域的主要研究问题有哪些?

⑴信息检索理论:检索语言、检索模型、标引理论、相关性理论、知识组织与表示理论 ⑵信息检索工具/系统:信息检索系统的结构、功能、设计开发、管理运营、应用评价等 ⑶信息资源及其收集、加工:信息存储、数据库

⑷检索技术与方法:文本检索技术、数值检索技术、音频与视频检索技术、网络搜索技术 ⑸用户研究与检索策略:用户的查询心理、检索需求及其类型、用户查询信息的行为特征等、用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等

⑹其他密切相关的自动化处理技术:自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互等。 信息检索的两种研究方式:

以计算机为中心和以用户为中心,以计算机为中心的IR问题是主流。 6.检索语言的含义及作用

检索语言:是根据检索需要而创造的一种人工语言,它是存储、查找文献的共同依据,也叫标引语言。 作用:(1)保证不同标引人员表征文献信息的一致性。 (2)使内容相同及相关的文献集中化。

(3)保证检索提问与文献信息标引的一致性。

(4)保证检索者按不同需求检索文献信息时,都能获得最高的查全率和查准率。 7.检索语言的类型

(1)是否规范化:受控语言、自然语言 (2)包括的专业范围:综合性和专业性 (3)描述文献的特征:外表特征、内部特征 (4)组配方式:先组式、后组式 (5)文献内部特征语言:分类检索语言、主题检索语言 分类语言 分类法是按信息资料内容的学科知识属性分门别类来系

统标示和组织信息资料,并用分类号表达文献主题概念的方法。

分类标引(归类)—— 依据一定的分类语言对信息资源的内容特征进行分析、判断,赋予分类标识的过程。 主题语言

(1) 标题语言

标题语言是一种以标题词作为主题标识,以词表预先确定的组配方式标引和检索的主题法。 标题语言是主题语言系统中最早出现的一种,标题语言属于先组定组式检索语言类型。 (2) 元词语言

元词语言是以元词作为主题标识,通过字面组配的方式表达信息资源主题的主题语言。 元词:是指用来标引信息资源主题的、最基本的、字面上不能再分的语词。 (3) 叙词语言

叙词语言是以从自然语言中精选出来的、经过严格处理的语词作为文献主题标识,通过概念组配方式表达信息资源主题的主题语言。

叙词:经过规范化处理的,以基本概念为基础的表达文献主题的词和词组。 (4)关键词法

关键词法是直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过对关键词轮排等方式揭示文献主题的主题语言。

关键词:关键词指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表征文献主题内容具有实质意义的语词。 语词组配:(1)字面组配;(2) 概念组配 8.信息检索的途径有哪几种?是举例说明。

根据文献的外部特征和内部特征,将信息的检索途径分为两大类型。 (1)以文献的外部特征为检索途径

①题名途径(利用刊名、书名、篇名对文献进行检索的途径):一般用于查找图书、期刊、单篇文献。

②著者途径(著作者、编者、译者、专利权人、出版机构等):根据已知文献著者姓名查找文献的途径。

③号码途径(通过已知号码查找文献的途径,如标准号、专利号、报告号、索取号等) (2)以文献的内部特征为检索途径

①分类途径(文献内容所属的学科体系) ②主题途径(文献的主题内容)

9、信息检索的方法有哪几种?试举例说明。

⑴常用法: ①顺查法:以检索课题的起始年代为起点,按时间顺序由远及近地查找。如已知某研究成果最初产生的年代,现在需要了解它的全面发展情况,即可从最初年代开始,按时间的先后顺序,一年一年地往近期查找。 用这种方法所查得的文献较为系统全面,基本可反映某学科专业或某课题发展的全貌,能达到一定查全率。在较长的检索过程中,可不断完善检索策略,得到较高的查准率。 此法的缺点是费时费力,工作量较大。一般在申请专利的查新调查和新开课题时采用这种方法。

②倒查法:即由近及远,由新到旧的查找法。此法多用于查找新课题或有新内容的老课题,在基本上获得所需信息时即可终止检索。此法有时可保证情报的新颖性,但易于漏检而影响查全率。

③抽查法:是针对研究课题发展特点,抓住学科发展迅速发表文献较多的一段时间,逐年进行查找文献的一种方法。这种方法针对性强,节省时间。但必须是在熟悉学科发展阶段的基础上才能使用,有一定的局限性。 ⑵追溯法:又叫回溯法,是利用已有的文献后面的参考文献由近及远进行追溯查找的方法。 此法的缺点是费时费力,工作量较大。一般在申请专利的查新调查和新开课题时采用这种方法。

⑶综合法:又称循环法、分段法或者交替法。是常用法和追溯法的综合运用。 即首先利用检索工具查出一批文献资料,再利用这些文献资料所附的参考文献追溯查找相关文献。如此交替、循环使用常用法和追溯法,不断扩检,直到满足检索要求为止。

综合法的优点在于:当检索工具缺期、缺卷时,也能连续获得所需年限以内的文献资料。 10.简述信息检索步骤 ⑴分析研究信息检索课题

①了解用户信息需求的目的和意图 ②分析检索课题的主题要求 ③时间要求 ④检索效果要求 ⑤检索费用及其他要求

⑵选择信息检索工具 ⑶确定信息检索方法 ⑷掌握获取原文的线索 ⑸获取原文

⑹用户相关反馈

第二章 信息检索的数学模型

1.什么是信息检索的数学模型?目前它主要由哪些不同的类型?

(1)什么是模型?模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述。 面对相同的输入,模型的输出应能够无限地逼近现实世界的输出。

(2)信息检索的实质问题:对于所有文档,根据其与用户查询的相关程度由大到小进行排序

(3)信息检索模型:是用来描述文档与用户查询的形式表示以及对它们进行相关性计算的框架和方法

2.如何对信息检索系统进行必要的抽象,以给出其一种适宜的形式化表示? 实现信息检索,主要涉及三个关键要素的处理:信息资源集合、用户信息需求、匹配选择。 信息资源集合表示,原始信息一般不能直接进行信息检索,需要从原始信息文档(可能包含文本、图像、视频、音频等数据)中抽取其逻辑视图;

用户信息需求表示,用户信息需求是进行查询的依据,系统将据此搜索文档集合; 匹配选择,信息检索的匹配过程是一种相似性匹配,查询的结果需按照某种相似性排序算法有序输出。

一般地,一个信息检索系统可以形式化地抽象表示为如下四元组(quadruple)形式,即 System = (D, Q , F , R(dj , q))

其中, D, Q , F 和R(dj , q)分别表示检索系 统的信息资源集合、用户信息需求集合、信息资源与信息需求的匹配处理框架以及(相似性)匹配函数。

3.用户信息需求有哪些不同的状态?相互之间关系如何?

从理论上讲,用户的信息需求有潜在真实需求(Real Information Need,简称RIN)、意识到或感知到的需求(Perception Information Need,简称PIN)、表达出的需求(Request)、提问(Query)等不同的存在状态。

4.指出信息检索领域的三种经典数学模型。 布尔检索模型、向量空间模型、概率模型 5.布尔模型的基本原理是什么?布尔模型有哪些优缺点? 布尔模型在解释信息检索处理过程时,主要遵循以下两条基本规则:

系统索引词集合(K)中的每一个索引词在一篇文档中只有两种状态:出现或者不出现。相应地,每个索引词的权值wij ∈{0,1};

用户提问式q由3种布尔运算符 “and”、“or”、“not” 连接索引词来构成。 ⑴优点:①简单(simplicity);②容易理解(easy understanding)

③简洁的形式化(clean formalism) ⑵缺点:①精确匹配(exact matching)策略问题。非此即彼的二值判断标准严重影响检索系统的性能改善。 ②布尔逻辑表达用户需求的能力问题。对于没有检索经验的用户把信息需求转换成恰当的布尔表达式不容易实现。

③检索输出完全依赖于布尔提问与文献的匹配情况,很难控制输出量的大小。 ④结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要。

6.向量空间模型的基本原理是什么?向量空间模型有哪些优缺点?

文档向量的构造、提问向量的构造、索引词权值( wij )的计算、相似度计算 ⑴优越性(相对于布尔模型)

①向量空间模型在检索处理中所具有的先进技术特征主要表现在:

②采用局部匹配策略,使得在算法层面上基于多值相关性的判断处理得以实现; ③采用基于统计学方法的词加权处理模型,使检索效果大大得到了改善; ④采用对检索结果排序输出的策略,使对检索结果数量的控制与调整具有相当的弹性与自由度。

⑵缺陷与不足

①相似度计算量巨大;

②标引词的不同位置会代表不同的权重,而不同的关键词长度也会影响权重的大小;

③标引词之间的独立性假设与实际不符:实际上,标引词的出现之间是有关系的,不是完全独立的。 如:“王励勤”“乒乓球”的出现不是独立的。

第三章 信息检索评价

一、信息检索评价的意义

1.信息检索系统的评价工作一直是信息检索领域的一项重要研究内容,多年来人们进行了大量的评价试验和多角度的探索与分析。

2.究其原因,主要在于检索评价工作在为研究者验证检索系统效益、比较各种检索技术的优劣、改进现有检索系统、开发新的应用领域等许多方面,都发挥着不可替代的作用。 3.信息检索评价的主要价值在于: (1)提高系统资源分配的合理性;

(2)找出系统存在的缺陷及其原因,以便加以改进; (3)比较各种检索技术的优劣; (4)有助于新系统的设计; (5)丰富信息检索理论。

二、信息检索评价的类型

1.功能测试与分析 —— 侧重系统软件的功能测试 2.检索性能评价 —— 测定检索系统满足用户需求的程度

3.检索效益评价 —— 测定检索系统提供的服务或系统本身获得的效益(包括经济效益和社会效益)。

三、信息检索评价的发展历史

1.1950s初期——1960s中期:这一时期的基于计算机的信息检索主要是脱机批处理发展时期

2.1960s中期——1970s中期:信息检索进入联机实时检索时期

3.1970s中期——1990s初期:信息检索迈入了网络化与多元化检索时期。 3.1990s初期——至今(TREC时代)

1.什么是“相关性”?信息检索中的相关性判断标准主要有哪些? 信息检索的“相关性”主要是指检索系统针对用户的信息需求从文档集合中检出的文档与用户需求之间的一种匹配关系。

目前主要存在着三种不同的相关性判断标准:

(1)二值相关性判断标准(Binary Measure) 是一种最简单的评价判断模式,目前的检索性能评价研究基本上都是建立在二值相关性判断标准的基础之上,即: 1 相关文献——接受 0 不相关文献——放弃

(2)多值相关性判断标准(n-ary Measure) 若以n = 5 为例,则有: 4 definitely relevant(绝对相关) 3 probably relevant(可能相关) 2 barely relevant,neutral,or not judged (中立或没有判断)

1 probably not relevant(可能不相关) 0 definitely not relevant(绝对不相关) (3)多维相关性判断标准 意大利学者米扎罗(S.Mizzaro)在1998年提出一个4-维相关性模型,模型中的4个维度分别是:信息资源、用户需求、时间、组件。 第1维:信息资源

InfRes ={Surroagate,Document,Information}  Surroagate(替身)表示文档的某种逻辑表 示或片段;

 Document(文档)指系统用户在信息查询过程中获 得的物理实体;

 Information(信息)指阅读文档的过程中,用户接 受或者创造出

来的东西(非物理实体) 第2维:用户需求

Repr ={RIN,PIN,Request,Query}

 RIN表示用户真正的信息需求;  PIN表示用户感知的信息需求;  Request指用自然语言表达出来的信息需求;  Query代表所提交的检索表达式 第3维:时间

指从用户的RIN产生到它被满足期间的一些时间点的集 合,具体可以表示为

Time ={t(rin0), t(pin0), t(r0), t(q0), t(r1), t(q1), „,t(pink), „, t(rm), „, t(qn)} 第4维:组件(Components)

Comp =P(Topic,Task,Context) - Ф ={{Topic}, {Task}, {Context}, {Topic,Task}, {Topic,Context}, {Task,Context}, {Topic,Task,Context}}

2.什么是信息检索的查全率和查准率 ?它们的计算公式分别是什么?

关于查全率和查准率的计算问题,我们可以通过检索系统性能评价中使用的2x2表来说明。 2x2表不仅可以用来说明查全率和查准率的计算,还可以方便地说明其他指标的计算及含义。

检索系统性能评价用的2x2表

相关文献 非相关文献 总 计 被检出文献 未检出文献 总 计 a b a+b c d c+d a+c b+d a+b+c+d 查全率:衡量系统检出相关文献的能力

Recall=检出的相关文献量/检索系统中的相关文献总量=a/(a+b) 查准率:衡量系统检索准确度的一个测度指标 Precision=检出的相关文献量/检出的文献总量=a/(a+c) 非相关检出率:非相关文献的检出率

Fallout=检出的非相关文献量/系统中的非相关文献总量=c/(c+d)

囊括值:相关文献在文献集合中的分布密度值Generality=检索系统中的相关文献总量/检索系统中的文献总量=(a+b)/ (a+b+c+d )

上述4个评价指标之间存在关系:RG(1-P)=FP(1-G) 漏检率(Omiion Ratio) Omiion=未检出的相关文献量/系统中的相关文献总量=b/(a+b)

误检率(Error Ratio) Error =检索的非相关文献量/检出的文献总量= c/(a+c) 显然, Recall+Omiion=1 Precision+Error=1 设定:系统中的相关信息总量为b,检索出的信息总量(包括非相关信息)为c,检中的相关信息量为a R=a/b*100% =检中的相关信息量/系统中的相关信息总量*100% O=(1-a/b)*100% P=a/c*100%=检中的相关信息量/检索出的信息总量*100% E=(1-a/c)*100% R+O=1 P+E=1 Question? 假定检出的文献数量为100,检出的相关文档的数量为60,系统中相关文档的数量为200。请计算R( Recall Ratio), P( Precision Ratio), O (Omiion Ratio) and E( Error Ratio)。 Answer查全率(R)与漏检率(O)R = a/b*100% = 检中的相关信息量/系统中的相关信息总量*100% = 60/200*100%=30%  O =(1-(a/b))*100%=70% 查准率(P)和误检率(E) P = a/c*100%  = 检中的相关信息量/检索出的信息总量*100% = 60/100=60% E =(1-(a/c))*100%=40%

信息检索

信息检索

信息检索

信息检索

信息检索

信息检索

信息检索

信息检索

信息检索

信息检索

信息检索
《信息检索.doc》
将本文的Word文档下载到电脑,方便编辑。
推荐度:
点击下载文档
相关专题 追踪检索 信息检索
点击下载本文文档