现代信息检索论文

发布时间：2020-03-02 15:11:37 来源：范文大全收藏本文下载本文手机版

期末课程论文

论文标题：课程名称：信息检索技术课程编号：学生姓名：尹江津学生学号：所在学院：计算机科学与工程学院学习专业：计算机科学与技术课程教师：

文本分类及相关技术研究

1220500 1100310230

王

冲

2013年7月2 日

文本分类及相关技术研究

信息检索(Information Retrieval，IR)是研究信息的表示、存储、组织和获取的一门学科，其目标是为用户快速、准确地提供其所需的信息。信息检索起源于20世纪50年代，在60年代取得了关键性进展，其中最著名的是GerardSalton开发的SMART系统以及Cym Cleverdon提出的Cranfield评价方法，SMART系统和Cranfield评价方法有力地推动了信息检索的发展。在70年代和80年代，多种关于文档检索的模型被提出，文本检索会议(TREC)于1992年开始举办，该会议推动了大规模文档集合环境下的信息检索技术的发展。随着互联网上信息的迅速增加，为了进一步提高用户信息检索的质量和效率，网络上出现了更高效地信息索工具——搜索引擎(Google，Yahoo，Bing，百度等)，搜索引擎为用户在互联网这个分布式环境下检索需要的信息提供了极大的方便。

文本分类是一个监督学习过程，它根据一个类信息已知的训练文档集合，训练出文本特征和文本类别间的关系模型，然后通过这个学习得到的模型对待分类文本进行分类。文本分类技术是处理和组织文本数据的重要手段，同时也是信息检索的重要基础，把大量的文本信息按主题层次进行组织可以极大地简化信息检索的过程，按照类别对文档进行检索或对检索结果进行分类，都可以提高检索的查准率。由于文本分类技术可以对大量的文本进行分类，文本分类在信息检索、自然语言处理、垃圾信息过滤、Web挖掘等领域得到了广泛应用。

一、文本分类概述 1.文本分类的一般过程

数据分类是数据分析的一种重要形式，数据分类通常用两个步骤：学习和分类。在学习步，分类算法利用训练数据来构建分类器，训练数据有多个元组以及与元素关联的类标签构成。元组X被表示为n维的属性向量，每一个元组属于一个或多个事先定义好的类别，类别由类标号属性(cla label attribute)决定，类标号属性由离散、无序值构成。由于每一个训练元组的类标号已知，因此，学习步是一个监督学习过程。学习步可以看作是学习映身函数

,函数，对于给定的元组Z该函数可以预测与X关联的类别标号。文本是数据的一种具体形式，也是语言的实际运用形态，文本在人们生常生活中无处不在，任何有具体一定含义的文字都可以统称为文本。文本分类系统的任务是：在给定的分类体系下，根据文本的内容自动地对待分类文本进行分类，确定待分类文本的类别。其数学公式表示如下：

其中，A为类信息未知文本的集合，B为分类体系中类别信息的集合文本分类一般包括以下5个过程：文本预处理、文本表示、特征降维、分类器的选取与训练以及分类结果的评价。

文本分类系统的主要功能模块为：

(1)文本预处理：为了使文档的格式满足分类器的输入要求，首先需要对原始语料进行处理，将其格

式进行规范化，；

(2)文本表示：将文本分解为基本处理单元，用数学模型来表示； (3)特征降维：降低特征空间的维数，提高分类器的效率和准确率； (4)分类器：选择合适的分类器并用训练数据集进行训练； (5)性能评价：选择对分类器的性能进行评估的性能评价标准。

2.文本预处理·

自动文本分类的第一步是文本预处理。通常情况下，各种不同类型的文档的来自不同的领域，从而文档的存储形式各异，并且计算机处理的文本不仅包含文字内容，还包含有功能性标签等不规范符号，文本分类模型不能直接对原始文档进行处理。必须对原始文本进行预处理，去除其中的噪声，规范化其形式，从而使文本满足分类模型的输入要求。文本预处理是影响文本分类准确度的关键因素，文本预处理的主要任务是从原始文本提取主要内容并对其格式进行规范化，一般包括以下几个步骤：去除文档中的格式标记、过滤非法字符、字母大小写转换、去除停用词和稀有词、词干化处理。

3.文本表示

文本本身不能被直接用来分类，为了使文本能够输入到计算机中进行处理，首先应将原始文本转换为数学模型，然后用计算机对数学模型进行处理。在实际应用中，将原始文本转为文本向量和词频矩阵后，这些数学模型非常庞大，计算机处理时需要花费大量的时间，为了提高处理效率，一般都假设词语与词语之间相互独立，词语在文本中的位置被忽略，文档被表示为不同特征项的集合。这种方法被称为“朴素(Naive)”的方法或“词袋\"模型。文本表示模型主要有布尔模型、向量空间模型以及统计语言模型，虽然这三种模型采用不同的方法来表示文档，这三种模型都采用了“词袋\"模型的思想。

4.信息增益

信息增益是指某特征项在文本中出现前后的信息熵之差，在机器学习领域中，经常用信息增益来衡量某个特征项的重要性。对于词语t和文档类别C，通过统计C中出现和不出现t的文档数来衡量t对C的信息增益。特征项t的信息增益用如下公式计算：

其中，Pr(Ci)表示在文本集合中属于白类的文本出现的概率，Pr(t)表示文本集合中包含特征项t的文本在文本集合中的出现概率，Pr(Ci|t)表示在文本中包含词语f的条件下文本属于类Ci的条件概率，Pr(t)表示文本集合不包含特征项t的文本在文本集合中的出现概率，Pr(Ci|t)表示在文本中不包含词语t的条件下文本属于类Ci的条件概率，m是类别总数。根据公式计算出各个特征项的信息增益后，除去增益值小于指定闽值的特征项，剩余的即为选中的特征；或按特征项的信息增益从大到小排序，删除信息增益很小的单词。

二、文本分类方法 1.Naive Bayes方法

Naive Bayes分类方法(以下简称NB法)是一种简单而又非常有效的分类方法。NB法的一个前提假设是：在给定的文档类语境下，文档属性是相互独立的。假设面为一任意文档，它属于文档类C={cl，C2，．，Ck)中的某一类cj。根据NB分类法有：

对文档反进行分类，就是按计算所有文档类在给定di情况下的概率，概率值最大的那个类就是di所在的类，即：

可知，对于给定分类背景和测试文档，用NB法分类的关键就是计算P(Cj)和P(di|cj)。计算P(cj)和尸(硝lcj)的过程就是建立分类模型(或者说学习)的过程。根据．P(dj|ci)计算方式的不同，可以将Naive Bayes方法分为最大似然模型(Maximum Likelihood Model)、多项式模型(Multinomial Model)、泊松模型(PoisonModel)等[ELM03]。

2.使用最大熵模型进行中文文本分类

最大熵模型是一种在广泛应用于自然语言处理中的概率估计方法，它可以综合观察到的各种相关或幂相美的概率知识，对许多问题的处理结果都到这或超过了其他方法的最好结果。但是，将最大熵模型应用在文本分类中的研究却非常少，本章使用最大熵模型进行了中文文本分类的研究。通过实验，比较和分析了不目的中文文本特证生成方法，以及使用平滑技术的情况下，基于最大熵模型的分类器的分类性能；将其和Bayes、KNN、SVM三葶争典墨的文本分类器进行了比较；使用Bagging来提高最大熵模型的分类稳定性。

1）.最大熵模型

最大熵模型是用来进行概率估计的。假设a是某个事件，b是事件a发生的环境(或称上下文)，我们想知道a和b的联合概率，记为p(a，b)。更一般地，设所有可能发生的事件组成集合为A，所有环境组成的集合为B，我们想知道，对于任意给定的aA，bB，概率p(a，b)是多少?

我们抱这个问题放到自然语言处理的领域来讨论，对于文本分类问题，一个文档分到某个类别可以看成一个事件，文档中出现的词可以看成这个事件的发生环境，我们想知道包含词b的文档属于某一类a的概率。很容易想到的方法是通过训练语料进行统计。给定一个训练集，定义A={a1，a2，A，am)是文档所属类别集，B={bl，b2，A，bm}是文档的特征词集，num(ai，bj)为疆练集中二元组(ai，bj)出现的次数，那么我们可以使用如下公式进行概率估计：

这个方法有个很大的问题，即“稀疏事件”(sparse evidence)问题，即便是很大的训练文本，很多

二元缝组(ai，bj)仍然没有出现，武断的认为它的概率为0显然是不可取的。最大熵模型是这样来解决稀疏事件问题的，它使未知事件的概率分布总是尽可能均匀，即倾向予得到最大熵。例如一个军事、政治和科技的三类文本分类题，我们得知出现“飞秘”这个词的、80％的文档属于军事类别，对于“飞机”这个词在蒺饱两类中的分布未知。根据最大熵原则，如果给定一个包含“飞机”这个词文档，那么认为文档以0．8的概率属于军事类别，分别以0．1的概率属于其它两类；如果文档中不包含“飞机”这个词，那么认为文档分别以相同的、1／3的概率属于每一个类。即，在符合已知约束条件下，使未知事件尽可能均匀。具体来说，根据Shannon的定义，熵的计算公式如下：

那么，求解满足最大熵原则的概率分布公式如下：

三、总结与展望

文本分类技术是组织和处理文本数据的重要手段，其主要任务是如何在给定的分类体系下，根据文本的内容自动地确定与文本关联的类别。文本分类可以有效解决大量文本信息归类的问题，并且是信息检索、Web挖掘、内容信息过滤等研究的重要基础。主题模型是概率模型，由于主题模型可以捕获潜在的语义结构信息，主题模型在文本分类、信息抽取、观点挖掘等文本挖掘任务中的应用得到了较深入的研究。

本文对文本分类进行了研究，介绍了文本分类的一般过程与关键技术，主要包括：文本预处理、文本表示、性能评价指标，同时还对主题模型PLSA、LDA、sLDA和iTopicModel的构建方法和参数估计方法进行了介绍。针对已有的监督主题模型与基于机器学习的文本分类算法假设文档之间相互独立、不能有效利用文档间的关联关系的问题，提出了监督关联主题模型SRTM和关联文本分类算法TC．iTM。为了利用利用文档间的关联关系来提高监督主题模型的预测准确度，我们基于iTopicModel提出了监督关联主题模型SRTM，将文档间的关联关系、文档的文本信息、文档的标号进行统一建模，首先用古典线性回归模型对文档标号进行建模，给出SRTM的联合概率分布，通过EM算法最大化联合概率分布的对数似然对SRTM的参数进行估计，然后用Fold．In[54]方法对训练数据以外文档的标号进行预测。最后我们用广义线性模型对文档标号进行建模，对SRTM进行扩展，使SRTM可以处理多种类型的文档标号。Cora研究论文分类数据集和电影评论数据集上的实验表明，在文档网络中，SRTM的预测结果要优于现有的监督主题模型。

参考文献： [学位论文] 姜英杰， 2010郑州大学：计算机系统结构

[学位论文] 刘欣，

2010重庆大学：计算机科技与技术

[学位论文] 陈树清， 2010南京理工大学：计算机应用技术

信息检索论文

《现代信息检索论文.doc》

将本文的Word文档下载到电脑，方便编辑。

推荐度：

点击下载文档