Nutch二次开发总结

发布时间：2020-03-02 14:16:24 来源：范文大全收藏本文下载本文手机版

1.1 信息源选择及规范制定

Nutch通过制定相应的URL规则来达到对限定的URL进行爬取，即过滤信息。默认情况下可以在相关的配置文件中进行配置，它用正则表达式来规范URL。当然，还可以自己编写相应的插件等来实现所制定的URL规范。

1.2 信息预处理

这里的信息预处理是指将Nutch爬虫所下载下来的内容转变为Nutch索引器所能调用的文本。信息预处理过程主要涉及到如下内容：

（1）格式识别并抽取文本。一般情况下，Nutch爬虫下载下来的文档是HTML，但是网络上还存在诸多类型的其他文本：txt、doc、pdf、xls、rtf等等，甚至还有多媒体的文档格式。在进行索引之前，必然从这些下载下来的文件中抽取出文本信息，针对不同的格式文档抽取方式也不同。Nutch默认对HTML、TXT能直接处理，而其他的有些已经实现但并没有加载。目前有很多开源软件可以抽取文本信息，如word文档的poi、pdf文档的pdf-reader等等。在二次开发时，需要对相应的文档格式进行编写抽取文本工具。

（2）信息过滤。这里的信息过滤是指从抽取的文本中滤去那些不希望使其存在的文本内容，这个过程也不一定是独立的，可能会与上一个过程存在相交之处。举个实例，比如针对某一个网站的某一部分网页中的部分区域不希望被索引，那么可以编写一个相关的插件来实现对这个网站的这类网页进行过滤，去除这一区域内的内容。

（3）编码格式的转换。网络上的信息编码格式五花八门，并不是特别规范。一般情况下，Nutch处理后都能实现编码的统一，但是有些信息却不能很好地被默认程序转换，这时候就应当对Nutch进行扩展，以实现编码的转换。

1.3 索引本土化构建

以过信息预处理后的信息可以直接为Nutch索引。在索引过程中，需要考虑的因素也有很多。一是中文类语言的分词问题。这一点在前面实验中已有详细的分析并做了一些总结。二是信息的进一步处理，这一过程是在寻找最能表达原文语义的语词集合。另外还有一些其他相关技术如词干提取、停止词、本体等等。这个过程是相当重要的一个过程，直接决定了查询服务的效果。

1.4 排序规则制定

排序规则的制定并不仅仅影响到查询结果，可以说它贯穿在了整个搜索引擎的工作过程中。因为能影响排序规则的因素有很多，比如说与用户需求的相关性、系统业务需求等，具体的有如语词在文献中的词频、在整个文献空间的词频、语词位置等，甚至是信息时间都会影响到排序。因此在二次开发时，需要根据需求，针对性地制定排序规则，并把它反映在系统中。

1.5 查询系统及用户界面

Nutch的查询系统是发布在Tomcat下的，它提供了一种类似于google的查询界面，并且支持多语言。在实际的二次开发中，并不一定支持多种语言，可针对某一种语言进行改写。另外还可以对查询过程进行二次改发，改变它的查询方式、添加分页、增加summery等。对于用户接口界面，则根据实际情况改写即可。