基于网络舆情监测系统的分析

发布时间：2020-03-03 00:41:58 来源：范文大全收藏本文下载本文手机版

基于网络舆情监测系统的分析

[摘要] 随着互联网的快速发展，网络媒体作为一种新的信息传播形式，已深入人们的日常生活。网民数量的持续快速的增加，以及网民通过网络形成的舆情越来越得到社会的广泛的关注。网络舆情监测系统就是针对网络舆情热点问题的预警。

[关键词] 网络舆情监测分析

随着互联网的快速发展，网络媒体作为一种新的信息传播形式，已深入人们的日常生活。中国网民数量也在持续快速的增加，2010年7月15日，中国互联网络信息中心（CNNIC）发布《第26次中国互联网络发展状况统计报告》，报告显示，中国网民规模达到4.2亿，手机网民民规模更达2.77亿。网民通过网络形成的舆情越来越得到社会的广泛的关注。从2003年的非典、孙志刚事件，到2010年教育局封杀论坛事件、马鞍山局长打人事件等等。这些事件性质、主体各不相同，但是有一个共同的特点，即他们都是通过网络而放大了事件的影响力。

1.网络舆情监测系统的概念

网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。

最近几年各种社会机构组织、企业、各级政府都纷纷重视网络舆情，2008年7月，江西60多位县级官员实名开博，多数是收集当地网民关注的民生问题。2010年9月8日，人民网?中国共产党新闻网正式推出“直通中南海――中央领导人和中央机构留言板”。该留言板突出互动性，旨在让广大网友对中央领导人倾诉心声，给中央机构提出意见和建议。

由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点，越来越多的网民乐意通过BBS论坛、博客、新闻跟贴和转贴等渠道来表达观点传播思想。如果引导不善，负面网络舆情将对社会公共安全形成威胁。对相关部门来说，加强对网络舆论的及时监测、有效引导，以及对网络舆论危机的积极化解，对维护社会稳定、促进国家发展具有重要的现实意义，也是创建和谐社会的应有内涵。对企业来说，准确掌握产品和市场情况，监控竞争对手和行业动态，是企业市场、行销决策的重要支撑。

从现在的网络舆情传播速度来看，信息出现后的1至3小时就可以被转至多家论坛，6小时后就可以被多家新闻网站转载，24小时在网上的评论和跟帖就能制造出热点事件和舆论高潮。因此能够第一时间知道现在哪些是热点舆情，哪些将会成为热点舆情，对于我们来说至关重要。

“网络舆情监测系统”是针对在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机监测的系统统称。通过这个系统，能够让我们有效的对网络舆情进行预警和应对。

2.网络舆情监测系统结构

网络舆情监测系统分为五大系统，分别是：网络舆情采集系统、网络舆情存储系统、网络舆情分析系统、网络舆情检索系统和网络舆情发布系统。如图1：

网络舆情采集系统会对互联网中的主要门户网站新闻、各大论坛的热门贴、关注度比较高的博客和微博以及各大主要的网络搜索引擎的热搜内容进行采集。采集后的数据存储进入统一的网络舆情存储系统。网络舆情分析系统对存储在舆情存储系统中的信息进行分析，把舆情内容归纳、整理、分类后得出最近阶段舆情的变化及趋势，并把分析好的数据存入存储系统。用户可以用网络舆情检索系统检索自己想要的最近、最新的焦点信息。最后通过舆情分析系统分析的信息、通过舆情检索系统检索的信息以及网络舆情存储系统中的信息都可以通过舆情报告系统发送和展示给用户。

3.网络舆情监测系统分析

3.1网络舆情采集系统

网络舆情采集系统是整个系统的基础。全世界互联网的信息是非常巨大的，即使仅仅对国内信息的检索也是海量的，而且由于网页设计的灵活性造成的网页结构复杂，网页的快速更新造成的网页内容动态性，以及一些网站对站内信息限制的技术手段造成网页内容不完整性，使得传统手工采集信息的方法非常低效率和高错误率。特别是最近几年，随着QQ群、博客、twitter等微博被网友广泛使用，这些主要为松散的，非结构化信息要实现采集的难度也越来越大，靠手工采集已经不太现实。

为解决这个问题，现在的采集系统往往采用具有一定智能的自动采集技术，国内外早期的网络采集方法是针对特定采集对象编写的程序，这个程序称为wrapper。近几年，越来越多的采集工具被开发出来用来代替传统的手工编写wrapper程序的方法。目前较为流行的采集工具可以分为六大类：

3.1.1开发wrapper的专用高级语言

传统的wrapper由于是手工编写针对某一个目标，如果要为大量目标手工编写非常不效率，通过专用高级语言可以方便编写wrapper。例如：Minerva，TSIMMIS，Web-OQL，FLORID，Jedi等。

3.1.2以HTML为中间件的工具(HTML-aware Tools)

这些工具在抽取时主要依赖HTML文档的内在结构特征。在抽取过程之前，这些工具先把文档转换成标签树；再根据标签树自动或半自动地抽取数据。代表工具有Knowlesys，MDR。

3.1.3基于NLP(Natural language proceing)的工具(NLP-based Tools)

这些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技术建立短语和句子元素之间的关系，推导出抽取规则。这些工具比较适合于抽取那些包含符合文法的页面。代表工具有 RAPIER，SRV，WHISK。

3.1.4包装器的归纳工具(Wrapper Induction Tools)

包装器的归纳工具从一组训练样例中归纳出基于分隔符的抽取规则。这些工具和基于NLP的工具之间最大的差别在于：这些工具不依赖于语言约束，而是依赖于数据的格式化特征。这个特点决定了这些工具比基于NLP的工具更适合于抽取HTML文档。代表工具有：WIEN，SoftMealy，STALKER。

3.1.5基于模型的工具(Modeling-based Tools)

这些工具让用户通过图形界面，建立文档中其感兴趣的对象的结构模型，“教”工具学会如何识别文档中的对象，从而抽取出对象。代表工具有：NoDoSE，DEByE。

3.1.6基于本体的工具(Ontology-based Tools)

这些工具首先需要专家参与，人工建立某领域的知识库，然后工具基于知识库去做抽取操作。如果知识库具有足够的表达能力，那么抽取操作可以做到完全自动。而且由这些工具生成的包装器具有比较好的灵活性和适应性。代表工具有：BYU，X-tract。

3.2网络舆情分析系统

网络舆情分析系统为整个系统的核心功能，其主要包括以下功能：热点识别能力、聚类分析、倾向性分析与统计、信息自动摘要功能。

3.2.1热点识别能力

由于网络信息的更新和变化速度非常快，导致网络热点也时常转化，因此识别热点成为整个分析系统的前提条件。一般对于一段时间内的热门话题的识别主要是根据信息出处权威度、评论数量、发言时间密集程度等参数，给予一定的权重值，然后统计出该时间段内的热点。

3.2.2聚类分析

传统的手工统计分析对于海量的数据基本是无能为力，即使是勉强统计也会因为数据量而对数据的主题把握会产生偏差，从而造成统计数据失真，进而造成分析结果错误。

对文章标题和关键词进行聚类分析是现在常用的网络舆情分析方法，现在被广泛的采用，常用的聚类分析方法一般分为五类：

3.2.2.1划分方法

首先创建k个划分，k为要创建的划分个数；然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：k-means，k-medoids，CLARA，CLARANS，FCM。

3.2.2.2层次方法

创建一个层次以分解给定的数据集。该方法可以分为自上而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：BIRCH方法，它首先利用树的结构对对象集进行划分；然后再利用其它聚类方法对这些聚类进行优化。CURE方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定量（向聚类中心）进行收缩。ROCK方法，它利用聚类间的连接进行聚类合并。CHEMALOEN方法，它则是在层次聚类时构造动态模型。

3.2.2.3基于密度的方法

根据密度完成对象的聚类。它根据对象周围的密度（如DBSCAN）不断增长聚类。典型的基于密度方法包括：DBSCAN:该算法通过不断生长足够高密度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS:并不明确产生一个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。

3.2.2.4基于网格的方法

首先将对象空间划分为有限个单元以构成网格结构；然后利用网格结构完成聚类。STING就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。CLIQUE和Wave-Cluster 则是一个将基于网格与基于密度相结合的方法。

3.2.2.5基于模型的方法

它假设每个聚类的模型并发现适合相应模型的数据。典型的基于模型方法包括：统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量（属性-值）对来加以描述的。采用分类树的形式来创建一个层次聚类。CLASSIT是COBWEB的另一个版本。它可以对连续取值属性进行增量式聚类。

3.2.3倾向性分析与统计

对信息的阐述的观点、主旨进行倾向性分析。可以为网络舆情的分析提供参考依据。

但是由于网络词汇的多样性，网络上出现许多新词，要判断这些词的倾向性就比较困难，一般倾向性分析可分为三种：

3.2.3.1情感倾向词典

中文词语情感倾向词典是给定一组已知极性的词语集合作为种子，对于一个情感倾向未知的新词，在电子词典中找到与该词语义相近、并且在种子集合中出现的若干个词，根据这几个种子词的极性对未知词的情感倾向进行推断。

3.2.3.2机器人学习

与词典法比较类似，也是给予一些已知极性的词语作为种子词，对于一个新词根据它和种子词的紧密程度对其情感倾向性进行推断，不同的是他是根据词语在种子库中的同现情况判断其联系紧密程度来作为判断依据。

3.2.3.3人工标注种子库

首先对情感倾向性分析种子库进行手工标注，标注的级别包括文档集的标注、短语级标注和分句级标注。在这些基础上，利用词语的共现关系、搭配关系或者语义关系，以判断词语的情感倾向性。

3.2.4信息自动摘要功能

能够根据文档内容自动抽取文档摘要信息，这些摘要能够准确代表文章内容主题和中心思想。用户无需查看全部文章内容，通过该智能摘要即可快速了解文章大意与核心内容，提高用户信息利用效率。而且该智能摘要可以根据用户需求调整不同长度，满足不同的需求。主要包括文本信息摘要与网页信息摘要两个方面。

3.3网络舆情检索系统

网络舆情检索分析系统产生的结果会实时存放进入存储系统之中，而检索系统可以分时间、地点、类型、网站等等进行分类检索，然后提供给用户。

分析系统提供的热点分析往往只是对已经产生的热点，或者是将要成为热点的次热点。而检索系统还可以让用户自定义关键词对采集到的信息进行自定义监控。

3.4网络舆情报告系统

根据网络舆情分析系统处理后的结果或网络舆情检索系统查询的结果生成报告，系统可通过短信、电话、网页浏览等各种手段及时告知，提供决策支持。

总之，网络舆情监测系统出现时间还比较短，基于其的算法和方法还都很不完善，而且随着计算机技术的不断发展，网络应用技术也在不断的变化，像近几年微博等非结构性的应用形式的出现，给检测系统的监测带来不小的挑战。方便、快捷、智能、通用将是今后舆情监测系统发展的方向。

参考文献

[1]曹劲松.政府网络传播[M].江苏：江苏人民出版社，2010-11-02

[2]叶皓.正确应对网络事件[M].江苏：江苏人民出版社，2009

[3]郭建永，蔡永，甄艳霞.基于文本聚类技术的主题发现[J].计算机工程与设计，2008(6).■

将本文的Word文档下载到电脑，方便编辑。

推荐度：

点击下载文档

相关专题网络舆情监测与分析舆情

相关范文推荐