论文检测系统的评测指标

发布时间：2020-03-01 20:09:26 来源：范文大全收藏本文下载本文手机版

论文检测系统的评测指标

如何评价一个抄袭检测系统的好与坏?目前．国内外对复制检测系统的评价还没有形成统一的标准，不同的研究基本使用不同的评测指标。本文在研究了各种评价方法后，认为以下方法是比较有效的。

1、正确率和召回率。

对于某篇待识别的论文，在比较系统的答案和理想的答案时，我们要做两项测试：

(1)返回的结果部是被抄袭的论文吗?

(2)所有被抄袭的论文都被找到了吗?正确率指标和召回率指标恰好回答了这两个问题：

准确率(Precision)，也称查准率、精度，表示返划的结果中被抄袭论文占返回结果总数的比率，也称为查准率，召回率(Recall)，也称查全率、全度，表示结果中被抄袭论文的个数占实际被抄袭论文总数的比率，也称为查全

率．两个指标分别度量检测效果的某个方面，忽略任何一个方面都有失偏颇。两个极端情况：返回1篇，P=100％，但月极低：全部返回，R=1，但P极低。

理想情况下，我们希望系统能同时获得最好的准确率和召回率。系统获得100％的正确率和召回率是指，提交一篇待检测的论文而系统返回的结果中部是被抄袭的论文且是论文库中所有的被抄袭论文。这就意味着系统的答案包

含全部理想答案且仅包含理想答案。在实际中，这种情况很难达到。更多的时候，只能获得大约30％的正确率和召回率。

这两种测量不是独立的，它们之间有较强的关系：一个增加，另一个下降。对某个系统质量的测量紧紧关注其中的一项是不可取的。事实上，获得100％的召回率是容易的：对每个问题，只要把整个论文库作为答案即可。但是

，在这种情况下．正确率是很低的，一些没有抄袭的论文会被误判定为抄袭。同理，通过返回少量的文档作为答案可以增加正确率，但会降低召回率，会使一些存在轻度抄袭的论文逃过检测。因此，在实际评价一个系统时，

要兼顾二者。P-R的测量不是静态的(比如，一个系统不能仅有正确率和召回率中的一个测量)。系统的性能可以在好的正确率或好的召回率(损害另一种测量)之间改变。

那么，如何利用P-R曲线评测各个系统的优劣呢?下面给出一张几个系统P．R曲线比较图，一般地讲，如果一个系统的曲线超过(在右端的上边)另一个，则认为这个系统是比较好的。

但有时，各系统P-R曲线是交叉的(上图中在P值到达0．8左右时各系统的P-R曲线出现了交Y-)，因此很难判断哪个更好些。

2、MAP。

P．R指标遇到了曲线会出现交叉，难以区分各系统好坏的难题。而MAP指标恰好解决了这个难题，通过计算MAP的大小就可以比较各系统的优劣，MAP值越大代表系统的性能越好；相反，MAP值越小，系统的表现就越差。在介绍

MAP指标之前，首先介绍计算MAP需要用到的2个基础指标，分别是平均精度(平均正确率)和宏平均：

AP：平均精度(Average Recall)是全度(召回率)曲线上的点对应的精度值的平均值。

(对于11点均值法，AP是在全度分别为0、0．

1、0．2…0．9，1．0上的精度的平均值)MA：宏平均(Macro Average)是对于每个查询求出某个指标(精度、全度)，然后对这些指标进行算数平均。

MAP：MAP(Mean AP)就是对测试集中所有查询的AP求宏平均。

本文转载至写邦论文检测系统