很多人看到“疑似抄袭”这四个字就心里一紧,但其实这个判定背后有一套相对客观,但又不完全等同于人工判断的逻辑。它不是一个人在电脑那头给你定性,而是一个算法根据一系列规则给出的“风险提示”。
我们可以把论文查重系统想象成一个非常较真但没什么“情商”的图书管理员。他的工作不是理解你写了什么,而是检查你书架上的书,有没有跟图书馆里其他书长得一模一样或者特别像的段落。他判定“疑似抄袭”的依据,主要来自以下几个层面。
最核心的依据,就是“文字重合度”和“连续字符长度”。 这是论文查重系统最基础的工作原理。系统会把你论文里的文字,拆分成一个个小片段,然后去跟它数据库里海量的文献进行比对。如果发现你的论文里,有一段连续的文字,比如连续13个字符或者更多,跟数据库里某篇已发表文献的文字完全一样,系统就会在这里插上一面小红旗。这个“连续13个字符”是一个常见的阈值,不同系统可能略有差异。你想想,十几个字连在一起都一模一样,这很难用“巧合”来解释,所以系统就会认为这里存在高度的复制嫌疑。重复的文字越多,连续的段落越长,这面红旗就会变得越大,颜色可能从黄色变成红色,代表风险等级在升高。
第二个重要依据,是“语义相似度”。 现在的论文查重系统越来越聪明了,它不只是认死理地比对字面,还会尝试理解句子的意思。这就是为什么很多人用翻译软件或者同义词替换软件改写后,依然会被标红。系统会通过一种叫做“向量空间模型”的技术,把你的句子和数据库里的句子都转换成数学上的“向量”。如果两个向量的方向和距离非常接近,系统就判定这两个句子的“语义”高度相似。比如,原文是“全球变暖导致海平面加速上升”,你改写成“地球平均气温增高引发了海洋水位的快速上涨”。虽然用词完全不同,但系统知道这两句话说的是一回事。当这种语义相似的句子在你的论文里大量出现时,系统同样会判定为“疑似抄袭”,因为它认为你只是在“换汤不换药”地表达别人的观点。
第三个依据,是“来源的权重和类型”。 论文查重系统也不是一视同仁的。它比对的数据库是有优先级的。如果你的文字和一篇公开发表的期刊论文、一本专著或者一篇学位论文重复了,那么判定的“疑似”程度就会非常高。因为这些是经过同行评议的、正式的学术成果。但如果你的文字是跟某个新闻网站的报道、一个产品说明书或者一个百度百科的词条重复了,系统可能也会标出来,但警示级别会稍低一些,或者会明确标注来源是“网络资源”。最严重的情况,是跟本校往届的学长学姐的论文重复,这几乎是所有高校都明令禁止的,一旦被查出来,问题会非常严重。
系统会给你一个总的重复率,比如15%。这个数字本身就是一种综合判定。一般来说,低于10%可能被认为是安全的,高于30%可能就会引起警觉。更重要的是,系统会告诉你重复内容分布在哪些章节。如果你的重复主要集中在“引言”部分的背景介绍和文献综述,那还情有可原,因为这些地方难免要引用一些公共知识和经典表述。但如果你的“实验方法”和“结果分析”部分出现了大段的重复,那性质就完全不同了,因为这部分本应是你最原创的内容。

