不同论文查重系统结果差异为啥这么大,是因为每个系统背后都是一个庞大的数据库,这就像不同的图书馆,藏书量和种类都不一样。有的系统可能跟国内高校的毕业论文库合作特别深,收录了海量的硕博论文,而有的系统可能更侧重于期刊杂志或者网络公开资源。你的论文里要是引用了某篇冷门的硕士论文,在A系统里可能被精准匹配到,重复率一下子就上去了,但在B系统里因为压根就没收录这篇文章,自然就查不出来,这结果能一样吗?
再往深了说,就算数据库一模一样,那算法本身也千差万别。这就好比两个老师批改作文,一个老师特别抠字眼,你连续七八个字跟别人一样,他就给你标红;另一个老师可能更看重整体意思,觉得你这句是引用,或者属于常识性描述,就放你一马。有的系统对引用格式特别敏感,你参考文献列表里少了个句号,或者作者名没对上,它就可能算你抄袭;有的系统则比较智能,能识别出这是规范的引用,不计入重复率。还有那些专业术语、固定搭配,比如“中国特色社会主义”、“机器学习算法”这种词,你总不能改吧?有的系统会设置一个阈值,连续多少个字以内是常识不算重复,有的系统则不管三七二十一,只要重复就标,这查出来的重复率能没差别吗?
还有一个很关键的点,就是对比的颗粒度。有的系统是按句子来比的,有的则是按段落,甚至有的会深入到语义层面。你可能把别人的句子彻底颠倒了顺序,换了几个词,在只看字面匹配的系统里可能就蒙混过关了,但在能理解语义的系统面前,依然会被判定为高度相似。这就好比你把一首歌的旋律重新编曲,但调子没变,懂音乐的人一听就知道是哪首歌。所以你会发现,有时候在某个系统里重复率很低,换个系统就高得吓人,很可能就是因为一个系统只看“形似”,另一个系统还看“神似”。