不少第一次写毕业论文的学生,都纠结过论文查重的时候,该传纯文本还是带格式的 Word 文档,也好奇两者结果到底差多少。他身边有同学去年查重,一开始传了带目录带参考文献的 Word,结果重复率比学校要求高了一个百分点,删掉格式只传正文纯文本再查,重复率直接降了快两个点,刚好过线,当时吓得他一身冷汗。
正常来说,两者结果不会差得特别极端,但细微差异肯定存在,很多人都碰到过。带格式的文档会包含目录、参考文献、致谢这些内容,如果这些部分里有重复,系统会一起算进去。比如很多同学的致谢都是网上找的模板,稍微改两句,这部分就会被标重复,最后整体重复率就上去了。纯文本一般只放正文内容,把这些重复概率高的部分去掉,结果自然会低一点。
还有格式的影响,要是 Word 文档里格式乱了,有很多插入的文本框或者注释,系统识别的时候可能会把这些内容也掺进正文里,导致统计的重复率不准。纯文本不存在格式问题,系统识别起来没障碍,只会算你正文里的内容,结果反而更稳定。
不同查重系统的规则也不一样,有些系统会自动识别参考文献,把这部分排除出去,带格式的文档反而能让系统准确找到参考文献,结果和纯文本差不了多少。但要是系统没法自动识别,参考文献又刚好重复,那带格式查出来的结果就会比纯文本高不少。
多数学校要求查重的时候,就是提交正文内容,所以提前自己查重,用纯文本其实更接近学校要求的结果。要是你把全文档都传上去,多出来的重复部分反而会让你白担心。很多人踩过这个坑,最后都觉得,自己提前查重的时候,就用和学校要求一致的内容就好,要查正文就传纯文本,结果更靠谱,也不用瞎折腾。

