论文查重的时候,提交PDF格式还是Word格式,结果会不会不一样,这个问题确实挺让人纠结的,感觉像是选错了格式,之前的努力可能就白费了。其实这个问题的答案并不是一个简单的“一样”或者“不一样”,而是要看具体情况,大多数情况下结果确实差不多,但有些特殊情况确实会导致差异出现,这里面还是有点门道的。
论文查重系统它的核心原理,是把你的论文转换成纯文本,然后拿这个纯文本去跟它数据库里海量的文献进行比对。从这个原理上讲,只要你的PDF和Word文档里的文字内容是完全一模一样的,那最终出来的查重结果理论上就应该是一样的,因为系统最终处理的都是那一串文字,跟你用什么样的“包装”把它装起来关系不大。你把论文写在Word里,和把它打印出来再扫描成PDF,只要文字没变,系统识别出来的内容就是一样的。
但是,问题就出在“理论上”这三个字上。现实操作中,PDF和Word这两种格式的特性差异,确实会给论文查重系统带来一些小小的麻烦。最常见的一个问题,就是PDF文档的识别准确率。你提交的PDF文件,有很多种来源,有的是直接从Word另存为或者导出的PDF,这种PDF通常保留了文字信息,查重系统能很轻松地把里面的文字提取出来,跟Word文档几乎没有区别。可如果你的PDF是扫描件,就是你把纸质论文用扫描仪扫出来的那种,那它本质上就是一张张图片,里面没有可编辑的文字。查重系统在处理这种PDF的时候,就得先启动一个OCR文字识别功能,把这个图片里的文字给“猜”出来。这个“猜”的过程,就难免会出错,一些复杂的排版、模糊的字迹、或者特殊的符号,都可能被识别错误,比如把字母“l”识别成数字“1”,或者把一些公式识别得乱七八糟。一旦文字识别错了,那比对的结果自然就跟Word文档不一样了,重复率可能会偏高,也可能会偏低,但总之是不准确的。
除了扫描件这个问题,文档里的一些特殊元素也会导致两种格式的结果出现差异。比如你的论文里有很多复杂的数学公式、化学方程式或者特殊符号,这些在Word里可能是一种格式,当你把它转成PDF的时候,格式可能会发生微妙的变化。查重系统在提取PDF文本的时候,可能就无法正确识别这些公式,要么直接忽略掉,要么识别成一堆乱码。而Word文档里的公式,系统通常能更好地处理。这样一来,如果你的论文里公式特别多,用两种格式提交,查重报告里被识别出来的文字总量可能都不一样,算出来的重复率百分比自然也就有差异了。还有页眉页脚、页码这些内容,有些查重系统在处理Word的时候可以设置自动排除,但在处理PDF的时候可能会因为识别不清而把这些也算进去,从而影响最终的结果。
说了这么多,到底该用哪种格式呢?最稳妥、最推荐的做法,永远是提交Word格式。因为Word是原生编辑格式,里面的文字信息最干净、最直接,查重系统处理起来最不容易出错,得到的结果也最可靠、最稳定。除非学校或者期刊有明确要求,必须提交PDF格式,否则你根本没必要多此一举去转换格式。如果你因为某些原因,手头只有PDF文件,那在提交查重之前,你最好自己先检查一下,这个PDF是不是扫描件,里面的文字能不能被正常复制粘贴。如果能复制,那问题不大,如果不能,那你就得想办法把它转换回Word,或者做好心理准备,查重结果可能会有偏差。