很多人在提交论文之前都会纠结一个问题,就是论文查重的时候,PDF和Word到底选哪个?检测出来的结果一样不一样?
大部分查重系统,不管哪个论文查重系统它们在处理PDF文件的时候,都会先做一步格式转换,把PDF里的内容提取成纯文本再去比对。这个转换过程中,排版信息、特殊符号、脚注尾注这些东西,很可能就被吃掉了或者识别错了。Word文档就不一样,它本身就是结构化的文本,系统读起来更准确,公式、表格、引用这些内容也能更好地被识别。
所以同一篇论文,用PDF和Word去跑论文查重,结果往往是不一样的。一般来说,Word版检测出来的重复率会更接近真实水平,而PDF版有时候会偏高,有时候又会偏低,完全取决于转换过程中丢失了什么内容。有同学就遇到过这种情况,Word查重12%,转成PDF再查直接飙到18%,自己都懵了,不知道该信哪个。
还有一个容易被忽略的点,就是PDF里如果有图片形式的文字,比如扫描件那种,很多系统根本识别不出来,直接就跳过了,导致重复率偏低。但这种偏低是假的,等到学校用更严格的OCR识别一遍,重复率可能又上去了。
所以比较靠谱的做法是,学校要求交什么格式,就用什么格式去查。大多数学校最终都是用Word版本来检测的,那大家老老实实用Word去跑论文查重就行了,别图省事直接丢PDF上去,到时候数据对不上,吃亏的还是自己。

