不少学生整理论文时会碰到PDF转Word的情况,有的是只有原稿的 PDF 版本,有的是担心格式错乱特意转存,转码后经常出现文字错位、符号乱码的问题,很多人会疑惑这种带乱码的文件拿去做论文查重,会不会干扰最终的重复率计算。
主流查重系统在正式检测前,会先提取文档里的有效文本字符,再纳入比对数据库计算重复率。乱码内容属于无法识别的无效字符,系统不会把它当成正常文字参与比对,只会直接跳过处理,所以乱码确实会对重复率计算产生干扰,具体影响程度和乱码的覆盖范围、所在位置直接相关。
如果只是个别公式、生僻字符出错,或是零星几个字显示异常,对整体结果的影响微乎其微。这类乱码占比极低,有效检测字符总量几乎没有变化,重复字符数也不会出现明显波动,最终的重复率数值只会有零点几个百分点的浮动,基本可以忽略。很多时候作者自己都注意不到这类细小的乱码,对最终结果也造不成实质影响。
要是转码失败导致大段正文变成乱码方块、无意义字符串,影响就会非常明显。大量有效文字变成无效字符,相当于参与检测的总字符数大幅缩水,查重计算的分母直接变小。如果剩下的有效内容里,重复内容占比原本就偏高,最终算出来的重复率会比正常文档高出不少。也有少数巧合情况,原本大段重复的内容刚好变成了乱码,系统识别不出重合内容,重复率会出现虚假的下降,但这种结果完全没有参考价值,属于典型的检测异常。
转码乱码还可能破坏目录、参考文献的原有格式。本来格式规范的参考文献可以被系统正确识别,不计入正文重复率,转码后格式错乱条目混杂,系统识别不出文献属性,就会把这部分内容当成正文参与比对,平白拉高总重复率。很多人转完格式没仔细检查就直接上传,测出来重复率莫名偏高,大多都是栽在了这个细节上。

