论文查重前要不要删东西,其实不是“必须删”,而是得看哪些内容容易被系统误判成重复,或者压根不该出现在正文里。很多人一听说要查重,就慌着把参考文献、致谢、附录全删掉,结果交上去的版本缺胳膊少腿,反而影响评审。真没必要这么粗暴。
先说最常被误伤的部分:公式编号和图注里的文字。比如你写“如式(5)所示”,后面紧跟着一个别人也用过的公式结构,查重系统可能把“如式(5)所示”这段当成普通文本去比对——尤其当多个论文都用相似句式引出同一类公式时,它就容易标红。这种地方不用删公式本身,但可以微调表述,像改成“该关系可表示为……”或者直接让公式独立成段,不加引导语。
还有就是大段复制的定义性内容。像“深度学习是一种基于神经网络的机器学习方法……”这种教科书式开头,几乎每篇相关论文都有一句类似的,查重系统一扫,立马匹配上几十篇。与其删掉,不如自己换种说法,哪怕意思差不多,只要措辞变了,重复率就下来了。删不如改,删了可能逻辑断层,改了还能体现你的理解。
参考文献列表本身一般不会计入重复率,但有些查重平台会把它一起扫——尤其是当你用EndNote或Zotero自动生成的参考文献格式里夹带了摘要片段,或者不小心把某篇文献的标题整段复制进去了,那就会被当成正文内容比对。这种情况建议导出后手动检查一遍,删掉任何非标准格式的冗余文字,只留作者、年份、题名、期刊这些必要信息。
致谢部分最容易被忽略。学生常写“感谢导师张教授在实验设计中给予的悉心指导”,结果发现隔壁学院同课题组的学生也写了几乎一样的话。这不是抄袭,但系统不管这个,照样标黄。解决办法不是删致谢,而是写具体点:提一句某次讨论中对方指出的关键问题,或者某个深夜修改稿子的细节。越真实,越不容易撞车。
附录里的代码、原始数据表格,如果直接贴了别人开源项目的脚本,哪怕加了注释,也可能被识别为重复。特别是Python或MATLAB代码,查重系统现在也能做简单语法比对了。稳妥起见,附录里只放你自己写的、关键的片段,其余用“详见GitHub仓库”这类指引代替,既专业又避坑。
另外注意那些“隐藏重复源”,比如你从某篇PDF里复制了一段文字,粘贴时带了看不见的格式标记,或者用了OCR识别的扫描件文本,里面混着错别字和乱码——这些看似无害的内容,系统反而更容易当成新文本反复匹配,导致重复率虚高10%以上。查重前最好把全文转成纯文本过一遍,清理掉异常字符。

