写过综述的人应该都有过这种体验,辛辛苦苦查了一堆文献,整理了好几个星期,结果一丢进论文查重系统,重复率直接飙到百分之三四十,甚至更高。这事儿搁谁身上都郁闷,明明自己一个字一个字敲出来的,怎么就成"抄袭"了?
问题出在综述这类文章的本质上。综述嘛,说白了就是把别人的研究成果拿过来梳理一遍,再加点自己的分析和评价。可问题是,那些研究结论、数据、专有名词,人家原作者就是那么写的,你总不能把"深度学习在图像识别中的准确率达到了98.5%"这句话改成"用深度学习搞图像识别能认对百分之九十八点五的东西"吧?改了意思就变了,不改又撞车。
还有一个很现实的原因,就是专业术语这东西,表达方式就那么几种。比如"该方法显著提高了模型的泛化能力",十个人写可能有八个用类似的句式。论文查重系统又不是只比对整句,它是连续若干个字符匹配就算重复。你引用一段话,哪怕加了"研究表明"四个字,后面那十几个专业词汇一对上,照样给你标红。
另外很多人写综述的时候会大段引用原文,觉得不引用不够严谨。但大段引用在查重系统里就是送分题,一整段话跟数据库里的内容高度重合,重复率不高才怪。有些同学倒是想 paraphrase,可专业领域的句子结构本来就固定,翻来覆去就那几种写法,改到头还是跟原文撞。
所以综述类文章在论文查重里重复率偏高,不是谁写得差,而是这类文章天然就跟查重系统的匹配逻辑"犯冲"。它需要大量引用已有成果,而这些成果早就躺在数据库里等着被比对了。与其纠结重复率数字好不好看,不如在写作时多用自己的话做分析和串联,把引用控制在合理范围内,这样查重结果才不会太难看。

