不少做理工科研究的毕业生写毕业论文,都会堆满公式还有大段代码,大家最关心的就是这些内容会不会被论文查重算成重复,其实这个问题得分不同情况说,没有统一答案,主要看查重系统的识别规则还有学校的具体要求。
现在市面上主流的几大查重系统,对公式的检测逻辑差别挺大。知网是目前高校用得最多的,常规的公式如果是用 Word 自带的公式编辑器插入,或者用 LaTeX 编译生成的公式,大部分时候不会被当成普通文本查重。系统会把公式识别成特殊格式的对象,不会拆成字符去和数据库里的内容比对,所以一般不会标重复。但如果你是直接把公式截图当成图片插进去,或者手动把每个字符输进去拼凑成公式样子,那系统就会把这些字符当成普通正文检测,刚好和别人论文里的公式字符一致,就会被算成重复。
代码段的情况比公式更复杂,很多计算机、软件工程专业的毕业生,毕业论文里要放核心的实验代码,这部分会不会被查,完全看学校的要求。大部分查重系统其实默认会检测正文里的文本内容,如果你的代码是直接粘贴进正文里,没有放到附录里,也没有设置成跳过检测,那知网这类系统就会逐行比对,只要你的代码和开源社区、已经收录的毕业论文里的代码重复,就会被标出来算重复率。很多人用的是经典算法的代码,本来大家写出来结构都差不多,很容易就重复。
有些学校会明确要求,附录里的代码和公式不参与查重,这种你只要按照学校要求,把代码和公式放到附录部分,最后送检的时候学校会自动剔除附录,就不会影响正文的重复率。但有些学校要求全文查重,连附录一起算,那你就得提前想办法处理。比如你可以把代码截图插进去,大部分查重系统不会识别图片里的文字,就能避开检测,但前提是学校允许用图片放代码,不要求可编辑的文本。
还有一些小众的查重系统,本身对公式和代码的识别能力很差,不管你是什么格式,都没法正常提取内容,自然也就不会检测重复。但最后学校用知网查的时候,还是会按照知网的规则来,不能因为用其他系统查出来没问题就掉以轻心。

