论文查重到底包不包括附录里的编码脚本?这个问题挺实际,很多人写完论文,把Python或R的代码一股脑塞进附录,心里嘀咕:这玩意儿也会被查吗?答案是看情况,但大概率会,而且不同系统差别还挺大。
主流的论文查重平台,它们默认查的是你提交的整个文档。也就是说,只要你把代码放进PDF或者Word里,跟正文一起上传了,系统就会照单全收,一并扫描。它可不管你是写了段“import pandas as pd”,还是抄了一整页爬虫脚本。只要文字能被识别出来,它就当成普通文本处理。有些学生以为“代码不是中文,肯定不查”,结果发现重复率突然飙升,回头一看,原来是自己从GitHub上复制的几行注释被系统抓出来了。
更麻烦的是,代码本身虽然语法特殊,但里面夹杂的中文注释、函数名、路径描述、甚至报错提示,全是自然语言。比如你写了一句“# 本函数用于清洗2023年北京市空气质量数据”,这句话跟别人论文附录里的注释一模一样,查重系统立马标红。再比如你用了某个开源库的标准模板,像sklearn的fit_predict流程,连注释都懒得改,那很可能跟别人雷同。这种重复,系统不会区分是不是“合理复用”,它只管“有没有撞上”。
不过也有例外。像知网的学位论文检测系统(TMLC),它对附录的处理相对宽松一点。如果你在提交前把附录单独删掉,或者用图片形式嵌入代码(比如截图贴进PDF),系统确实很难识别。但这不是推荐做法。一方面,评审老师要看原始代码,图片根本没法复制运行;另一方面,故意规避查重,一旦被发现,性质就变了。学术诚信这事,不能靠技术小聪明糊弄过去。
还有些专门做代码查重的工具,比如CodeOcean、MOSS,它们才是真正懂编程逻辑的。它们比对的不是字面相似,而是结构、变量命名习惯、算法流程。但这类工具一般不用于常规论文查重,学校也不会拿它来审你的毕业论文。所以你在交稿时面对的,还是那个“认字不认逻辑”的通用查重系统。
其实最稳妥的办法,不是琢磨怎么躲过去,而是想清楚:为什么要把代码放附录?如果是为了展示方法可复现,那就别直接粘贴,改成精简说明+关键片段+注明来源。比如写一句:“完整分析脚本见GitHub仓库(https://xxx),使用Python 3.9与pandas 2.1.0完成”,再在附录里只放三五行核心逻辑。这样既专业,又避免大段重复。

