在毕业季或者投稿前,有些同学可能会动一些歪脑筋,想通过一些“技术手段”来降低论文查重的重复率。关于论文查重系统能不能检测出表格里的隐藏文字,我可以给你一个相当肯定的答案:能,而且绝大多数主流的查重系统都能检测出来。
我们得先搞清楚,在Word文档里,所谓的“隐藏文字”到底是个什么东西。它并不是一种加密或者什么高深的技术,它本质上只是Word软件提供的一个格式标记。你选中一段文字,然后在字体设置里勾选“隐藏”这个选项,这段文字在普通的页面视图下就不显示了,但它依然真实地存在于那个.docx文件里,它只是被穿上了一件“隐身衣”而已。对于计算机程序来说,这件隐身衣几乎是透明的。
论文查重系统在工作的时候,它不是像我们人一样用眼睛去看屏幕上显示什么,它是一个程序,它会直接去解析你上传的那个文档文件,比如.docx或者.pdf。它会把这个文件拆解成最底层的文本内容和格式代码。当它解析到一个被标记为“隐藏”的文本片段时,它根本不在乎这个“隐藏”的格式标签,它看到的就是一串实实在在的字符。对于查重系统来说,这段隐藏的文字和表格里、正文里其他任何可见的文字,没有任何区别,它都会被一视同仁地提取出来,然后扔到数据库里去进行比对。
你可以把这个过程想象成,你把一张写着密信的纸条藏在一本书里。论文查重系统不是那个只会翻看书页内容的普通读者,它是一个拥有X光透视能力的安检员。它一眼就能看穿书的封面和内页,直接看到里面夹着的那张纸条,并且把纸条上的内容读出来。所以,你以为你把大段复制的文字藏在表格的某个单元格里,然后设置成隐藏格式,查重系统就看不到了,这完全是一种误解。系统在处理表格的时候,会把表格里的每一个单元格都拆开,然后提取里面的所有文本,包括那些被你隐藏起来的。
现在主流的查重系统它们不仅要处理文本,还要处理复杂的格式,包括图片、公式、表格等等。它们在算法设计之初,肯定就已经考虑到了各种可能被用来规避检测的“小聪明”。隐藏文字是一种非常古老和初级的手段,系统工程师们早就把它列入了重点监控对象。有些系统甚至在检测报告里会特别提醒,检测到文档中存在格式异常或隐藏文本,这反而会引起审查老师的警觉,觉得你学术态度不端正。
退一万步讲,就算你运气爆棚,用了一个极其冷门的、技术落后的查重系统,真的没有检测出你隐藏的文字,你以为你就安全了吗?你错了。当你的论文交到导师或者评审专家手里时,他们可能会用不同的方式来审阅。如果他们把你的Word文档下载下来,或者在审阅过程中不小心点击了“显示所有格式标记”的按钮,你那些藏起来的文字就会瞬间原形毕露。到那个时候,性质就完全变了。查重率高,可能还只是个学术能力问题;但故意隐藏文字来欺骗,这就上升到了学术不端的高度,后果要严重得多。

