Zookeeper使用 接口测试 Quartz 整数转换 Spring Cloud k8s JS firebase websocket Egret Engine 管理后台模板 android实战项目 jq遍历对象 jquery解析json bentley软件介绍 input取消边框 ajax里面可以嵌套ajax吗 centos7安装gcc linux撤销 python基础 python循环 mysqlinsert python开发教程 python读取数据库 python中set的用法 python等待10秒 java运算 java文件重命名 java语言运算符 linux硬盘 java游戏制作 wps2011 雪地求生 EasyCHM 脚本之家官网 ae脚本管理器 按键精灵脚本教程 php四舍五入 wegame更新失败 网卡驱动安装包
当前位置: 首页 > 学习教程  > 编程语言

Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击!

2020/9/19 14:16:31 文章标签:

2020-09-18 14:27

导语:人在做,AI在看

Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击!

作者 | 青  暮

编辑 | 丛 末

来自纽约雪城大学的机器学习研究人员Daniel Acuna开发了一款论文图像查重软件,他用这款软件检查了3500篇论文的21,000张图像,在4小时内查出大约400张疑似重复的图像,这项技术或许将为学术造假乱象的解决带来曙光。近日,Nature还对相关事件进行了报道。 

Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击!

由于利益诱惑和成本低廉,学术造假屡禁不止。在国内,学术造假的最终结果几乎都是不了了之。

根据中国科学技术信息研究所的报告,中国发表SCI论文数量已居世界第二,紧追美国。截止2020年6月22日,全世界共有23425篇SCI撤稿,其中中国10303篇,占比44%。

此外,每年中国SCI论文撤稿占所有撤稿的比例也持续上升,2019年达到30%,2020年目前为止已达到33%。今年,中国已有317篇SCI论文撤稿,相对的,美国有215篇SCI论文撤稿。近三年来,剽窃和错误是中国SCI论文撤稿的首要原因。

其中剽窃主要是指文字抄袭,目前的查重系统只能查重文字,不能查重图像。而错误则主要是指 图像错误,包括经过PS然后重复使用的图像。

学术论文造假手段常用的有四种:1、重复用图;2、编造数据,用ps涂抹修图;3、花钱买论文;4、伪造审稿人。其中第一种和第二种最常用,造假成本最低,以重复用图进行学术造假的案例屡见不鲜。

2020年5月, 素有“打假斗士”之称的Elisabeth Bik博士,举报中国8篇论文 “不同作者、不同大学所属医院、不同癌种、不同蛋白表达,结果却一模一样”。

2020年6月,学术打假网站PubPeer上有人质疑清华大学医学院院长董晨24篇文章有些实验图像存在问题。举报者表示:在这24篇论文里,出现了部分实验图像在不同项目中重复出现,但标记数值不同;两幅实验图像相似度极高;不同指标的直方图完全一致的情况。基于之后董晨的回复,有知乎网友分析:他实际上委婉默认了有造假的地方,只是在造假程序或者数量上有不同的意见。

近日,网传Pubpeer 曝出北京大学常务副校长、中国工程院院士詹启敏的 25 篇论文涉嫌学术造假。这25篇论文被怀疑将相同图像修改后应用于不同实验甚至不同论文中。

可见,图像查重对于论文审查是非常重要的一环,而纯粹靠人工审查则相当费时费力,Daniel Acuna开发的这款软件无疑是一大利器。

 

1

 

 

 

工作初衷:为疫情防治贡献一份力

由于担心关于COVID-19的研究论文可能存在过多的草率工作,纽约雪城大学信息研究学院的助理教授Daniel Acuna 开发了一个能够对论文中的图像进行查重的程序,据悉,现在这项程序已被应用在全球的新冠病毒相关论文的预印本上。

       Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击!       

对于开发这项程序的初衷,Daniel Acuna 表示:“我无法阻止疫情,只能以自己的方式做出贡献。”

该算法可一次筛选成千上万张论文以匹配图像,翻转、调整大小或旋转的图像也可以进行匹配。

这些重复图像可能是无意的失误,也可能是不当行为的结果。原本这项工作通常由专家人工检查,或用软件检查少量论文中的图像。

但需要注意的是,目前这项程序仍处于试验阶段,正在接受期刊和研究机构的测试。

 

2

 

 

查重结果存有争议

到目前为止,这项工作取得了一定程度的成功,但也引起了一些争议。

今年6月,Daniel Acuna从bioRxiv和medRxiv服务器上下载了3500个预印本,用他的软件查重了21,000张图像。在4小时内,该软件就查出了大约400张可能重复的图像。不过大多数结果都没有问题,他选择了24篇包含可疑重复图像的论文。

7月,他在自己的网站上发布了这些内容,并在PubPeer上公开。

这件事随后引起了轰动。一些论文作者回应说,Daniel Acuna的软件确实查出了重复的图像,他们将纠正错误,不过也有一些错误已经在同行评审版本中得到纠正。

芬兰赫尔辛基大学的病毒学家Giuseppe Ballistreri 对于这项技术,也持肯定态度,他表示,“如果该工具被证明是准确的,则应默认在PubMed中应用。”PubMed 是一个免费的搜索引擎,提供生物医学方面的论文搜索以及摘要。

另一方面,也有其他人指出,这些重复不是错误。Elisabeth BikBik以其在科学出版物中检测照片操纵的工作而闻名,她表示,希望Daniel Acuna首先向她咨询匹配结果。她进一步在PubPeer写道,该软件“仍然需要人工监督,以确保它不会错误地将适当的重复图像标记为不适当”。

       Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击!       

对于 Elisabeth BikBik 的观点,Daniel Acuna 表示同意:软件标记的内容始终需要人来审核,并且尚无法根据上下文了解所获取的内容是否有问题。

更有一些研究人员指出,Daniel Acuna的软件完全弄错了,而且标记了相似但不匹配的图像。例如,北卡罗来纳州达勒姆市杜克大学的Priyamvada Acharya要求Daniel Acuna删除他的一篇论文的匹配结果,该论文包含同一分子的相似视角图。

随后,Daniel Acuna从他的网站上删除了大约三分之一的检查结果,并将该网站的列表设置为私人访问。如此,只有从他那里获得访问密钥的作者才能看到他的检查结果。

总体而言,这项研究论文的自动筛选技术远非完美,而且“仍然需要专家来解释和理解”。此外,德国海德堡的图像分析师 Jana Christopher 也指出了该技术的另一局限性:自动图像检查算法仍然过于专注于查找重复项,并且还不能应对所有图像处理手段。

 

3

 

 

再接再厉

除了技术上的不完美性,Daniel Acuna 本人还指出了影响软件的准确性的一个外在因素:PDF文件格式会破坏自动提取图像的能力。例如,今年5月,Elisabeth Bik在推特上叙述了关于Nature的一篇COVID-19 论文的图像复制问题,该图像也出现在2月份的预印本中,但Daniel Acuna的软件由于论文是PDF格式而没有检查到。

目前为止,关于新冠病毒的研究产生了无数的论文,许多研究人员担心出现低质量的研究和错误,甚至欺诈。有科学家发出警告:“质量低劣的研究将泛滥成灾”。

接下来,Daniel Acuna 打算继续进行论文重复图像的自动检查,而之后首先要做的事情,就是将查重结果告知作者,只有在他们不回应的情况下才公开结果。

对于学术界低质论文泛滥成灾的现象,Daniel Acuna 也发出了告诫:“我希望那些正在动歪脑筋的论文作者们意识到,有人正在对论文图像进行查重。”

 

 

 

参考内容:https://www.nature.com/articles/d41586-020-02161-3


本文链接: http://www.dtmao.cc/news_show_200093.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?