【新智元导读】AI写论文达到了几近完善的程度!伦斯勒理工学院大四学生王清昀等研究人员最新开发PaperRobot,能够从产生点子、写摘要、写结论到写“未来研究”,甚至它还能为你写出下一篇论文的题目。
还在为写论文想不出好点子而发愁吗?
不用愁了!伦斯勒理工学院、斯坦福大学等的研究人员最新开发的PaperRobot,提供从产生idea、写摘要、写结论到写“未来研究”的一站式服务!甚至它还能为你写出下一篇论文的题目,从此论文无忧。
这篇题为PaperRobot: Incremental Draft Generation of Scientific Ideas的论文已被ACL 2019录取,近日在推特上引起大量关注。
谷歌大脑科学家David Ha(hardmaru)评价:“May a thousand (incremental) ideas bloom. ”
大四华人一作发明AI「论文生成」神器
论文作者来自伦斯勒理工学院、DiDi实验室、伊利诺伊大学香槟分校、北卡罗来纳大学教堂山分校和斯坦福大学。其中,第一作者Qingyun Wang (王清昀)是伦斯勒理工学院的大四本科生(今年8月开始讲进入UIUC读计算机科学PhD)。
这不是王清昀同学第一次研究AI写论文,早在2017年他的“论文摘要生成”研究也曾引起热议。王清昀同学中学在杭州第二中学就读,从小就是“发明小达人”,取得专利的发明就有2个。
论文地址:
https://arxiv.org/pdf/1905.07870.pdf
PaperRobot是怎样自动写论文的呢?简单来说,它从以前的论文中提取背景知识图谱,产生新的科学思想,最后写出论文的关键要素。
它的工作流程包括:
(1)对目标领域的大量人类撰写的论文进行深入的理解,并构建全面的背景知识图(knowledge graphs, KGs);
(2)通过结合从图注意力(graph attention)和上下文文本注意力(contextual text attention),从背景知识库KG中预测链接,从而产生新想法;
(3)基于memory-attention网络,逐步写出一篇新论文的一些关键要素:从输入标题和预测的相关实体,生成一篇摘要;从摘要生成结论和未来工作;最后从未来工作生成下一篇论文的标题。
研究者对这个AI论文生产机进行了图灵测试:
PaperRobot生成生物医学领域论文的摘要、结论和未来工作部分,同时展示人类写作的同领域论文,要求一名生物医学领域的专家进行比较。结果显示,分别就摘要、结论和未来工作部分而言,在30%、24%和12%的情况下人类专家认为AI生成的比人类写作的更好。
至于这批AI研究人员为什么选择生物医学领域来做实验,原因很简单:生物医学论文很多,非常多!他们尝试了用自己领域(NLP)来做实验,结果并不理想(NLP的论文语料还不够多)。
接下来,新智元对这篇论文进行了译介:
简单3步,图网络+注意力机制,AI写论文甚至比人类好
我们的目标是打造一个论文机器人PaperRobot,来加速科学发现和生产,它的主要任务如下。
阅读现有的论文。
论文太多了。科学家们很难跟上井喷式的论文增长速度。例如,在生物医学领域,平均每年有超过50万篇论文被发表,仅2016年就有超过120万篇新论文发表,总论文数超过2600万篇(Van Noorden, 2014)。
然而,人类的阅读能力几乎是不变的。2012年,美国科学家估计,他们平均每年只能阅读264篇论文(5000篇论文中只读1篇),这个数字与他们在2005年进行的同样调查中报告的数据一致。
PaperRobot自动阅读所有可用的论文,构建背景知识图(KG),其中节点表示实体/概念,边表示这些实体之间的关系。
在本研究中,我们采用的是大量已发表的生物医学论文,提取实体及其关系来构建背景知识图。我们应用了Wei等人(2013)中提出的实体和关系提取系统,提取了3类实体(疾病,化学和基因)。然后,我们进一步将所有实体链接到CTD(比较遗传毒理学数据库),提取出133个子类型的关系,如标记/机制、治疗和提高表达。
图3是一个示例。
图3:生物医学知识提取与链接预测示例(虚线表示预测的链接)
产生新的想法。
科学发现可以看作是在知识图中创建新的节点或链接(links)。
创建新节点通常意味着通过一系列真实的实验室实验发现新的实体(如新的蛋白质),这对PaperRobot来说可能太难了。但是,使用背景知识图作为起点,自动地创建新的边是更容易的。