【微观清华】身世清华“姚班”,斯坦福博士结
来源:现代网 发表于2019-07-19 02:29:07 编辑:姚晨
摘要: 来历: 清华招生 微信大众号 2019-02-28 很少有人的博士论文可以成为 爆款文章 ,但陈丹琦做到了。这位近来从斯坦福结业的计算机科学博士引发了人们的广

来历: 清华招生 微信大众号 2019-02-28

很少有人的博士论文可以成为 爆款文章 ,但陈丹琦做到了。这位近来从斯坦福结业的计算机科学博士引发了人们的广泛重视。据斯坦福大学图书馆介绍,她长达 156 页的结业论文《Neural Reading Comprehension and Beyond》上传仅四天就取得了上千次的阅览量,成为了斯坦福大学近十年来最抢手的结业论文之一。

斯坦福大学还因而对陈丹琦进行了一次简略采访。

陈丹琦激动人心的研讨敏捷在交际网络和其他专心机器学习的新闻网站上传达。她的辅导教师 斯坦福 AI 实验室负责人、人工智能范畴闻名学者、斯坦福大学言语学和计算机科学教授克里斯托弗·曼宁(Christopher Manning)在采访中表明: 陈丹琦是运用神经网络办法处理自然言语了解问题方面的前驱。她简略、洁净、高成功率的模型招引了世人的目光……她的这篇结业论文首要研讨神经网络阅览了解和问答,这些新式技能正在带来更好的信息拜访办法 它可以让计算机体系可以真实答复你的实践问题,而不是简略地回来文档查找效果。

陈丹琦现在正在拜访 Facebook 人工智能研讨院 Facebook AI Research 和华盛顿大学,在本年秋季,她行将前往普林斯顿大学计算机科学系担任助理教授。

在结业于斯坦福大学之前,陈丹琦于 2019 年结业于清华大学计算机科学实验班( 姚班 )。值得一提的是,她在高中(长沙市雅礼中学)参加信息学国家队集训期间提出了 cdq 分治算法,用于处理一类分治问题;在高中期间她还发明晰插头DP,首要用于处理数据规划小的棋盘模型途径问题。大牛果然在高中期间就现已 起飞 了。

陈丹琦取得的荣誉和参加的研讨还有许多。2019 年,她取得了 ACM ICPC 世界大学生程序规划比赛全球总决赛银牌。在斯坦福期间,她在2019年宣布的论文《A Fast and Accurate Dependency Parser using Neural Networks》可谓深度学习依存剖析办法的 开山之作 ,她和曼宁教授提出的办法在坚持精度的前提下,将解析速度进步了 60 倍。

抢手的博士结业论文

这篇结业论文名为《Neural Reading Comprehension and Beyond》,描绘了她在博士期间的三个重要研讨,以处理 人工智能中最难以捉摸和长时间存在的应战之一 :怎样让机器学会了解人类言语。让咱们看看她的结业论文终究说了什么。

摘要

教机器学会了解人类言语文本是人工智能范畴最困难的长时间应战之一。本论文致力于处理阅览了解问题,即怎样构建一个计算机体系来阅览一段文本并答复了解问题。一方面,咱们以为阅览了解是衡量计算机体系了解人类言语程度的重要使命。另一方面,假如咱们可以构建高性能的阅览了解体系,那么这些体系就会成为问答、对话体系等运用的要害技能。

本论文聚集于神经阅览了解,这是一类构建在深度神经网络之上的阅览了解模型。与依据特征的手艺传统模型比较,这些端到端的神经模型已被证明在学习丰厚的言语现象方面愈加有用,在全部现有阅览了解基准测验中都有大幅度的进步。

本论文包含两个部分。榜首部分旨在归纳神经阅览了解的实质并展现咱们在构建高效神经阅览了解模型方面所做的作业。更重要的是了解神经阅览了解模型实践上学习了什么,以及处理当时使命需求怎样的言语了解深度。咱们还总结了该范畴的当时开展并评论了未来的开展方向以及一些待处理的问题。

第二部分将讨论怎样依据神经阅览了解的当时效果构建实践运用。咱们开辟了两个研讨方向:1)咱们怎样将信息检索技能与神经阅览了解相结合,来处理大型敞开域问答问题;2)咱们怎样从当时依据跨距的(span-based)单轮(single-turn)阅览了解模型构建对话问答体系。咱们在 DRQA 和 COQA 项目中完结了这些主意,证明晰这些办法的有用性。咱们信任,这些技能关于未来的言语技能将十分有协助。

动机

让机器学会了解人类言语文本是人工智能范畴最难的长时间应战之一。在开端做这件事之前,咱们有必要要知道了解人类言语意味着什么?图 1.1 展现了 MCTEST 数据集(Richardson et al., 2019)中的一个儿童故事,只要简略的词汇和语法。为了处理这样一段文字,NLP 社区花费了数十年的精力来处理各种不同的文本了解使命,包含:

a)词性标示。它要求机器了解这些东西:如在榜首个语句 Alyssa got to the beach after a long trip 中,Alyssa 是专有名词,beach 和 trip 是一般名词,got 是动词的曩昔式,long 是形容词,after 是介词。

b)命名实体辨认。机器要可以了解 Alyssa、Ellen、Kristen 是人名,Charlotte、Atlanta、Miami 是地名。

c)句法剖析。为了了解每句话的意义,机器需求了解单词之间的联系,或句法(语法)结构。还是以榜首句话为例,机器要可以了解 Alyssa 是主语,beach 是动词 got 的宾语,而 after a long trip 是介词短语,描绘了和动词的时间联系。

d)共指消解(coreference resolution)此外,机器乃至还要了解语句之间的相互作用。例如,语句 She s now in Miami 中的 she 指的是榜首句话中说到的 Alyssa,而第六行中的 The girls 指的是前面说到的 Alyssa、Ellen、Kristen 和 Rachel。

是否有全面的评价办法来测验全部这些方面并探究更深层次的了解呢?咱们以为阅览了解使命(依据一段文字答复了解问题)便是一个适宜又重要的办法。正如咱们会用阅览了解来测验人们对一段文本的了解程度,咱们以为它相同可以用来测验计算机体系对人类言语的了解程度。

咱们可以看看依据相同阶段(图 1.1)提出的一些阅览了解问题:

a)要答复榜首个问题 What city is Alyssa in? 机器要找到语句 She s now in Miami 并处理 She 指的是 Alyssa 这个共指消解问题,终究再给出正确答案 Miami 。

b)关于第二个问题 What did Alyssa eat at the restaurant? ,机器首先要找到语句: The restaurant had a special on catfish. 和 Alyssa enjoyed the restaurant s special. ,然后了解第二个语句中 Alyssa 吃的 special 便是榜首个语句中的 special。而榜首个语句中 special 说到的是 catfish,所以终究正确答案是 catfish。

c)终究一个问题比较有难度。为了正确答复该问题,机器要找出该阶段中说到的全部人名及其之间的联系,然后进行算术推理(arithmetic reasoning),终究给出答案「3」。

可以看到,计算机体系要了解文本的各个方面才干正确答复这些问题。由于问题可以被规划为问询那些咱们关怀的方面,阅览了解应该是用来评价言语了解程度的最适宜使命。这也是本文的中心主题。

在本文中,咱们研讨了这样一个阅览了解问题:咱们该怎样构建计算机体系来阅览文章并答复这些了解问题?尤其是,咱们要点重视神经阅览了解 一种用深度神经网络构建的阅览了解模型,该模型被证明比依据特征的非神经模型更有用。

阅览了解范畴历史悠久。早在 20 世纪 70 时代,研讨人员就现已认识到它是测验计算机程序言语了解才能的重要办法 (Lehnert, 1977)。可是,它却被忽视了数十年,直到最近才取得了许多重视并取得了快速的开展,包含咱们将在本文胪陈的作业。阅览了解近期取得的成功可以归功于两方面:

从(文章、问题、答案)三个方面创立的大规划监督数据集;

神经阅览了解模型的开展。

本文包含了今世神经阅览了解的实质:问题的方式,这些体系的组成部分和要害成分,以及对当时神经阅览了解体系优势和坏处的了解。

本文的第二个中心主题是,咱们深信,假如可以构建高性能的阅览了解体系,那这些体系将是树立比方问答和对话体系等运用的要害技能。事实上,这些言语技能现已与咱们的日常日子休戚相关了。例如,咱们在谷歌上查找 有多少人在斯坦福大学作业? ,谷歌将不只回来文档列表,还会阅览这些网页文档并出色显现最牢靠的答案,并将它们展现在查找效果的顶部。这正是阅览了解可以协助咱们的当地,使查找引擎变得愈加智能。并且,跟着数字个人助理(如 Alexa、Siri、谷歌帮手或许 Cortana)的开展,越来越多的用户经过对话和问询信息问题来运用这些设备。咱们信任,构建可以阅览和了解文本的机器也将大大提高这些个人助理的才能。

因而,怎样依据神经阅览了解近期取得的成功来创立实践运用程序也是咱们感兴趣的一方面。咱们探究了两个将神经阅览了解作为要害组成部分的研讨方向:

敞开域问答结合了来自傲息检索与阅览了解的应战,旨在答复来自网络或大型百科全书(如维基百科)的一般性问题。

对话式问答结合了来自对话和阅览了解的应战,处理了一段文字中的多轮问答问题,比方用户怎样与智能体互动对话。

六年博士心路进程

在博士论文中,陈丹琦也介绍了自己博士期间的学习阅历,感谢了在前进过程中给予了她极大协助的一批人,包含爸爸妈妈、教师、爱人、朋友。机器之心编译介绍了称谢中的部分内容,让咱们一窥优异的人砥砺前行的进程:

关于我来说,在斯坦福的六年是一段难忘的名贵阅历。2019 年刚开端读博的时分,我乃至都不能说出流利的英语(依照要求,我要在斯坦福修 5 门英语课程),对这个国家也知之甚少,乃至从未听说过 自然言语处理 这一概念。难以想象的是,在曩昔的几年里我居然一向在做言语方面的研讨,练习计算机体系了解人类言语(大都情况下是英语),我自己也在学惯用英语进行交流、写作。一同,2019 年也是深度神经网络开端起飞并主导简直全部咱们今日看到的人工智能运用的一年。我从一开端就见证了人工智能的快速开展,并为行将成为这一浪潮的一份子而感到振奋(有时是惊惧)。假如没有那么多人的协助和支撑,我也不可能走到今日。我由衷地感谢他们。

首先要感谢的是我的导师克里斯托弗·曼宁。我刚来斯坦福的时分还不知道 Chris。直到和他一同作业了几年、学了 NLP 之后,我才意识到自己何其侥幸,可以和这一范畴如此出色的人才同事。他对这一范畴总是充溢洞察力,并且十分重视细节,还能很好地了解问题的实质。更重要的是,Chris 是一个十分仁慈、关心、乐于助人的导师。有师如此,别无他求。他就像我的一位老友(假如他不介意我这么说的话),我可以在他面前各抒己见。他一向对我抱有决心,即便有时分我自己都没有自傲。我一向都会对他抱有感谢,乃至现在现已开端牵挂他了。

除了 Chris,我还想感谢 Dan Jurafsky 和 Percy Liang 斯坦福 NLP Group 的别的两位出色人才 他们是我论文委员会的成员,在我的博士学习期间给予了我许多辅导和协助。Dan 是一位十分有魅力、热心、博学的人,每次和他攀谈之后我都感觉自己的热情被点着了。Percy 是一位超人,是全部 NLP 博士生的典范(至少是我的典范)。我无法了解一个人怎样可以一同完结那么多作业,本论文的很大一部分都是以他的研讨为根底进行的。感谢 Chris、Dan 和 Percy 创立了斯坦福 NLP Group,这是我在斯坦福的家,我很侥幸成为这个大家庭的一员。

此外,Luke Zettlemoyer 成为我的论文委员会成员也让我感到万分侥幸。本论文出现的作业与他的研讨密切相关,我从他的论文中学到了许多东西。我期待在不远的将来与他一同同事。

读博期间,我在微软研讨院和 Facebook AI Research 取得了两份很棒的实习阅历。感谢 Kristina Toutanova、Antoine Bordes 和 Jason Weston 在实习期间给予我的辅导。我在 Facebook 的实习项目终究给了我参加 DRQA 项目的关键,也成为了本论文的一部分。感谢微柔和 Facebook 给予我奖学金。

我要感谢我的爸爸妈妈 Zhi Chen 和 Hongmei Wang。和这一代大大都中国学生相同,我是家里的独生子女。我和爸爸妈妈的联系十分密切,即便咱们之间有着十几个小时的时差而我每年只能挤出 2-3 周的时间来陪他们。是他们刻画了今日的我,廿载深恩,无以为报,只期望我现在所取得的全部可以让他们感到一丝骄傲和骄傲吧。

终究,在这里我要感谢俞华程对我的爱与支撑(咱们在这篇博士结业论文提交之前 4 个月成婚了)。我在 15 岁时遇见了华程,从那时起咱们一同阅历了简直全部的工作:从高中的编程比赛到清华大学夸姣的大学韶光,然后又在 2019 年一起进入斯坦福大学攻读计算机科学博士学位。在曩昔的十年里,他不只是我的伴侣、我的同学、我最好的朋友,也是我最敬佩的人,由于他时间坚持谦善、聪明、专心与尽力。没有他,我就不会来到斯坦福。没有他,我也不会取得普林斯顿的职位。感谢他为我所做的全部。

致我的爸爸妈妈和俞华程,感谢他们无条件的爱。

 

【微观清华】身世清华“姚班”,斯坦福博士结业,她的结业论文成了“爆款”

 

【微观清华】身世清华“姚班”,斯坦福博士结业,她的结业论文成了“爆款”

 

【微观清华】身世清华“姚班”,斯坦福博士结业,她的结业论文成了“爆款”

 

【微观清华】身世清华“姚班”,斯坦福博士结业,她的结业论文成了“爆款”

 

【微观清华】身世清华“姚班”,斯坦福博士结业,她的结业论文成了“爆款”

排行榜单
投稿邮箱:
相关推荐
超级物种上海首店封闭  新零售开端“挤泡沫”?
超级物种上海首店封闭 新零售开端“挤泡沫”?

超级物种上海五角场万达店已封闭。 飞 摄 在阅历了几年舍命狂奔后,现在,包

排行榜单2019-07-17 06:14:35

清华大学校机关青年教职工研讨会举办
清华大学校机关青年教职工研讨会举办

清华大校园机关青年教职工研讨会举办 1月7日电(记者 高 原)1月5日,校机关

排行榜单2019-07-16 11:52:08

借刀--,大军十万火急
借刀--,大军十万火急

��������������ڸ߾�ֵ��˿�������ӽ��ڣ��㽫�ᱻ

排行榜单2019-07-15 19:25:42

百度查找总裁向海龙弄清离任风闻,称和陆奇合
百度查找总裁向海龙弄清离任风闻,称和陆奇合

�Ӱٶ�֮��ʮ�������ܹ��ɷİٶȲ��ҹ�˾�����������

排行榜单2019-07-15 19:25:10

2018年甘肃省接收国家免费医学生800人布告
2018年甘肃省接收国家免费医学生800人布告

�ո�����6��21��Ѷ������������� (��ϯ���� ��

排行榜单2019-07-14 14:33:27

《权游》咖啡杯算什么!欧美影视剧穿帮镜头大
《权游》咖啡杯算什么!欧美影视剧穿帮镜头大

��һЩ��װ��Ƭ����������Ȩ����֧���ȱ�������

排行榜单2019-07-13 22:28:52

【人类环境】大气二氧化碳浓度再创新高 专家正
【人类环境】大气二氧化碳浓度再创新高 专家正

����ѧ�ұ������棬�����л��ɵ���ů���������

排行榜单2019-07-13 11:51:11

小米金融用户征信“乌龙” 会影响用户购房购车
小米金融用户征信“乌龙” 会影响用户购房购车

5��15����Ѷ�������ж����˿�������������Ͷ�

排行榜单2019-07-13 11:50:35

第六届“台商杯”球类竞赛人大代表队获佳绩
第六届“台商杯”球类竞赛人大代表队获佳绩

由北京市台办、北京市台协联合举办的2019第六届北京 台商杯 球类竞赛于22日在

排行榜单2019-07-12 08:54:55

北京大学医学部六所隶属医院获“全国无烟医院
北京大学医学部六所隶属医院获“全国无烟医院

2月16日,从我国操控吸烟协会主办的全球健康合作伙伴创立无烟医院项目榜首年

排行榜单2019-07-12 08:54:39