专栏 | 香侬科技独家对话斯坦福大学计算机学院教授、麦克阿瑟天才奖得主Dan Jurafsky_生活_资讯

机器之心专栏

斯坦福大学计算机学院教授 Dan Jurafsky 是自然言语处理范畴权威，他所著的《语音与言语处理》一书，被翻译成 60 多种言语，是全国际自然言语处理范畴最经典的教科书。Dan Jurafsky 曾在 ACL 2006、EMNLP 2013、WWW 2013 获最佳论文奖，在 2002 年取得麦克阿瑟天才奖（美国跨范畴最高奖项），2017 年取得美国科学院 Cozzarelli 奖，2015 年取得古尔德奖。Dan Jurafsky 教授在 Google Scholar 上引用量超越3万，h-index 达 75。他的首要研讨方向有自然言语了解、对话体系、人与机器言语处理之间的联络等，并一向测验运用自然言语处理办法来处理社会学和行为学问题。一同，他还对食物言语学以及中文有着极大的爱好，他所著的科普图书《食物的言语—从言语学家视点读菜单》被翻译成多国言语，荣获2015国际畅销书榜首，并获 2015 年James Beard Award 提名。

图 1. 斯坦福大学计算机学院终身教授 Dan Jurafsky 早在 80 时代就与我国结下了不解之缘。图为他 1985 年在北京大学进修中文时的留影（第二排右二便是青年时代的 Dan Jurafsky）。图片来源于Jurafsky 教授的个人主页 https://web.stanford.edu/~jurafsky/

香侬科技：您现正在修改《语音和言语处理》的第三版，这本书是自然言语处理（Natural Language Processing, NLP）范畴运用最广泛的教科书，修改的过程中，您对曩昔几年自然言语处理范畴的改动整体上有何领会？最令人振奋的事是什么？最令人绝望的事又是什么（假如有的话）？

图2. Dan Jurafsky 与 James Martin 所著的《语音和言语处理》一书，被翻译成 60 多种言语，是全国际自然言语处理范畴最经典的教科书。

Jurafsky：能在这个时代身处这个范畴是一件令人激动的事！当然，我会为深度学习感到特别的振奋，而我觉得最值得等待的是自然言语生成方面将发作的巨大改动，这是一个很有潜力的范畴，却在自然言语处理中被边际化了太久的时刻。别的，嵌入，特别是根据上下文的嵌入（embedding/contextualized embedding）的运用也令人振奋不已，它让咱们得以结构模型来捕捉词义在不一同间、空间，语境中的动态改动。别的一件事是人们对NLP范畴的社会性有了日渐进步的觉知：人们既意识到模型存在必定的成见，也意识到这些模型可以用来模仿和了解人与人之间的互动，进而将这个国际变得更好。

香侬科技：许多 NLP 研讨人员都有很强的言语学布景，乃至自身就来自该范畴。可是，跟着深度学习的办法在 NLP 中变得越来越主导，有人说（这乃至可以算得上一种趋势）言语学常识不再是进行 NLP 研讨的必要条件：只需练习一个双向长短时记忆循环神经网络（bidirectional LSTM RNN）就满足了。您能点评下这一说法吗？别的，您怎样点评 Frederick Jelinek 教授的名言“每次我辞退一个言语学家时，我的语音辨认器的功用都会进步”？

Jurafsky：我坚定地信任，想要为一个常识范畴做出奉献，充沛了解这个范畴是有协助的，所以我以为 NLP 研讨人员深刻地了解言语的功用，以及了解各类言语现象，比方：指代、组合性、变异、语法结构、隐含含义、情感、言语风格、对话互动等仍是至关重要的。但了解言语和言语现象并不意味着盲目地套用不恰当的言语学模型。Jelinek 教授的那句话（他曾告诉我他的原话其实愈加悠扬：「每个言语学家脱离团队时模型的辨认率都会上升」）实际上是指语音辨认中的发音建模。事实证明（并且现在依然正确）在具有满足的数据时，机器学习可以比人工界说语音规矩更好地处理语音多样性的问题。

所以我以为这个范畴未来仍将是机器学习与言语结构、常识的不断交融，而每个研讨人员将在不一同间不同状况下决议怎样分配这两个重要组成部分的权重。

香侬科技：从前史的视点来看，严重的打破一般首先在语音处理中发作，然后传播到自然言语处理范畴。例如：在 20 世纪 90 时代前期，来自语音范畴的 Peter Brown 和 Robert Mercer 将计算机器学习模型引进 NLP 范畴，然后彻底改动了该范畴; 而深度学习办法是首先在 2012 年被微软研讨院科学家邓力等人应用在语音范畴并取得打破性发展，而在 NLP 中大规划运用深度学习要到 2013-2014 年。回忆这些，您能解说为什么会发作这种状况吗，仍是说它只是偶然？

Jurafsky：正如你所说，计算模型确实是从语音范畴传播到 NLP，深度学习也是从语音和视觉范畴传播到 NLP。我以为这根本不是偶然，一般来说立异来自于在不同范畴作业的人一同作业时的结合。对诺贝尔奖取得者的研讨标明，他们往往是“搭桥者”—将不同范畴的办法联络在一同。因而，我对年青学者的主张是多运用跨学科的联络，与相关但不同范畴的人攀谈。这就是严重打破诞生的办法。

香侬科技：您在博士后阶段做了 3 年的语音处理研讨。您能描绘一下这些年的研讨是怎样影响了您在 NLP 范畴的研讨生计吗？

Jurafsky：它的影响是十分巨大的。我的博士后是在 1992-1995 年，正是机器学习、概率理论（probability theory）、图模型（graphical model）、神经网络（neural network）以及前期版别的嵌入（embedding）一同进入 NLP 的时期。我很走运可以在加州大学伯克利分校国际计算机科学研讨所（ICSI - UC Berkeley）的一个语音辨认和神经网络实验室攻读博士后，并与 Nelson Morgan 和 Jerry Feldman 协作。那个实验室对我有着重要的含义，我的导师们对 NLP 范畴的「大熔炉」观念对我产生了十分大的影响：你有必要注重文本、语音、对话以及认知科学，给予它们和工程学相同多的考虑。

咱们其时不知道什么会成为最干流的模型，是机器学习这个大范畴，仍是详细的图模型或神经网络。其时，由于没有满足多的 GPU，练习神经网络要慢得多，所以实验室有必要建立自己的向量处理器，而一个有着 4000 个单元的躲藏层的语音辨认网络在其时是十分巨大的神经网络，要花极久的时刻来练习。假如你其时让我猜测，我不会预想到深度学习二十年之后会是今日这样的局势。风趣的是，我和 Martin 写的《语音和言语处理》教科书的榜首版只是介绍了神经网络作为语音辨认算法；在第二版，咱们删除了神经网络，转而运用高斯模型，而在第三版中，咱们又把神经网络加回来了！

香侬科技：在曩昔，您和您的学生运用 NLP 技能研讨了许多社会科学中的重要问题（例如，Garg et al. PNAS 2018; Voigt et al. PNAS 2017, Winner of Cozzarelli Prize）。您关于想要进行更多这样跨学科研讨的NLP研讨人员有哪些主张呢？

图 3. Voigt et al. PNAS 2017 中 Dan Jurafsky 的实验室与斯坦福大学心理系协作，运用自然言语处理办法，主动评价差人对不同种族的人说话时的尊重程度。图片来源于 Voigt et al. PNAS 2017。

Jurafsky：咱们应该多跟社会科学家沟通！我以为，假如你要研讨与人类有关的任何东西，与社会科学专家协作这一点十分重要！社会科学专家不只有着更多关于人和社会联络的考虑，并且与计算机科学家比较，他们往往在计算和因果推理方面更有经历。再次着重，是跨学科引发了立异！

香侬科技：近年来，人们对机器学习的模型中的成见有许多忧虑。这个问题好像在NLP范畴分外杰出，由于在自然环境（例如，twitter）中搜集的数据不可避免地包含成见（性别歧视，种族歧视等）。盲目地用这些数据练习深度神经网络将导致有成见的模型猜测。您怎样看待这一问题？

Jurafsky：是的，现在每天稀有百万，乃至是数十亿人在运用 NLP 东西，如机器翻译、信息抽取、主动引荐等等，这是激动人心的发展。可是正像你所说，这些广泛的应用是有副作用的！NLP 的作业在品德层面上是影响社会的，越来越多的人，包含这个范畴的年青从业者以及咱们科学和技能的消费者正在更多地重视这些影响。

我很快乐咱们总算开端正视这些问题！或许咱们可以向那些长期以来有必要面临这些品德窘境和社会应战的范畴学习，比方：医药学、核物理学、生物学、社会科学等。你问我当需求权衡准确性与成见时应该做些什么，我的答案是咱们需求不时抚躬自问：咱们作业的终极目标是什么。咱们现在意识到，这个终极目标绝不只是是为了进步准确性或速度，而是真实让国际变得更夸姣。这是一个含糊的答案，需求结合详细的算法或使命来实践，可是期望咱们可以成功！

香侬科技 (http://shannon.ai/) ，是一家深耕金融范畴的人工智能公司，旨在运用机器学习和人工智能算法提取、整合、剖析海量金融信息，让 AI 为金融各范畴赋能。

香侬科技在 2017 年 12 月创建，获红杉我国基金独家数千万元融资。创始人之一李纪为是斯坦福大学计算机专业前史上榜首位仅用三年时刻就取得博士的人。在近来由剑桥大学研讨员 Marek Rei 发布的一项计算中，李纪为博士在最近三年国际一切人工智能研讨者中，以榜首作者宣布的尖端会议文章数量高居榜首位。公司硕士以上份额为 100%，博士占比超 30%，成员皆来自斯坦福、MIT、CMU、Princeton、北京大学、清华大学、人民大学、南开大学等国内外闻名学府。

参考文献：

本文为机器之心经授权转载，转载请联络原作者取得授权。