時至春季,人工智能的春天也來了。
從去年 AlphaGo 與李世石的人機大戰(zhàn)之后,人工智能瞬間成為科技行業(yè)最為耀眼的明星。除了國內(nèi)外的巨頭動作頻繁,該領(lǐng)域的創(chuàng)業(yè)公司也如雨后春筍般生長起來。而這背后,自然離不開讓機器學會思考的造物主們。本文,我們就來認識一些將人工智能夢想變成現(xiàn)實的功臣們。
阿蘭⋅圖靈
二戰(zhàn)時阿蘭⋅圖靈在布萊切利公園擔任解碼專家,于 1940 年創(chuàng)造出可以破譯德軍密報的機器 Bombe,為盟軍的勝利立下了汗馬功勞。戰(zhàn)后,他任職于泰丁頓國家物理研究所,開始從事“自動計算機”的邏輯設(shè)計和具體研制工作。1946 年,圖靈發(fā)表論文闡述存儲程序計算機的設(shè)計,因此被稱為計算機之父。
基于計算機,他還思考怎么去創(chuàng)造一個思考的機器(Thinking Machine)。他說:“要建造一個智能的機器的話,可能最好的方法就是用錢買得到的最好的感知器來組建它,并教會它使用英文。”
圖靈并沒有建立起人工智能這個領(lǐng)域,但是他帶來了最初的一些重要的思想元素:我們要做一個會思考的機器,里面就需要包括:視覺、語言。另外,圖靈還提出著名的“圖靈測試”,指出如果第三者無法辨別人類與人工智能機器反應的差別,則可以論斷該機器具備人工智能。“圖靈的成就不得地讓我們聯(lián)想,是否等到人類滅亡之后會留下機器人來統(tǒng)治這個世界。”互聯(lián)網(wǎng)之父文特·瑟夫如此評論。正是圖靈開啟了人工智能研究的先河。如今,由美國計算機協(xié)會(The Association for Computing Machinery)設(shè)立圖靈獎為其最高獎項,以表彰圖靈在計算機以及人工智能領(lǐng)域的特殊貢獻。
Terry Winograd
Terry 是人工智能界,第一代把圖靈的思想付諸實踐的人,他也是現(xiàn)在在世的計算機界最偉大的科學家之一。Terry 不光在人工智能領(lǐng)域做了最重要的工作,而且他后來轉(zhuǎn)行去做人機交互,也把這個領(lǐng)域重新帶動了起來。
在 Terry 看來,要實現(xiàn)人工智能,需要有這 3 個要素:語法,語義和推理。他說一個人,或者一個機器,要去理解世界,需要去感知。感知以后,需要做的第一件事是對這個世界的結(jié)構(gòu)進行理解,這叫語法的理解(Syntax Understanding)。Terry 說,機器能夠理解語法以后,接下去需要做的就是理解語義(Semantics)。語義就是指含義,語言有語言的含義,視覺有物體、有動作,有視覺的含義。最后,當我們把語法和語義解決以后,智能的機器或者是人主要解決的問題就是統(tǒng)計推理(Inference)這個過程。1970 年,Terry Winograd 教授在麻省理工學院人工智能實驗室創(chuàng)建了 SHRDLU(積木世界),其被譽為微世界程序的最高成就,它能用普通的英語句子與人交流,還能作出決策并執(zhí)行操作??梢哉f它既是自然人展示自己如何借助計算機實現(xiàn)自然語言理解的一個經(jīng)典示例,也是怎樣應用計算機有效進行自然語言處理的一個里程碑。
Geffory Hinton
人類大腦有數(shù)十億個神經(jīng)細胞,它們之間通過神經(jīng)突觸相互影響,形成極其復雜的相互聯(lián)系。然而科學家們并不能解釋這些具體的影響和聯(lián)系。神經(jīng)到底是如何進行學習以及計算的,對于 Hinton,這些正是他所關(guān)心的問題。他不知道所有的答案,但在他的努力之下已經(jīng)取得了進展。
Geoffrey Hinton 被尊稱為“神經(jīng)網(wǎng)絡之父”,將 Back Propagation(反向傳播)算法應用到神經(jīng)網(wǎng)絡與深度學習,還提出了“Dark Knowledge”概念。他將神經(jīng)網(wǎng)絡帶入到研究與應用的熱潮,這些人工神經(jīng)網(wǎng)絡可以收集信息,也可以對其做出反應。它們能對事物的外形和聲音做出解釋。它們對語言的理解也在進步。它們可以自行學習與工作,而不需要人為提示或者參與控制。這些正是它們與傳統(tǒng)的學習機器的區(qū)別。隨著時間的推移,計算機能力的發(fā)展,神經(jīng)網(wǎng)絡也更加快速,靈活,高效,得到了很好的擴展。
據(jù)了解,早在 80 年代初期,當 Hinton 和他的同事們剛開始這項研究時,那時的電腦還不夠快,不足以處理有關(guān)神經(jīng)網(wǎng)絡的這些龐大的數(shù)據(jù),他們?nèi)〉玫某删褪怯邢薜?。而當時 AI 普遍的研究方向也與他們相反,都在試圖尋找捷徑,直接模擬出行為,而不是試圖通過模仿大腦的運作來實現(xiàn)。在這樣艱難的環(huán)境下,只有 Hinton 和他的同事堅持了下來,而事實則證明他們是對的。
Geoffrey Hinton 于 2006 年在《Science》上發(fā)表的論文首次提出深度學習的主要觀點。從 2012 年取得 ImageNet 競賽的標志性事件之后,深度學習不斷取得一系列的重大進展,解決了人工智能界的盡最大努力很多年仍沒有進展的問題,除了在圖像識別、語音識別等領(lǐng)域打破了紀錄,還在其他的領(lǐng)域擊敗了其他機器學習技術(shù),包括預測潛在的藥物分子的活性、分析粒子加速器數(shù)據(jù)、重建大腦回路、預測非編碼 DNA 突變對基因表達和疾病的影響。更令人驚訝的是,深度學習在自然語言理解的各項任務中也有非??上驳某晒?,特別是主題分類、情感分析、自動問答和語言翻譯。
可以說,正是 Geoffrey Hinton 將“深度學習”從邊緣課題變成了谷歌等互聯(lián)網(wǎng)巨頭仰賴的核心技術(shù)。
Yann LeCun
Yann LeCun,Geoffrey Hinton 的博士后學生,也是將 CNNs 應用最成功的人(CNNs,是一種深度的監(jiān)督學習下的機器學習模型)。目前感興趣的研究領(lǐng)域包括人工智能、機器學習、計算機感知、機器人和計算神經(jīng)科學。他最出名的是對深度學習和神經(jīng)網(wǎng)絡的貢獻,特別是廣泛用于計算機視覺和語音識別應用的 CNN(卷積神經(jīng)網(wǎng)絡),他第一個把 BP 算法用在 CNN 上并且完善 CNN 使得它可以在真實場景中得以應用,并在這些主題以及手寫字體識別、圖像壓縮和人工智能硬件等主題上發(fā)表過 190 多份論文。
LeCun 使 CNN 成為目前人工智能領(lǐng)域最有用的模型。在谷歌,卷積神經(jīng)網(wǎng)絡幫助他們在安卓手機上開發(fā)語音識別系統(tǒng);而百度則可以利用它開發(fā)全新的視覺搜索引擎。
Yann LeCun 是紐約大學終身教授,現(xiàn)任 Facebook 人工智能實驗室負責人。LeCun 位列新澤西州的發(fā)明家名人堂,并獲得 2014 年 IEEE 神經(jīng)網(wǎng)絡先鋒獎、2015 年 IEEE PAMI 杰出研究獎、2016 年 Lovie 終身成就獎和來自墨西哥 IPN 的名譽博士學位。
Yoshua Bengio
Yoshua Bengio 教授是機器學習大神之一,尤其是在深度學習這個領(lǐng)域。他連同 Geoff Hinton 以及 Yann LeCun 教授,締造了 2006 年開始的深度學習復興。
其他方面,Bengio 的《a neural probabilistic language model》這篇論文開創(chuàng)了神經(jīng)網(wǎng)絡做 language model 的先河,里面的思路影響、啟發(fā)了之后的很多基于神經(jīng)網(wǎng)絡做 nlp(自然語音處理) 的文章。
Bengio 博士后的導師 Jordan 曾提到:“到目前為止,在更高級的自然語言處理任務中,深度學習并未像在語音識別、物體識別等任務上做到的那樣,顯著降低錯誤率。”所以在 Hinton 提出深度學習概念激活了整個領(lǐng)域、lecun 發(fā)表了卷積神經(jīng)網(wǎng)絡 (CNN) 這樣的階段性突破成果的前提下,Bengio 對自然語音處理難題的貢獻是非常有意義的。
Jürgen Schmidhuber
1997 年,Schmidhuber 博士和他的同事發(fā)表了一篇技術(shù)論文,后來證明這篇論文對最近的視覺和語音上的快速進展起到了關(guān)鍵作用。這個方法被稱長短期記憶,簡稱為 LSTM。這個方法在剛引進時沒有得到廣泛的理解。它主要提供了一種記憶形式,或者說是一種神經(jīng)網(wǎng)絡的環(huán)境。
就像人類不會每次都從頭學起一樣,神經(jīng)網(wǎng)絡的機制中存在循環(huán)和記憶的機制,每個輸入的單詞和觀察到的像素都會被其理解。長短時記憶(LSTM)的出現(xiàn)讓這種系統(tǒng)的表現(xiàn)得到了很大的提升,輸出結(jié)果瞬間變得準確。
去年,谷歌的研究人員在這一方面的研究得到發(fā)表,他們使用 LSTM 減少了 49% 的語音識別錯誤,這是一個飛躍性進步。