
人工智能:突破口在哪里?——
徐揚生校長在深圳創(chuàng)投25周年大會上的主旨演講
各位朋友早上好,今天非常高興受邀到這里做演講,首先祝賀深圳創(chuàng)投25周年,深圳創(chuàng)投對深圳的發(fā)展與創(chuàng)新立下了汗馬功勞,了不起!我們大家都感謝深圳創(chuàng)投做出的巨大貢獻。
我從事人工智能機器人方面的研究大概40年,今天想跟大家分享一下這方面的思考,求教于諸位。人工智能發(fā)展到今天,無論是大語言模型、機器視覺,自動駕駛汽車,似乎基本上都到了一個頂端,那么,下一個突破口到底在哪里?
最近這段時間,不少投資界的朋友,無論是國內(nèi)的還是國外的,包括來自硅谷的,都到我家里來問我同一個問題:人工智能有沒有泡沫?我給出的回答是:有,而且是巨大的。因為從價值(valuation)來看,如今幾乎所有與人工智能相關(guān)的投資都是出于狂熱。但是也不要太悲觀,我給人工智能的泡沫下了一個定義——這是一個“真實的泡沫”。所謂“真實”,體現(xiàn)在幾個關(guān)鍵點:
第一,人工智能的突破是根本性的。從美國的曼哈頓計劃開始,到今天,可能還沒有任何一項科學(xué)技術(shù)能像人工智能這樣,取得如此巨大的突破,具有這么重大的影響力,這可能是人類歷史上的第一次,注意,我說的是根本性突破!
第二,智能從現(xiàn)在開始成為了商品,生產(chǎn)力的潛力是巨大的,會滲透到各行各業(yè),影響到千家萬戶,所有的行業(yè)都會發(fā)生變革,有著巨大的生產(chǎn)力提升空間。
第三,人工智能已經(jīng)形成了產(chǎn)業(yè)。這一點其實非常了不起,回顧互聯(lián)網(wǎng)早期的發(fā)展,產(chǎn)業(yè)化的過程并不順利。而今天,人工智能已經(jīng)形成了一個相當規(guī)模的產(chǎn)業(yè)體系。注意,形成產(chǎn)業(yè)后,事情是很難改變的,我是一輩子跟著產(chǎn)業(yè)走的,我喜歡給工業(yè)界做顧問,給很多著名企業(yè)都做過顧問。我的一個體會是:產(chǎn)業(yè)上來了以后,它會反過來引導(dǎo)你,甚至是不罷休的。舉個例子,今天所有的工業(yè)都用到的齒輪,有一天如果我說不用齒輪了,這件事情是做不到的,為什么?因為齒輪已經(jīng)形成了一個產(chǎn)業(yè)了,它有做齒輪的機器和產(chǎn)業(yè)在那里,這是一定會做下去的,不會罷休的。我們都知道漸開線齒輪不是最好的,我從學(xué)生時代就知道,到現(xiàn)在還改不了,因為產(chǎn)業(yè)已經(jīng)形成了。人們都關(guān)注科技對產(chǎn)業(yè)的影響,我想提醒大家產(chǎn)業(yè)對科技的影響也是巨大的。
第四,國家的戰(zhàn)略支撐,這是非常重要的??梢载撠?zé)任地說:未來人工智能的競爭,就是中美兩國之間的較量。去年這個時候,我還不能這么肯定地說這句話,現(xiàn)在可以說了,明年會更明顯。這意味著什么?兩個國家的情況跟幾個國家的情況是不一樣的,幾個國家是講競爭(competition),而兩個國家是講對峙(rival),一旦形成這種關(guān)系,就不會輕易停下來。
基于以上幾點,我的分析是:人工智能是一個真實的泡沫,發(fā)展前景非常之大。
那么我們先回顧一下現(xiàn)實世界中的人工智能到底發(fā)展到了哪一步,我們現(xiàn)在在哪里?目前的人工智能大概在五個領(lǐng)域:一是語言模型,包括語音、文本,所有與語言有關(guān)的東西;二是Transformer架構(gòu),就是注意力的分布(attention-based),它加強了語言的功能,當然也有很多功能。
三是擴散模型;四是圖像生成,圖像這件事情已經(jīng)做了很多年,但圖像的生成這兩年做得特別好;五是代碼,代碼是這幾年開始的,我個人的判斷是,到今年年底,自動生成上百行代碼會非常普遍,代碼生成會像語文課寫作文造句一樣,系統(tǒng)會自己衍生出來。至于其他方面的東西,有沒有太大的本質(zhì)性進步呢?我認為沒有。
如果把這些現(xiàn)狀放在一起看,人工智能今后應(yīng)該往哪里走?首先,我們要從“語言”過渡到“非語言”,一定要從“語言”這個框里走出去。除人類以外,世界上有“智能”的東西,你去看看,比如說鳥、兔子、蛇,它們有語言嗎?沒有。
其次,要從“計算”到“非計算”,“非計算”指的不是“沒有數(shù)字”,指的是除了“數(shù)據(jù)(data)”以外的東西,以及數(shù)據(jù)本身代表的“智能”程度?,F(xiàn)在都是圍繞著數(shù)據(jù)轉(zhuǎn)。正是在這個從“語言”走向“非語言”、從“計算”走向“非計算”的過程中,產(chǎn)生了“具身智能”。
什么叫具身智能?就是基于物理的、身體的,通過感知及與周邊的交互來進行學(xué)習(xí)和進化。比方說,你看到了我手在動,我的手是有感知的,是在與周邊交互的,如果你們不在的話,我會這么動嗎?這個過程就是具身智能。
具身智能的重點,首先是要有感知,沒有感知是不行的,人都是有感知的,像眼、耳、鼻、舌、身等等。語言只是感知的一個特殊的方面。其次是要有交互,比如說我看到你們在聽我的講演,通過聽、看、交流,形成一種互動。最后是要有學(xué)習(xí),這是人工智能當中最根本的、不能忘記的三點。
講到具身智能,現(xiàn)在很多人都認為是在講人型機器人,我想與大家講,這可能是誤區(qū)。人型機器人是從90年代開始的,當時日本的科學(xué)家搞得很歡,但其他國家的大部分科學(xué)家并不太認同,為什么?因為人類創(chuàng)造機器人的目的,本來就不是要造一個“完全代替人類”的存在。所謂“機器人”,只是“像機器一樣的人”或者“像人一樣的機器”,你可以說它不是人,但它又多少帶著一點人的特征。所以,人類造的機器人并不一定非得像個“人”,而只是具有人類(或非人類)的某些能力或特征的機器而已。
現(xiàn)在大家一窩蜂在做人型機器人,這其實不是唯一的路,我在硅谷還見過一家做“炒菜機器人”的創(chuàng)業(yè)公司:就是用一個機械臂拿著鏟子在鍋里翻炒。我當時看了只覺得很好笑——如果你只是想讓機器炒菜,為什么非得給它一只“手”,再讓它去拿一把“鏟子”?我們完全可以直接讓機器從底下把菜翻起來就好。人是因為做不到這樣翻菜,才發(fā)明了鏟子。所以,用機械臂握著鏟子炒菜,其實挺傻的。真正要做具身智能,要把人工智能帶入千家萬戶,需要另辟蹊徑,不能只盯著人形機器人這一條路。人形機器人做出來,大家看了會很開心,去上春晚,相關(guān)部門也會很開心。這是可以的,但用不著所有人都去做人形機器人。
做人工智能的目的到底是什么?40年前我們做人工智能、做機器人,我們的初心是這樣:首先,是為了讓人遠離危險。比如,當年我所在的地方有一家全球最大的核電站公司,核電站有故障,人是進不去的,因為太危險了,那能不能讓機器人進去修理呢?因此,第一是避免危險;第二是去完成那些超越人類極限的事情。我們?nèi)サ酵馓?,外太空環(huán)境可能是零下 250度,人類無法在那里生存,那機器人能不能去?這些都是“極限場景”的問題。另外,是為了擺脫重復(fù)勞動。我們?yōu)槭裁匆鞕C器人、為什么要發(fā)展人工智能?就是為了讓人從危險、極限、重復(fù)的工作中被解放出來,而不只是簡單地“造一個人來代替人”。
那么,人類是不是這個世界上做各種工作或活動都最厲害的動物呢?其實并不是。比如,在平坦的路上,我們?nèi)祟愖咭蛔哌€可以,但速度并不快,車就比我們快得多。我們也不會飛,人類想要飛行已經(jīng)折騰了兩千多年,但始終沒能讓自己飛起來?,F(xiàn)在的飛機其實也不是“會飛的鳥”,比鳥差遠了。鳥有兩只會拍動的翅膀,飛機的機翼卻動不了,只是做成一個類似鳥的形狀,中間挖個洞,把人裝進去而已。所以,在很多方面,人類其實并不如其他動物。
每天早上我都會在院子里散步,我很喜歡看鳥,觀察它們是怎么飛的,而鳥的飛行方式和昆蟲的飛行又完全不同;在海灘,我研究過螃蟹、龍蝦,兩者也有不同,它們適應(yīng)不同的海灘環(huán)境,在沙灘上,人爬得再快也比不過螃蟹;森林里面你看松鼠,爬樹爬得很好,我們做了很多“爬樹機器人”,但是比松鼠還是差一點。我們能不能把自然界的其他動物的“智能”學(xué)出來?
現(xiàn)在稍微講一下動態(tài)與靜態(tài),我個人其實更喜歡研究動態(tài)系統(tǒng),不過今天時間有限,就不詳細展開了。人類對“動態(tài)”這件事其實相對比較陌生,這也是具身智能的空白處,但動態(tài)本身有著非常有趣的智能。最簡單的例子就是自行車。假設(shè)你從來沒見過自行車,也不知道它是用來騎的,突然有人遞給你一輛車,告訴你這個東西可以騎,你第一反應(yīng)肯定是不相信:騎上去不是要摔倒嗎?但事實恰好相反——騎得越快,越不容易倒。這就是典型的“動態(tài)系統(tǒng)的平衡”。朋友們,靜態(tài)系統(tǒng)的智能和動態(tài)系統(tǒng)的智能,是完全不一樣的。在我們實驗室里,就有一些依靠動態(tài)平衡工作的機器人。
前面我們講了那么多具身智能、動物的智能,還有動態(tài)與靜態(tài)的智能,現(xiàn)在回到一個更根本的問題:人類最高層次的智能到底是什么?這個問題其實牽涉到教育的范式,也就是——我們究竟該如何教我們的孩子?在座的各位很多都有孩子,孩子在學(xué)校上學(xué),如果老師跟你說:“你家孩子很聰明?!?那這個“聰明”到底指的是什么?按照我自己的研究結(jié)論,大概是:75%是記憶,20%是理性,5%是表達。我曾經(jīng)分析過前五年的高考試卷,大致就是這么一個結(jié)構(gòu)。里面幾乎沒有“感性”、“想象”、“直覺”,以及“創(chuàng)造”的內(nèi)容。但恰恰在今天這個分享里,我要非常認真地說:人的最高智能,是直覺。我還是要強調(diào):如果人工智能不往“直覺”這個層次走下去,我看這出戲即使唱得下去,也是不精彩的。為什么這么說?接下來我舉兩個簡單的例子:
比如說打籃球。你去打球的時候,隊友把球傳過來,有些真正的高手,接球的一瞬間“啪”一下就出手投籃了。這個出手的決定是怎么做出來的?他會先算一算:前面防守的人有多高、阻力隊員多少、投進的概率是多少,然后再決定要不要投嗎?不會。這個過程不是理性的計算,也不是靠記憶,而是純粹憑直覺完成的。所有高階的東西,背后幾乎都是直覺在起作用。
再舉個例子。前兩天有一位已經(jīng)畢業(yè)的同學(xué)來我辦公室跟我說她快結(jié)婚了。我說:那恭喜你啊。她說:恭喜什么,家里吵得很厲害。
我問為什么?她說她的媽媽不喜歡她的男朋友,她把男朋友帶回家后,媽媽后來問她:“你說說看,這個男朋友到底好在哪里?”她自己也講不清楚,只好說:“他個子很高啊?!?/p>
媽媽就說:“我上次給你介紹的那個男孩,個子也很高啊?!焙髞韮蓚€人來來回回說了很多,反正她媽媽就是不滿意。
她最后問我:“校長,我媽媽說得對不對?”
我對她說:“你媽媽說的是對的。”
她臉一下就拉下來了,不說話了。我接著說:“但是,你選的男朋友也是對的?!?/p>
她馬上就不理解了:“這不可能啊。如果我媽媽是對的,那我選的男朋友就是錯的;如果我選的是對的,那我媽媽肯定就是錯的?!?/p>
我說:“不是這樣的。你媽媽說得 ‘對’,是指她是用理性、用邏輯在評判。而你在選男朋友的時候,是用直覺。你的直覺里當然也包含理性的成分,但不只限于理性,還有很多說不清道不明的東西。”
所以,朋友們,我們每個人在生活當中都會遇到以上這種類似情況:直覺在起決定性作用。這也是我為什么說,直覺其實是人類最高級別的智能。
“直覺” 這個說法未必是最準確的,英文里叫 intuition,或者 heuristics,里面其實包含了很強的 “經(jīng)驗” 成分。也正因為如此,我在學(xué)校里一直強調(diào) “實踐” 有多重要。在我看來,學(xué)習(xí)大致有四個階段:學(xué)、思、踐、悟。第一是 “學(xué)” ,中國學(xué)生這一點做得很好,都很勤奮;第二是 “思” ,也有不少同學(xué)在思考方面做得不錯。第三是 “踐” ,也就是親身去做、去實踐,這一環(huán)節(jié)在今天的教育里基本是缺失的。第四是 “悟” ,就更少見了——沒有實踐,光靠讀書不可能產(chǎn)生真正的領(lǐng)悟。所以, “學(xué)–思–踐–悟” 是一個完整的過程。在我們學(xué)校里,我一直強調(diào):要有經(jīng)驗,要有感覺,要有理智,要有情感,這些東西要放在一起,才構(gòu)成一種高維的智能。
那我們現(xiàn)在常說的“數(shù)據(jù)”是什么?本質(zhì)上,數(shù)據(jù)是降維之后記錄下來的結(jié)果。維度被壓縮了,所以一定是不完整的。用這些數(shù)據(jù)去做一些相對簡單的事情,在一定程度上是有效的,但問題也會隨之而來:算力需求越來越高,能源需求越來越高。現(xiàn)在很多地方政府在討論、爭搶的焦點,就是“算力”。算力從哪里來、有什么用?
以圍棋為例:假設(shè)你明天要和一位高手對弈,今晚要復(fù)盤一下,人復(fù)盤兩三盤棋就已經(jīng)很了不起了,AI一上來可以幫你復(fù)盤十盤。你會覺得:十盤當然比三盤好。如果是一百盤呢?那似乎更好;一千盤呢?好像更好了。照這個思路推下去,一萬盤、十萬盤是不是就更好?但如果你真正下過棋,你會在某個點上打斷這個邏輯——因為人知道什么時候該停,什么時間已經(jīng)是夠了,機器卻不知道在哪里停,這就是當下人工智能的一個根本問題,就是數(shù)據(jù)到底是否反映了真正的智能。
而對“降維后的數(shù)字”,我們必須保持警惕:哪怕有最多的數(shù)據(jù)、最強的算力,它們這些數(shù)字所代表的“智能”,是否是全域性的、是可靠的,這是一個大問號。換句話說,如果你向一群非?!氨俊钡娜藢W(xué)習(xí)——不管你學(xué)得多快、多好,這有意義嗎?我說得再不客氣一點,假如這群人本身就不可信,甚至全是在說謊,那你越認真向他們學(xué)習(xí),結(jié)果會怎樣?同樣的道理:在這樣的前提下,你數(shù)據(jù)越多、算力越強、學(xué)習(xí)越快,越可能是毫無意義的。
回顧歷史,世界上發(fā)生過的最重要的事件,起決定性作用的是什么?我個人比較喜歡看一些傳記、歷史書籍,從一個又一個案例里,你會發(fā)現(xiàn):很多關(guān)鍵時刻,尤其是在戰(zhàn)爭這類重大事件中,真正決定走向的,是領(lǐng)導(dǎo)的判斷力。那這種判斷力從哪里來?更多時候是來自直覺,而不是純粹的理性?;氐浆F(xiàn)代教育和社會,對“理性”的強調(diào)已經(jīng)到了有點“非理性”的程度了。所以有時候,孩子如果考試沒考好,不要罵他,他無非是在某些“理性”指標上表現(xiàn)一般而已,但在別的方面,可能非常出色。理性當然重要,但遠遠沒有我們今天想象得那么重要。
所以,回到人工智能本身:直覺是具身智能的下一個突破口。只有通過具身智能才可以達到直覺,只靠語言很難真正做到。想想我們?nèi)伺c人之間是怎么交流的。你們在座很多是領(lǐng)導(dǎo),可以今天就做一個小實驗:比如,你要跟一位員工談話,告訴他今年經(jīng)濟不太好,年終獎可能要低一點,大概會是多少。你認真跟他聊個十五分鐘,然后觀察一下對方的反應(yīng)。我的問題是:對方的反應(yīng)有多少是基于你說的“內(nèi)容”。統(tǒng)計的結(jié)果大約為30%,而剩下70%,跟“內(nèi)容”無關(guān)。你甚至可以再進一步驗證:用同樣的措辭、同樣的數(shù)字,讓另一個人去跟同一個員工講一遍,你會發(fā)現(xiàn)效果完全不一樣。那么,這70%是什么?就是我今天反復(fù)強調(diào)的那部分:直覺。你的態(tài)度、手勢、語氣、眼神、笑容,以及你們之間既有的關(guān)系基礎(chǔ),都影響了溝通的結(jié)果——它們都在我們今天所說的直覺里。
前面講了很多關(guān)于“直覺”和“具身智能”的討論,我今天想要真正分享的一個核心理念是:真正顛覆性的創(chuàng)新,永遠無法用過去的數(shù)據(jù)推算出來,創(chuàng)新是來自于高維的直覺,這也是具身智能的挑戰(zhàn)所在。
總結(jié)一下,人工智能的突破口在具身智能,具身智能的突破口在基于直覺的智能框架,如果這兩件事情做好了,人工智能就能所向無敵。講到這里,我想引用日本作家村上春樹的一段話,我特地把它放在了這一頁的 PPT 上:每個人都有屬于自己的一片森林,也許我們從來不曾去過,但它一直在那里,總會在那里。我們都在人生的密林里獨行,在交錯的小徑上尋找屬于自己的方向,那里有陽光——斑駁的溫暖,也有月光——清冷的寂靜。
我為什么要寫這段話?其實沒有什么目的,我只是想告訴大家:這個PPT不是人工智能做的,人工智能做PPT的話是絕對不會有這一頁出現(xiàn)的。把這段話寫在PPT里其實也是我的一種直覺。
要強調(diào)直覺,強調(diào)人,強調(diào)心,要把人還給時代,把心還給人。我們這個時代,把注意力都放在機器上了:機器視覺、機器智能、機器人、機器翻譯……所以機器越來越像人,人越來越像機器。同時,要把心還給人,我們的心已經(jīng)被手機拿走了,我們的靈魂已經(jīng)在手機那里了。而人工智能的未來,應(yīng)該在強調(diào)人性的基礎(chǔ)上來進行研究,這樣,才不至于迷路。
謝謝各位!
① 凡本站注明“稿件來源:教育在線”的所有文字、圖片和音視頻稿件,版權(quán)均屬本網(wǎng)所有,任何媒體、網(wǎng)站或個人未經(jīng)本網(wǎng)協(xié)議授權(quán)不得轉(zhuǎn)載、鏈接、轉(zhuǎn)貼或以其他方式復(fù)制發(fā)表。已經(jīng)本站協(xié)議授權(quán)的媒體、網(wǎng)站,在下載使用時必須注明“稿件來源:教育在線”,違者本站將依法追究責(zé)任。
② 本站注明稿件來源為其他媒體的文/圖等稿件均為轉(zhuǎn)載稿,本站轉(zhuǎn)載出于非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點或證實其內(nèi)容的真實性。如轉(zhuǎn)載稿涉及版權(quán)等問題,請作者在兩周內(nèi)速來電或來函聯(lián)系。




教育在線

