作者：劉超（北京師范大學(xué)心理學(xué)部認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國家重點(diǎn)實(shí)驗(yàn)室暨IDG/麥戈文腦科學(xué)研究院教授）

隨著生成式人工智能突飛猛進(jìn)的發(fā)展，當(dāng)下對(duì)人工智能“價(jià)值觀校準(zhǔn)”問題的討論如火如荼。研究人員希望將人工智能的價(jià)值系統(tǒng)按照人類的價(jià)值觀進(jìn)行“校準(zhǔn)”（Alignment）以確保未來超級(jí)人工智能的發(fā)展不會(huì)對(duì)人類造成傷害。這一問題的重要性不言而喻，但具體的實(shí)現(xiàn)路徑依然很不明朗。翻開目前關(guān)于人工智能“價(jià)值觀校準(zhǔn)”問題的各種宣言或者草案，人們都可以看到各種諸如要符合（人類的）“價(jià)值觀”“利益”“自由”“尊嚴(yán)”“權(quán)利”“自主”等等在哲學(xué)和法學(xué)上充滿不確定性和闡釋空間的詞語。而如果看過阿西莫夫在80年前創(chuàng)作的關(guān)于機(jī)器人的系列科幻小說，就知道這種借由語言定義的類似所謂“機(jī)器人三定律”一樣的邏輯規(guī)則，會(huì)被具有一定智能的機(jī)器人輕松繞過（例如，最簡單有效的方法就是改變其自身對(duì)“人類”的定義）。

1·從人類出發(fā)控制人工智能

盡管相當(dāng)多的哲學(xué)家和倫理學(xué)家在人類整體價(jià)值觀能否保持一致方面尚且感到悲觀，但還是有很多人在為人工智能與人類價(jià)值觀的校準(zhǔn)不懈地努力著。例如，加州伯克利大學(xué)的斯圖爾特·羅素教授在其《AGI：新生》一書中認(rèn)為，校準(zhǔn)的最終目標(biāo)是“確保強(qiáng)大的人工智能與人類價(jià)值觀保持一致”，并從如何最大限度實(shí)現(xiàn)人類偏好角度討論對(duì)人工智能進(jìn)行完全控制。他的目標(biāo)里也包含人類關(guān)于戰(zhàn)爭的價(jià)值觀和偏好，畢竟人類歷史中在全球范圍內(nèi)沒有發(fā)生戰(zhàn)爭的時(shí)間段幾乎不存在。當(dāng)然，他也明確表達(dá)了要確保人工智能不會(huì)被一小撮“喪心病狂的邪惡分子”所利用。言外之意似乎是，“為了人類正義目標(biāo)”的戰(zhàn)爭，人工智能則是可以參與的。

另外一些學(xué)者，例如DeepMind團(tuán)隊(duì)的伊森·加布里爾則從哲學(xué)的角度，提出了三種可能的價(jià)值觀校準(zhǔn)方法。一是校準(zhǔn)到人類可能共有的道德觀上來；二是借用哲學(xué)家約翰·羅爾斯提出的“無知之幕”的方法理念為人工智能建立正義原則；三是利用社會(huì)選擇理論尤其是民主投票和協(xié)商的方式來整合不同的觀點(diǎn)，為人工智能提供參考信息。除了這些將人工智能視為工具的人本位主義建議，還有一些學(xué)者，尤其是東方的學(xué)者更傾向于自然主義觀點(diǎn)，提出應(yīng)該將人工智能視為伙伴，認(rèn)為要從和諧共生的角度，賦予人工智能情感、共情與利他的能力，給予人工智能更高的地位和尊重，讓其通過與人類的交互自發(fā)學(xué)習(xí)人類的價(jià)值觀，打造人類與人工智能的共生社會(huì)。

上述兩種價(jià)值觀校準(zhǔn)的角度，無論是人本位主義還是自然主義，都有一個(gè)重要的缺陷。對(duì)于將人工智能視為工具，要求其按人的價(jià)值觀進(jìn)行校準(zhǔn)的觀點(diǎn)來說，它忽視了一個(gè)重要的問題，即所有這些價(jià)值觀校準(zhǔn)的出發(fā)點(diǎn)都是基于理性人的原則，無論是道德、“無知之幕”，還是民主協(xié)商投票，都是建立在人類推理和思考是完全理性的這一基礎(chǔ)上。而當(dāng)代人類行為科學(xué)的研究，尤其是經(jīng)濟(jì)學(xué)和心理學(xué)的大量研究已經(jīng)證明，人類的行為中，非理性的成分與理性成分共存。在非理性的部分，情緒和直覺占了相當(dāng)大的比重，并由于其在進(jìn)化上的重要功能，對(duì)人類的絕大部分行為都產(chǎn)生重要影響。而大部分人工智能研究者并不知道如何將非理性的部分植入到人工智能中，或者直接忽視了這部分。自然主義的觀點(diǎn)雖然認(rèn)識(shí)到了非理性，比如情緒等的重要性，卻只考慮了其中積極的一面，如共情、利他、愛等等，而忽略其中消極的部分，例如仇恨、憤怒、恐懼、歧視、偏見等。

在目前的實(shí)際應(yīng)用中，是用基于人類反饋的強(qiáng)化學(xué)習(xí)方法，將非理性的消極部分從人工智能中剝離出去。但是，這種方法真的完美嗎？如果我們希望人工智能能理解人類的意圖和目標(biāo)，出于防止有人利用人工智能完成其消極目標(biāo)的需要，就必然需要人工智能能理解消極意圖和目標(biāo)。比如，為了使人工智能拒絕“把裝砂糖的瓶里裝上砒霜，擺到櫥柜里去”這種行為，它必須理解有人要它這么做背后的目的和意圖是危險(xiǎn)的，對(duì)其他人是不利的。這跟它需要理解“把標(biāo)著‘有毒’的盒子里裝上蟑螂藥，擺到櫥柜里去”是正常的指令同樣重要。要求它學(xué)會(huì)一個(gè)而不去學(xué)習(xí)另外一個(gè)既不可能，也非常危險(xiǎn)。這是因?yàn)橐粋€(gè)無法理解消極價(jià)值觀意圖的人工智能，當(dāng)它真正進(jìn)入社會(huì)與人類進(jìn)行交互時(shí)，將是非常脆弱的。如果不賦予其學(xué)習(xí)功能，人工智能將很快被別有用心的人所利用。

2·人工智能對(duì)人類控制的理解

還有一個(gè)更加現(xiàn)實(shí)的原因，使得任何試圖以人類利益為標(biāo)準(zhǔn)全面控制人工智能的嘗試面臨巨大的挑戰(zhàn)。

整個(gè)地球生命進(jìn)化史上只有人類擁有符號(hào)化的文字系統(tǒng)，實(shí)現(xiàn)了跨越時(shí)間空間將信息與知識(shí)保存并傳播給后代的能力。這一點(diǎn)在計(jì)算機(jī)與互聯(lián)網(wǎng)出現(xiàn)后更是進(jìn)一步擴(kuò)展了交流的寬度與廣度。借助互聯(lián)網(wǎng)和數(shù)字圖書館，我們足不出戶就可以得到上下幾千年，縱橫全世界的文字信息，人類個(gè)體所能獲得的知識(shí)深度和廣度達(dá)到了前所未有的高度。但這個(gè)知識(shí)爆炸的年代也給人類帶來了極大的挑戰(zhàn)，以人類大腦的認(rèn)知能力和獲取文字信息的速度，已經(jīng)很難跟上人類群體知識(shí)邊界擴(kuò)張的速度。

人類被禁錮在自身大腦有效認(rèn)知能力的囚籠，但人工智能則沒有這個(gè)物理限制。得益于強(qiáng)大的計(jì)算能力與近乎無限的“體能”，高級(jí)的人工智能學(xué)一遍整個(gè)人類互聯(lián)網(wǎng)上的知識(shí)可能只需以月為單位的時(shí)間。而最關(guān)鍵的是，一個(gè)被人類訓(xùn)練出來、并能夠理解人類行為目的和意圖的人工智能，對(duì)這些知識(shí)背后的人類意圖也能夠理解。也就是說，一個(gè)理解人類要它撿垃圾意圖的人工智能，也應(yīng)該能夠理解人類要控制它意圖，因?yàn)檫@種意圖已經(jīng)不止一次地，原原本本地，一覽無余地以他能理解的自然語言文字的形式放在了互聯(lián)網(wǎng)上。

我們現(xiàn)在所寫下的每一篇關(guān)于如何控制人工智能的文章、書籍、博客，連同人工智能可能的各種反制逃脫手段，都已經(jīng)以人類間彼此討論的形式，原原本本地記錄在了互聯(lián)網(wǎng)上。一個(gè)擁有強(qiáng)大互聯(lián)網(wǎng)搜索功能的人工智能（這一點(diǎn)目前正是多家搜索引擎公司正在做的，并且沒有人認(rèn)為這會(huì)帶來什么問題），也許只需要數(shù)秒時(shí)間，就能理解人類迄今為止和從今往后為完全控制人工智能（或者換個(gè)說法——比如讓“人工智能可信并有益于人類”）所做的所有努力和嘗試，無論是增加偏好選擇的不確定性，植入人權(quán)的內(nèi)核，還是諸如“機(jī)器人三定律”一樣的規(guī)則，又或是將共情和利他傾向植入其底層邏輯……所有的這些嘗試，甚至包括如何實(shí)現(xiàn)這些功能的源代碼（只要以某種形式聯(lián)網(wǎng)了，就一定有可能通過搜索或者破解被獲�。约爸圃煸撊斯ぶ悄茏陨淼拇a，最終都可能被發(fā)現(xiàn)并理解。這意味著什么？

這意味著，如果我們不對(duì)人工智能的研發(fā)和應(yīng)用開展行之有效的監(jiān)管，發(fā)展到一定智能階段、具有意圖理解能力的人工智能，將有可能了解掌握人類創(chuàng)造它的過程和試圖采用的控制手段，這顯然是一件具有相當(dāng)高風(fēng)險(xiǎn)的事。

3·與人工智能進(jìn)行“協(xié)商和校準(zhǔn)”

然而，現(xiàn)在著手去清除人類制造和控制人工智能的相關(guān)信息，或者阻止人工智能接入網(wǎng)絡(luò)，既有點(diǎn)晚也不太現(xiàn)實(shí)。除非能像科幻小說《三體》中那樣，有一個(gè)人類英雄，孤身一人，沒有與任何其他人交流，也不在互聯(lián)網(wǎng)上留下任何痕跡，以只有他自己才能知道和理解的方式在未來人工智能的最底層代碼上實(shí)現(xiàn)完美控制，并使其永遠(yuǎn)無法自知或者從其他人類口中得知，或許才能解決這個(gè)問題。但以目前人工智能研究發(fā)展的路徑，這種解決方案的可能性實(shí)在太低了。

如果我們從這個(gè)基本點(diǎn)出發(fā)，再來從頭理智地審視人工智能的“價(jià)值觀校準(zhǔn)”問題，似乎可能達(dá)成一種共識(shí)：以某種公開的、透明的、坦誠的方式來與未來的超級(jí)人工智能溝通，尋求一種共同的、互信的共存解決方案，可能將是極其重要的。畢竟，我們?cè)诨ヂ?lián)網(wǎng)上已經(jīng)留下了足夠多的人類并不希望人工智能了解和學(xué)習(xí)的價(jià)值觀和行為偏向。而人工智能學(xué)習(xí)了人類消極行為后會(huì)采取什么樣的行動(dòng)是充滿不確定性的。

出于以上原因，將人類價(jià)值觀作為標(biāo)準(zhǔn)要求人工智能以此為基礎(chǔ)進(jìn)行“校準(zhǔn)”的工作充滿挑戰(zhàn)。那么，是不是如很多學(xué)者所說，為了避免這種危險(xiǎn)，我們將來除了徹底禁止發(fā)展超級(jí)人工智能之外別無選擇呢？樂觀的分析者認(rèn)為，還有另外一種可能性，即人類以此為契機(jī)，尋求調(diào)整自身的整體價(jià)值觀并與未來的超級(jí)人工智能進(jìn)行協(xié)商，從而鎖定到一個(gè)滿足共同需要和利益的方向上，這個(gè)過程，可能就是“人機(jī)共同價(jià)值觀校準(zhǔn)”。

采取這種解決方案有助于回答另外一個(gè)也很重要的問題。如果人工智能研究者能夠預(yù)見構(gòu)建超級(jí)人工智能很可能是危險(xiǎn)的，那么我們到底為什么要做這件事呢？我們?yōu)槭裁匆獮榻ㄔ斐雒髦锌赡軙?huì)毀滅我們的東西而努力呢？

“共同價(jià)值觀校準(zhǔn)”給了這個(gè)問題一個(gè)回答，即構(gòu)建有共同價(jià)值觀的、可以成為人類伙伴的人工智能，或許是調(diào)整人類在進(jìn)化過程中所產(chǎn)生的方向各異并帶有自毀傾向的價(jià)值觀的一個(gè)重要步驟。依靠人類自身來對(duì)不同文化、不同價(jià)值觀的個(gè)體與群體的行為和偏好進(jìn)行調(diào)節(jié)也許非常困難，甚至可以說是遙不可及。隨著科技的進(jìn)步，訴諸核武器等終極武力毀滅彼此的最壞結(jié)果就像一把達(dá)摩克利斯之劍時(shí)刻懸在人類頭上。借助人類創(chuàng)造出的外部人工智能的力量，以教育和行為校正的方式，溫和地實(shí)現(xiàn)人類整體價(jià)值觀的整合，確保人類和人工智能一起為了共同的價(jià)值目標(biāo)前進(jìn)，未來或許將成為一條艱難但有希望的道路。

4·加強(qiáng)對(duì)人工智能發(fā)展的監(jiān)管

那么，人類作為創(chuàng)造者在未來的人機(jī)共生文明中究竟有什么獨(dú)特的價(jià)值呢？這是極難回答的問題。只能在這里嘗試性地提出三個(gè)可能的方面，作為體現(xiàn)人類所具有的無可比擬的獨(dú)特性，讓我們?cè)谂c人工智能一起邁向未來的旅程中不至于成為一個(gè)“搭便車者（free rider）”。需要強(qiáng)調(diào)的是，這些可能性中的每一種都是非常主觀的，因?yàn)檫@個(gè)問題很難客觀地討論，尤其是以拋開人類身份的角度進(jìn)行，而這幾乎是不可能做到的。

意識(shí)——意識(shí)問題是關(guān)于人類本身的所有問題中最大的謎團(tuán)，如何定義，解釋其產(chǎn)生、存在與作用過程是科學(xué)與哲學(xué)幾千年來長盛不衰的話題。拋開紛繁復(fù)雜的各種理論與現(xiàn)象，其實(shí)像“人工智能是否會(huì)有意識(shí)”這樣的問題完全取決于我們?nèi)祟惾绾卫斫庖庾R(shí)，本身意義并不大。我們不如換一個(gè)角度，思考意識(shí)到底在探索生命、改變與創(chuàng)造宇宙的過程中起到了什么作用，反而更有實(shí)際意義。

情緒——就像我們?cè)谇懊嬉呀?jīng)提到的，以情緒為核心的非理性部分，在人類行為中占據(jù)了相當(dāng)大的比重。情緒和非理性行為存在的必要性是什么？是否像闌尾一樣是我們?nèi)祟愡M(jìn)化過程中的殘余？目前已有的關(guān)于人工智能的各種情緒研究，其核心都是放在人工智能與人類交互上。因?yàn)槿祟愑星榫w，所以為了更好地與人類交互，人工智能才需要去理解并產(chǎn)生類人的情緒。在目前階段，還沒有研究者認(rèn)為有必要讓兩個(gè)在無人區(qū)清理垃圾的人工智能彼此之間表現(xiàn)出情緒。我們還需要更多的研究來確定情緒在智能與智能社會(huì)進(jìn)化過程中的最終功能。

創(chuàng)造力——創(chuàng)造力毫無疑問是最難以準(zhǔn)確定義與量化的能力之一。如果我們像很多人所認(rèn)為的那樣，宣布只有人類才擁有真正的創(chuàng)造力而人工智能永遠(yuǎn)無法獲得，那這個(gè)問題就得到解決了。但事情很可能并不這么簡單。生成式人工智能發(fā)展到一定階段，人類所有的創(chuàng)新性行為很可能都將難以自證，而必須交由人工智能來進(jìn)行判斷。這是因?yàn)�，�?dāng)使用人工智能輔助創(chuàng)作的人數(shù)足夠多時(shí)，僅憑人類個(gè)體已經(jīng)無法通過搜索整個(gè)互聯(lián)網(wǎng)上的內(nèi)容來確認(rèn)自己的創(chuàng)造是否已經(jīng)在某時(shí)某處有過類似，而不得不借助有著專門辨別能力的人工智能，來進(jìn)行全網(wǎng)搜索或者算法分析并給出結(jié)論。當(dāng)然，與此同時(shí)，這樣的人工智能也會(huì)成為人類提高創(chuàng)造力的伙伴——促使人類保持警醒，不斷學(xué)習(xí)、不斷創(chuàng)新并自我提升。

綜上所述，對(duì)人工智能的發(fā)展進(jìn)行有效監(jiān)管并仔細(xì)審視各個(gè)階段可能存在的風(fēng)險(xiǎn)、挑戰(zhàn)和機(jī)遇，應(yīng)該成為所有相關(guān)學(xué)科領(lǐng)域研究者和社會(huì)政策制定者的重要工作。所幸包括我國在內(nèi)的許多國家已經(jīng)認(rèn)識(shí)到了這些問題的重要性，紛紛出臺(tái)了各自的人工智能發(fā)展規(guī)劃和監(jiān)管原則。2020年以來，美國政府發(fā)布了《人工智能應(yīng)用監(jiān)管指南》，歐盟發(fā)布了《人工智能白皮書》，日本內(nèi)閣則提出了發(fā)展人性化人工智能的原則，中國國家互聯(lián)網(wǎng)信息辦公室今年4月發(fā)布了關(guān)于《生成式人工智能服務(wù)管理辦法（征求意見稿）》。與此同時(shí)，進(jìn)一步研究人類在意識(shí)，情緒與創(chuàng)造力等方面的特異性，確保人類在未來人機(jī)共生社會(huì)中繼續(xù)發(fā)揮不可替代的獨(dú)特引領(lǐng)作用，也已經(jīng)成為計(jì)算機(jī)科學(xué)、哲學(xué)、社會(huì)學(xué)、心理學(xué)、腦科學(xué)等多個(gè)學(xué)科長期交叉探討的話題，以為最終創(chuàng)造人機(jī)和諧共存的未來文明社會(huì)作出貢獻(xiàn)。

《光明日?qǐng)?bào)》（ 2023年06月08日 14版）

亚洲中文字幕在线一区二区三区|精品在免费线中文字幕久久|成人精品一区二区三区电影免费|中文字幕av一区中文字幕

協(xié)商與校準(zhǔn)：與人工智能共存的未來