原標題：中文大模型讓AI更“接地氣”

目前成熟的生成式AI模型大多基于英文數(shù)據(jù)進行訓(xùn)練，在國內(nèi)各行各業(yè)的應(yīng)用環(huán)境中，中文大模型顯然更“接地氣”。通過中文或英文數(shù)據(jù)訓(xùn)練出來的大模型，差異比較大，中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖，因此對于國內(nèi)用戶來說，用中文去訓(xùn)練的大模型比較適用。

“請訊飛星火認知大模型模仿梁曉聲先生筆下的小說《人世間》的風(fēng)格，續(xù)寫一小段文章。”5月20日，在第七屆世界智能大會閉幕式上，主持人蔣昌建向訊飛星火認知大模型發(fā)問。短短幾秒鐘，續(xù)寫文字便“躍然紙上”。原作者梁曉聲認為，續(xù)寫內(nèi)容簡練、文字有一定溫度，從傳達的情感和思想來看幾乎“無可挑剔”。

在本次世界智能大會上，生成式人工智能毫無疑問成為大家關(guān)注的焦點。近期，國內(nèi)各大廠商紛紛加快開展生成式AI核心技術(shù)的研發(fā)，無論是訊飛星火認知大模型展現(xiàn)出的雄厚“中文功底”，還是國家超級計算天津中心發(fā)布的基于國產(chǎn)天河超級算力、智能算力和匯集構(gòu)建中文大數(shù)據(jù)集研發(fā)訓(xùn)練的天河天元大模型，都讓大眾對我國自主研發(fā)的中文生成式AI大模型充滿期待。

開發(fā)適合國人的中文大模型

“AI大模型是基于海量多源數(shù)據(jù)打造的預(yù)訓(xùn)練模型，是對原有算法模型的技術(shù)升級和產(chǎn)品迭代。”國家超級計算天津中心數(shù)據(jù)智能部部長康波介紹，預(yù)訓(xùn)練大模型在基于海量數(shù)據(jù)的自監(jiān)督學(xué)習(xí)階段完成了“通識”教育，再借助“預(yù)訓(xùn)練+精調(diào)”等模式，在共享參數(shù)的情況下，根據(jù)具體應(yīng)用場景的特性，用少量數(shù)據(jù)進行相應(yīng)微調(diào)，即可高水平完成任務(wù)。

AI大模型能夠理解人類的自然語言表達，并通過龐大的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)具有針對性的內(nèi)容輸出。

從效果上看，生成式AI表現(xiàn)為“無所不知、無所不能”，其具備了邏輯推理、上下文理解、文字創(chuàng)作、知識提取、代碼生成等非常多元化的強大能力。

不過，目前成熟的生成式AI大模型大多基于英文數(shù)據(jù)進行訓(xùn)練。“通過中文或英文數(shù)據(jù)訓(xùn)練出來的大模型，差異還是比較大的，中文的上下文理解和語義的多解性要大于英文。大模型首先要理解人類意圖，因此對于國內(nèi)用戶來說，用中文去訓(xùn)練的大模型比較適用。”康波說。

此外，生成式AI正一步步向生產(chǎn)工具方向發(fā)展，為產(chǎn)業(yè)深度賦能，或?qū)⒊蔀槿斯ぶ悄芘c實體經(jīng)濟深度融合的重要力量。那么作為數(shù)據(jù)驅(qū)動的AI大模型，其訓(xùn)練數(shù)據(jù)來源的可靠性和安全性，便成為推動科技創(chuàng)新的關(guān)鍵。因此，自主研發(fā)中文大模型成為越來越多科技巨頭的首要選擇。

三月以來，國內(nèi)大模型領(lǐng)域已進入“混戰(zhàn)”模式，各路玩家紛紛入局，其中有不少都“相中”了研發(fā)中文大模型。

“搶抓通用人工智能的發(fā)展機遇有幾個基本要素。”科大訊飛董事長劉慶峰認為，第一，必須要在自主可控的平臺上；第二，必須要同時做中文和英文，不只學(xué)習(xí)中國的“智慧”，還要向世界學(xué)習(xí)；第三，在“硬碰硬”的科技對比上，不僅要學(xué)習(xí)，還要想辦法趕超。

例如，阿里推出了首個中文AI模型社區(qū)，社區(qū)首批上架超300個模型，其中中文模型超過100個，覆蓋了視覺、語音、自然語言處理、多模態(tài)等AI主要領(lǐng)域，覆蓋主流任務(wù)超過60個，且均全面開源并開放使用。360公司推出的“360智腦”背后的360GPT大模型，在海量的中文文本數(shù)據(jù)上進行了預(yù)訓(xùn)練和微調(diào)，從而具備了強大的語言理解和生成能力。據(jù)悉，該模型目前已經(jīng)達到了100億參數(shù)規(guī)模，并且還在不斷擴展中。

中文大語言模型數(shù)據(jù)集稀缺

生成式人工智能是人工智能發(fā)展到一定階段的產(chǎn)物。就像ImageNet數(shù)據(jù)集推動了殘差網(wǎng)絡(luò)等計算機視覺算法的成熟，openslr等開源數(shù)據(jù)集的發(fā)布催生了長短期記憶神經(jīng)網(wǎng)絡(luò)等自然語言神經(jīng)網(wǎng)絡(luò)的發(fā)展，圖形處理器的大量使用使得模型參數(shù)從百萬級發(fā)展到千億級（ChatGPT使用了上萬塊A100顯卡開展訓(xùn)練）�？梢钥闯�，生成式人工智能的快速成長，離不開算力和數(shù)據(jù)的支撐。

“大模型是大數(shù)據(jù)、大算力驅(qū)動的結(jié)果，兩者缺一不可。”超級計算天津中心首席科學(xué)家孟祥飛博士強調(diào)。

一方面，中文大模型的理解能力來自于數(shù)據(jù)，它需要用海量數(shù)據(jù)來學(xué)習(xí)，通過自注意力和多頭注意力機制來建立知識之間的聯(lián)系。這就意味著，更多、更高質(zhì)量的數(shù)據(jù)供給，將會帶來模型網(wǎng)絡(luò)中知識之間關(guān)系的完善性和貫通性。當(dāng)用戶提問到深層次或者冷門問題時，數(shù)據(jù)質(zhì)量越高，AI大模型回答出正確答案的概率就越大。

“但目前中文大語言模型的數(shù)據(jù)集非常稀缺。”孟祥飛介紹，為了解決這個問題，天津超算中心搜集整理了全域的網(wǎng)頁數(shù)據(jù)，并從中提取處理高質(zhì)量的中文數(shù)據(jù)做成數(shù)據(jù)集，同時采集納入各種開源訓(xùn)練數(shù)據(jù)、中文小說數(shù)據(jù)、古文數(shù)據(jù)、百科數(shù)據(jù)、新聞數(shù)據(jù)以及專業(yè)領(lǐng)域的諸如醫(yī)學(xué)、法律等多種數(shù)據(jù)集，訓(xùn)練數(shù)據(jù)集總token數(shù)達到3500億，訓(xùn)練打造了中文語言大模型——天河天元大模型。

另一方面，算力的供應(yīng)是大模型的基礎(chǔ)保障。大模型發(fā)端于自然語言處理領(lǐng)域，以谷歌的BERT、Open AI的ChatGPT和百度文心一言等大模型為代表，參數(shù)規(guī)模逐步提升至千億、萬億，同時用于訓(xùn)練的數(shù)據(jù)量級也顯著提升，帶來了模型能力的提高，這也代表著算力需求的指數(shù)級上升。

“而超級計算可以說是算力中的戰(zhàn)斗機。”孟祥飛說，為了保證大模型的訓(xùn)練順利，天津超算中心充分利用了天河新一代超級計算機的雙精度、單精度、半精度融合計算輸出能力，構(gòu)建基于自主E級算力體系架構(gòu)的智能計算引擎，建設(shè)人工智能大規(guī)模訓(xùn)練與應(yīng)用系統(tǒng)支撐環(huán)境，特別是在中文處理方面構(gòu)建了中文大模型數(shù)據(jù)處理的工作流技術(shù)體系，從而保障了訓(xùn)練任務(wù)的順利開展。

技術(shù)成果廣泛應(yīng)用于多領(lǐng)域

在此次世界智能大會上，隨著訊飛星火認知大模型一起展示的還有多款搭載了大模型的行業(yè)應(yīng)用成果。

康波認為，人工智能是驅(qū)動新一輪科技革命和產(chǎn)業(yè)變革的巨大力量，應(yīng)將大模型作為產(chǎn)業(yè)智能化升級的基座，用專業(yè)數(shù)據(jù)集打造更貼合行業(yè)領(lǐng)域的智能化高水平“專家”。

以訊飛星火認知大模型為例，該大模型的整體布局為“1+N”體系。其中“1”是指通用認知智能大模型，“N”就是大模型在教育、辦公、汽車、人機交互等各個領(lǐng)域的應(yīng)用。例如在教育領(lǐng)域，作為全球首款搭載認知大模型的學(xué)習(xí)機，科大訊飛推出的學(xué)習(xí)機可像真人教師一樣與3歲至18歲的學(xué)生進行互動式輔學(xué)；在辦公領(lǐng)域，基于大模型能力升級的產(chǎn)品具備語篇規(guī)整、會議紀要、一鍵成稿等功能。

康波認為，在各行各業(yè)的應(yīng)用中，中文大模型顯然更“接地氣”。他舉例說，天津超算中心綜合實現(xiàn)了文本、語音、視頻等多模態(tài)的大模型生成能力，從而形成了“一平臺三能力”的基礎(chǔ)架構(gòu)，實現(xiàn)了更廣泛的產(chǎn)業(yè)融合能力。基于其自然語言的理解和表達能力，與醫(yī)療結(jié)合，學(xué)習(xí)醫(yī)學(xué)指南等專業(yè)規(guī)范，可以迅速地掌握對應(yīng)的專業(yè)知識。其中，中文大模型可以解決“同詞不同義”在醫(yī)療上的歧義性，實現(xiàn)精準的輸出，為醫(yī)療輔助診斷提供更為全面的支撐能力。

同樣，在工業(yè)檢測和流程控制方面，大模型基于多元化輸出能力，可以進行規(guī)范輔導(dǎo)、缺陷檢測、流程指令生成一系列操作，降低錯誤率，提升生產(chǎn)效率。其中，中文大模型可以更好地理解復(fù)雜的專業(yè)術(shù)語以及流程指令邏輯，讓輸出更準確、嚴謹。

“在大模型通用性、泛化性以及降低人工智能應(yīng)用門檻的優(yōu)勢推動下，人工智能也將會加快落地，形成新的機遇。”康波表示。

亚洲中文字幕在线一区二区三区|精品在免费线中文字幕久久|成人精品一区二区三区电影免费|中文字幕av一区中文字幕

中文大模型讓AI更“接地氣”