ChatGPT 的運行模式、關鍵技術及未來圖景
摘 要:美國人工智能實驗室OpenAI 開發的人工智能聊天機器人應用ChatGPT 引發廣泛熱議,被認為是繼 互聯網、智能手機之后,帶給人類的第三次革命性產品;ヂ摼W開辟了“空間革命”,智能手機的出現帶來“時間革命”,ChatGPT 的橫空出世有望形成“思維革命”,通過替代人類進行創作、創意、解答、咨詢、翻譯和客服等改變人類思考和處理問題的方式方法,由此重塑各行業生態乃至整個世界。
關鍵詞:ChatGPT;運行模式;關鍵技術;未來圖景
作者簡介:朱光輝,北京理工大學人文與社會科學學院研究員;王喜文,北京華夏工聯網智能技術研究院院長,高級工程師。
觀點提要
ChatGPT 的強大功能主要源自隱藏其背后的“巨無霸”模型——LLM。第一,這一 LLM 模型的規模必然是巨大的,有能力開發出該模型或改動該模型參數的機構較少。第二, LLM 應具備強大的自主學習能力。
ChatGPT要取得令人驚艷的效果,其背后強大的推理能力必不可少。推理能力的本質是綜合運用較多相關知識點,推導出新知識 或新結論。當模型規模足夠大時,LLM 本身就具備相應的推理能力。
ChatGPT 背后的關鍵技術離不開大模型算法、大數據和大算力。
學術界普遍認為,ChatGPT 的未來應用場景充滿無限可能。從社交媒體到廣告創意,從游戲到影視娛樂,從編程到深度寫稿,從平面設計到 產品工業設計,從文字翻譯到外事同聲傳譯等, 每個原本需要人類創作的行業都等待被 ChatGPT 顛覆性重塑。
ChatGPT 被濫用的問題愈發明顯,最常見的是作弊問題。
政策建議:一是引導企業融入 ChatGPT 浪潮。二是推動 ChatGPT 技術融入元宇宙產業布局。 三是促進 ChatGPT 技術融入數字人( Digital Human/Meta Human) 功能。四是重視ChatGPT 隱患,將其納入社會科學研究課題。
埃龍 ·馬斯克稱 ChatGPT將顛覆世界;微軟公司以數百億美元投資 ChatGPT,并計劃將其整合到微軟的 Office 辦公軟件和 Bing 搜索引擎之中;部 分高校和學術機構開展了關于用ChatGPT 寫論文 是否合規的大討論;還有部分咨詢公司開始擔憂是否會被其替代。2023 年,ChatGPT 的應用熱情被 點燃,應用場景不斷快速拓展。
一、ChatGPT 的運行模式
2022 年 11 月上線的ChatGPT 是由美國人工 智能實驗室 OpenAI 開發的人工智能聊天機器人應用,上線不到一周用戶就突破 100 萬,兩個月時間 吸引活躍用戶過億,打破了抖音 9 個月吸引用戶過 億的記錄,成為歷史上用戶增長速度最快的應用程序。
回顧 ChatGPT 的發展歷程可知,OpenAI自GPT 1.0 開始,就將大型語言模型( LLM,Large Language Model)視為通往通用人工智能(AGI,Artificial general intelligence)的必由之路。具體而言,在 OpenAI 看來,未來的 AGI 應擁有一個與任務無關的超大型 LLM,可以從海量的數據中學習各種知識,LLM 以生成一切的方式解決各種各樣的實際問題。除此之外,AGI 能夠聽懂人類的命令,便于人類使用。
(一)幕后:大型語言模型
ChatGPT 的“無比強大”的能力主要得益于其依托的大型語言模型。盡管 ChatGPT 加入人工標 注數據,但量級只有數萬,這一規模的數據量和訓練與 GPT-3.5 模型使用的幾千億級別的數據量相比 幾乎可以忽略不計,基本不會對提升 GPT-3.5 的 基礎能力發揮作用。因此,ChatGPT 的強大功能主要源自隱藏其背后的“巨無霸”模型——LLM。
對于LLM 的發展理念,可以將其理解為“構建一個任務無關的超大型 LLM,讓它從海量數據中學習各種知識”。圖1展示了大型語言模型LLM。第一,這一LLM 模型的規模必然是巨大的,有能力開發出該模型或改動該模型參數的機構較少。對于任務需求方而言,無論是無數的中小機構還是個人,即使有能力把大型語言模型開源 出來,也無力部署這一模型,更遑論用微調( Fine- tuning)技術模式修改模型參數。因此,追求不修正模型參數,即能讓任務需求方順利完成任務的方 式,應該采取提示詞(Prompt)模式完成任務,而 非微調模式。模型制作方將 LLM 作為公用基礎設施服務,以基礎設施即服務( IaaS,Infrastructure as a Service)的模式運行。與此同時,作為服務提供方,要考慮千變萬化的用戶需求,LLM 模型開發 方追求讓 LLM 完成盡可能多類型的任務,這成為大型語言模型追求走向通用人工智能的現實因素。
第二, LLM 應具備強大的自主學習能力。假設人類向其灌輸世界上所有能夠獲得的文本或圖片 等不同類型的數據,LLM 應自動學習其中蘊含的知識點,學習過程無需人的介入就能靈活應用所學 知識解決實際問題。數據是海量的,要吸收所有知 識,就需要足夠多的模型參數存儲知識,因此,這一模型必然會是“巨無霸”式的模型。
ChatGPT是否向GPT- 3.5 模型注入新知識? 答案是注入了,這些知識包含在揭秘 ChatGPT 時提到的“幾萬人工標注”的數據中,但注入的不是世界知識,而是人類偏好知識。所謂“人類偏好”,包含兩方面含義。一是人類表達任務的習慣說法。例如,人們習慣性表達:“把下面句子翻譯成日語”,以此表達機器翻譯的需求,但 LLM 并 非人類,它如何理解這句話的含義?人類要想辦 法讓LLM 理解這句命令的含義,并正確執行。因此, ChatGPT 通過人工標注數據的方式向 GPT- 3.5 注入這類知識,方便 LLM 理解人的命令,這是其“了解人類意圖”的關鍵。二是對于什么是好的回答,什么是不好的回答, 人類有自己的標準。例如, 比較詳細的回答是好的,帶有歧視性內容的回 答是不好的,諸如此類。但這是人類自身對回答質 量好壞的偏好。人工標注通過打分模型( Reward Model) 將這類信息反饋至 LLM 數據庫?傮w而 言, ChatGPT 將人類偏好知識注入 GPT- 3.5,以此 獲得能夠聽得懂人類語言、自身擁有判斷標準的 LLM。
就具體過程而言,首先,創建人類偏好數據。 隨機挑選部分問題,并由標注人員給出高質量回 答,形成“人類表達-任務結果”的標注數據,反饋至模型,讓其學習——這批數據數量僅有數萬, 并通過提示詞(Prompt)模式進行,即模型參數不發生變化。其次,訓練一個反饋模型。隨機挑選部分問題,由原始模型輸出答案,再由標注人員基于 “人類偏好標準”(例如,相關性、信息豐富程度、 答案有害、負面情感等),對原始模型的答案進行排序。最后,利用標注好的“人類偏好”數據,訓練一個打分模型,這一打分模型會對原始模型的 結果進行打分,告訴他什么答案分高,什么答案分低。
以此為基礎,整個過程通過循環式地強化學習,將反饋模型和原始模型相鏈接,當原始模型輸出的結果在打分模型中獲得較低分值時,它將受到懲罰,同時,被要求重新學習。通過不斷循環,原始模型逐漸迭代升級,直至“脫胎換骨”,徹底掌 握人類偏好,變成人類滿意的模型,即 ChatGPT。
(二)臺前:新型人機交互接口
目前,相關研究已經證明大型語言模型 LLM 對于知識具有強大的記憶能力。但現實世界中,一 般不會將記憶能力的強弱作為判斷人是否聰明的標準。是否具有強大的推理能力,通常是判斷一個人 是否聰明的重要標準。ChatGPT要取得令人驚艷的效果,其背后強大的推理能力必不可少。推理能力的本質是綜合運用較多相關知識點,推導出新知識 或新結論。當模型規模足夠大時,LLM 本身就具備相應的推理能力。
ChatGPT 的最大貢獻在于較好地實現了大型語言模型 LLM 的接口層,讓 LLM適配人類習慣的命令表達方式,而非讓人類去適配 LLM,絞盡腦 汁地想出一個想要達到目的的命令。由此,能夠增加 LLM 的易用性和用戶體驗。
這種交互方式的演變,是一種較為理想的新型人機交互模式。不需要專業的能力和高端的設備,只要開口表達人類訴求,人工智能就能夠理 解并幫助人類進行解答。在 2022 年 12 月的媒體通稿中,對 ChatGPT 的評價集中于“仿真性”,儼 然通過圖靈測試一般。這種仿真性,可以認為是 ChatGPT 的“智力”得到進一步提升,變得更加聰明。
二、ChatGPT 的關鍵技術
有研究發現,ChatGPT 在自然語言處理的系列任務方面,例如,文本理解與生成、對話問答、機器翻譯和程序代碼生成等都有較大進步。從技術層面講,得益于近幾年深度神經網絡、大型語言模型研究的不斷發展,即海量數據加之巨大的算力催生這樣一個大型語言模型的落地應用。換言之, ChatGPT 背后的關鍵技術離不開大模型算法、大數據和大算力。
(一)算 法
ChatGPT 由 GPT-3.5模 型提供支持,GPT ( Generative Pre-trained Transformer ,生成式預訓練 轉換模型) 是一種基于互聯網可用數據訓練的文本 生成深度學習模型。在算法方面,該模型使用“利 用人類反饋強化學習(RLHF)”的訓練方式,包 括人類提問機器回答、機器提問人類回答,并不斷迭代,讓模型逐漸具有對生成答案的評判能力。RLHF的訓練過程可以分解為三個步驟(見圖2)。
1. 預訓練語言模型
選取經典的預訓練語言模型作為初始模型。在預訓練模型出現之前,深度學習不夠成功的原因主要在于兩方面:一方面,匹配給某一具體任務的訓 練數據總量不夠多。隨著模型容量的增加,對訓練數據的需求隨之攀升,否則即使達到理想深度,也無法取得預期任務效果,進而成為自然語言處理領域無法逾越的難題;另一個方面,深度學習的特征抽取能力不夠強。換言之,即使有再多的數據也無濟于事, 因為模型不能有效吸收數據中蘊含的知識。這兩方面原因阻礙了深度學習在自然語言處理領域的突圍。GPT 預訓練模型的出現,無論是從學術研究角度審視,還是從場景應用角度觀察,都 代表自然語言處理領域的技術飛躍,并帶來整個領 域研究范式的轉換。
2. 打分模型的訓練
基于初始語言模型產出的數據訓練打分模型 ( RM,Reward Model)。打分模型的目標是評估 模型的輸出在人類看來是否表現得不錯。即輸入 [ 提示(Prompt),模型生成的文本] ,輸出一個評估文本質量的標記數字。用于訓練打分模型的提示詞(Prompt)數據一般源自預先富集的數據集, ChatGPT的Prompt 數據主要是調用 GPT API 的用戶。上述提示詞會被放進初始語言模型(第一 階段的模型) 中生成文本?梢詫⒋蚍帜P鸵暈 判別式的語言模型,從預訓練語言模型出發,對 [x=[prompt,模型回答 ],y= 人類滿意度 ] 構成的 標注語料進行微調;也可以隨機初始化,在語料基 礎上直接進行訓練。
3. 基于 RL 進行語言模型優化
在初始的語言模型上生成文本,通過打分模型 ( RM) 判斷模型生成的文本是否優質(迎合人類偏好)的基礎上,可以使用強化學習(RL)基于打分模型優化初始的語言模型。
將初始語言模型的微調任務建模為強化學習(RL)問題,需要定義策略(Policy)、動作空間 (Action Space)和打分函數(Reward Function)等基本要素。策略指基于該語言模型,接收 Prompt 作為輸入,再輸出一系列文本(或文本的概率分布);動作空間是詞表標記在所有輸出位置的排列組合;觀察空間是可能的輸入標記序列,即 Prompt 為詞表全部標記在所有輸入位置的排列組合;打分函數是基于設定好的 RM 模型, 配合部分策略層面的合約進行的打分計算;谶@一打分,可以根據策略優化算法更新模型參數。
通過上述過程,可以迭代式的更新打分模型 (RM)和策略模型(Policy),讓打分模型對模型輸出質量的評估愈加精確,策略模型的輸出不斷與初始模型拉開差距,使輸出文本越來越符合人類的需求和認知。
(二)算 力
ChatGPT 能夠成為新一代人工智能里程碑,離不開算力發展和數字經濟時代形成的大數據共同支持的大型語言模型訓練。在算力方面,ChatGPT 使 用的 GPT-3.5模型在微軟云計算服務 Azure AI 的超 算基礎設施(由 V100GPU 組成的高帶寬集群) 上進行訓練,總算力消耗約 3640 PF-days (即按每秒 一千萬億次計算,運行 3640 天)。
由此帶來兩個問題,即巨大的算力需求與資金消耗。訓練和運行模型均需要龐大的算力,有研究估測,訓練 1750 億參數大型語言模型的 GPT- 3,需要有上萬個 CPU/GPU 24 小時不間斷地輸入數 據,所需能耗相當于開車往返地球和月球,且一次運算要花費 450 萬美元(見圖3 )。
此前,企業多通過自行發電的方式滿足運營的電力需要,此舉不僅耗資巨大,而且還需具備某些與企業業務關聯不大的相關專業能力。電網基礎設 施的運行使供電成為一項公共事業,也使企業可以通過購買電量代替自行發電,就其實質而言,企業是將自行發電變為購買發電服務。集中發電可以使 電力的使用更為高效,也意味著更多企業甚至個人可以根據自身需要購買電,不用為其他電量支付任何費用。電力供應的公共化提高了各部門的生產力,改善了社會生活質量,也為新興產業的發展創造了機會。
信息和通信技術行業正經歷與此類似的演進過程。幾十年來,公共部門、私人部門、組織和個人等通過投資電腦軟件和硬件,像購買商品一樣購買信息和通信技術。在過去的 10 年間,隨著高速寬帶基礎設施的普及,信息和通信服務的供給方式快速更新,通過互聯網可以將信息和通信技術作為一項服務進行購買。
現階段,算力如同被廣泛使用的電力一般,但與此同時,算力也是一項具有潛在破壞性與變革性的創造。未來,各行各業的用戶若想在不購買、安裝和運行昂貴的電腦硬件的基礎上使用服務,就可借助無處不在的有線或無線網絡——即從“云端” 獲取算力,這與使用其他公共基礎設施服務沒有區別(見圖4)。
(三)數 據
有資料顯示,ChatGPT 擁 有多 達 1750 億 個 模型參數,并在 2023年年初完成訓練。模型訓練的背后離不開大數據的支持,OpenAI 主要使用 的公共爬蟲數據集擁有超過萬億單詞的人類語言數據。正是基于上述海量數據,ChatGPT 展示了強大的三種能力:一是語言生成能力。遵循提示詞(Rrompt)生成補全提示詞的句子。這是目前人類與語言模型最普遍的交互方式; 二是上下文學習(In-context learning) 能力。 遵循給定任務的幾個示例,為新的測試用例生成解決方案。值得一提的是,GPT-3 雖然是語言模型,但上下文學習才是ChatGPT 的真正重點,而不是“語 言建!(Language Modeling);三是世界知識能力。包括事實性知識(Factual knowledge)和常識( Commonsense )。
上述三種能力均來自大規模預訓練。在有3000億個單詞的語料上預訓練擁有 1750 億參數 的模型( 60% 的訓練語料來自 2016-2019的Common Crawl 語料庫 + 22% 來自WebText 語料庫+ 16% 來自于、書籍和報刊雜志 + 3%來自維基百科)。其中, Common Crawl 是 2008 年至今在一個 網站抓取的大型數據集,數據包含原始網頁、元數據和文本提取,其文本來自不同語言、不同領域。重點研究實驗室一般會優先選取純英文過濾版(C4)作為數據集。其中,WebText 是一個大型數據集,其數據是從社交媒體平臺 Reddit 所有出站 鏈接網絡中爬取的,每個鏈接至少有 3 個贊,代表流行內容的風向標,對輸出優質鏈接和后續文本數據具有指導作用。
關于 ChatGPT 上下文學習的能力來源及為什么上下文學習可以泛化,現階段尚未有明確的剖析。有人工智能領域專家推測,這種能力可能來自同一個任務的數據點在訓練時按順序排列在同一個批處理中。未來,語言模型預訓練促進上下文學習的原理以及上下文學習行為與微調(Fine-tuning) 的協同原理值得進一步研究。
現階段的 ChatGPT 是在擁有 3000 億個單詞 的語料基礎上預訓練擁有1750億參數的模型, GPT-4 將是一個擁有超過 100 萬億級別參數的大模 型(見圖5)。根據學術界的既有研究可知,深度神經網絡的學習能力和模型的參數規模呈正相關。 人類大腦皮層有 140 多億個神經細胞,每個神經細 胞有 3 萬余個突觸,因此,大腦皮層的突觸總數超 過 100 萬億個,神經細胞通過突觸相互建立聯系。 一旦 GPT-4 實現 100 萬億參數規模,就可以堪比人的大腦,意味著它將達到與人類大腦神經觸點規 模的同等水平。如果上述假設成為現實,不僅意味著 GPT-4 系統可以改造人類的思想和創作能力, 形成人工智能超越專業化能力和大眾化趨勢,而且意味著這一系統開始具備人類思維能力,并有可能在某一方面或其他方面替代人類。
三、ChatGPT 的未來圖景
相較以往,人工智能進化的深度學習能力,對大部分人而言只是一個高深的概念。ChatGPT 通過生成式預訓練轉換模型 RLHF 基于人類反饋的強化 學習這一方式,讓所有人真正接觸到“人工智能 + 深度學習”會帶來何種變化,對于人類的生活會產生哪些影響。因此,ChatGPT 可能會加速人工智能 和深度學習理論在經濟社會各領域的普及應用。
學術界普遍認為,ChatGPT 的未來應用場景充滿無限可能。從社交媒體到廣告創意,從游戲到影視娛樂,從編程到深度寫稿,從平面設計到 產品工業設計,從文字翻譯到外事同聲傳譯等, 每個原本需要人類創作的行業都等待被 ChatGPT 顛覆性重塑。ChatGPT 被公認為是繼互聯網、智能手機之后,帶給人類的第三次革命性產品; 聯網開辟了“空間革命”,使人類可以實時與全世 界鏈接,不必奔赴現場,可以通過互聯網進行溝通、教學、視頻會議,使政治、社會和商業等領域發生連鎖變化;智能手機的出現帶來“時間革命”,通過可拓展安裝的各種 APP 應用軟件,可以實現最快交易、最速送達,為人類的生活、工作 和消費帶來巨大變化;ChatGPT 的橫空出世,有望形成“思維革命”,替代人類進行創作、創意、解答、咨詢、翻譯、客服等,改變人類思考和處理 問題的方式方法,并由此重塑各行業生態,甚至重塑整個世界(見圖6)。
現階段的 ChatGPT 以高度擬人化的對話問答模式帶來更好的交互體驗,短期內將促進金融、媒體、醫療等諸多領域自然語言處理的應用。例如,在金融領域,ChatGPT 利用其大模型能夠大幅提升 語義搜索能力,面對復雜多變的投資理財咨詢,能夠準確找到滿足用戶需求的咨詢結果;又如,招商銀行信用卡已經基于 ChatGPT 撰寫宣傳稿件,寫出“生命的舞臺上,我們都是基因的載體”、“如果說基因給我們的生命帶來了基礎,那親情便是對生命的深刻賦予。它不由基因驅使,而是一種慷慨的 選擇”等富有詩意的文案。在投研方面,業內首份采用 ChatGPT 撰寫的行業研究報告完成度較高, 但距專業研究報告仍存在較大差距。財通證券團隊介紹,“ChatGPT 在文字表意、標題撰寫等方面均具有較高水平”。在媒體領域,大量的稿件均可以通過 ChatGPT 進行自動化生產,其獨創性和創造 力并不輸于專業人員。未來,文字工作者應積極探 索新技術幫助其提高生產效率,讓 ChatGPT 起草初稿,人類只需要在其基礎上進行修改完善;在醫療領域,ChatGPT 可以替代專業人員為患者提供心理咨詢、問診和解答服藥建議,等等。
以教育領域為例,從媒體報道中可以整理出 16 種 ChatGPT 教學應用用法(見表1)。