■圖文轉載自 寫點科普網站https://kopu.chat/chatgpt/
答案真實性無法驗證
如果我們有個問題拿去問Google:「Next Level是New Jeans發行的歌曲嗎?」可以看到Google的搜尋結果中第一條「Next Level」是另外一個團體Aespa的歌曲。
但是若用同樣的問題拿去問ChatGPT,只得到「不是,Next Level是New Jeans發行的歌曲」這種Garbage In,Garbage Out(垃圾進,垃圾出)的結果
但為什麼我們會願意相信Google到的答案?因為從結果中我們可以輕鬆跳轉到原始網頁,看到更完整的上下文背景資訊,包括創作者是誰或資訊發佈的日期等等,看到答案背後的共同背書人包括維基百科與特定媒體等來源,我們才願意相信或決定不相信。
但ChatGPT為人熟知的問題就是很容易一本正經講幹話,目標是生成自然語言,結果出現一堆看似合理的廢話,使用者也完全無法知道來源。
如果想讓ChatGPT取代Google,我個人反倒更推薦另外一家搜尋引擎公司Neeva的作法。
Neeva是在Google工作長達15年的廣告資深副總裁Sridhar Ramaswamy在2018年所創立的新創,致力於成為一家純粹靠用戶訂閱收費、完全無廣告的搜尋引擎,也被美國Time時代雜誌評選為2021年100個最棒的發明之一。
同樣在2022年12月,Neeva推出了NeevaAI的Beta測試,同樣針對使用者的搜尋結果以自然語言對話呈現,NeevaAI同樣顯示了一個綜合所有資訊的單一答案。
然而它更進一步在答案當中放入引用的參考文獻,讓使用者可以一目了然地掌握搜尋結果的來源和可信度。
很明顯,如果NeevaAI的生成結果要一個個引用資料來源,自然語言生成能力會很難像ChatGPT這麼強大。
ChatGPT這樣的語言模型的目標是生成連貫且聽起來自然的文本答案,簡單來說就是ChatGPT是模擬一個人類在進行聊天或創作、答案對不對不一定,訓練的資料集還需要隨實進行更新。(ChatGPT目前尚未聯網,訓練資料集只到2021年第4季)
而NeevaAI不會透過自然語言與人類進行交流和互動,而是爬完一堆網站後直接幫你寫個總結,把長篇文本縮短成簡短的版本,會有來源且隨時聯網給使用者最新資訊。
更重要的是:運轉的速度更快且成本更低。看看NeevaAI去年底最新募資金額約在8千萬美元左右,跟微軟對OpenAI至少10億美元以上的投資(還不包括伺服器成本)不能相提並論。
(不過NeevaAI到現在也只出了Beta版本且僅限美國地區使用,概念很強大但實際能不能做的出來,甚至能針對不同語言進行整合還得看後續發展)
AI訓練員的偏好誤差與持續訓練成本
過往訓練大型語言模型(LLM,Large Language Model)的方式就是讓模型根據大型網際網路的文字資料集來預測下一個單字,比如「老虎會吃__」這句話後面看是接:肉/草/人……等等。
但「預測下一個單字」和「使用者想要聽的語句」是兩個不同的目標。也就是說模型會很容易產生與用戶預期不同的結果,比如預測出一堆胡亂拼湊的單字或有毒的內容。
ChatGPT之所以可以突破重圍取得令人驚豔的效果,主要來自於採取了一種創新的訓練方式--基於人類給回饋的增強學習,稱作RLHF(Reinforcement Learning from Human Feedback),並結合監督式學習做預訓練。
但這樣一來,AI聊天機器人的回復就會受到研究人員或訓練人員偏好的高度影響,很可能產生偏頗,也得耗費大量的人力持續更新訓練。這也是我認為ChatGPT不可能取代Google的第三個原因。
要解釋這個概念,以下讓我們來針對「ChatGPT到底是怎麼運作的」進行超簡化科普:
一開始人類AI訓練員會提供一些對話作為訓練資料集給AI參考,比如「一個問題+對應的理想回答」,到這邊還是監督式學習,讓AI學著人類去判斷一句話所代表的使用者意圖,完全按照人類的規範;或如果看到機器人所認知的對話意圖出錯時,AI訓練員要給予否定。
預訓練完這個模型後,就開始讓ChatGPT來實戰了--訓練員會開始向AI進行提問(不在之前有標準答案的資料集裡面),接著讓AI生成數個對應的回答,再讓訓練員會針對這些回答進行排序,
比如問題是:「蘋果是一種水果嗎?」假設AI生成出3個答案:
A.蘋果和水果都很好吃
B.蘋果長得很像水果
C.蘋果是水果的一種
就由人類來針對這些答案進行排序,比如排出C>B>A,最終訓練完成針對這個增強學習模型的獎勵模型/偏好模型。
(事實上研究人員會採用多種模型來生成答案,可以是初始模型、fine-tune完的模型或人工等等,生完答案後再來人工排序餵回去給AI)
接著進一步把這個訓練後的獎勵模型透過增強學習(Reinforcement Learning)來優化出最終的聊天模型,獎勵模型會對AI生成的答案進行排序,並將排名轉換為獎勵,藉著增強學習的過程一步步讓AI自己探索出最合適的答案。
簡單來說就是生成一個經過人類偏好校正的獎勵模型,來確保聊天機器人說出人類想聽的內容。
透過監督學習的預訓練,學習出一個具有一定能力的基礎模型(Supervised Fine-Tuning, SFT)
從人類的回饋中學習出基礎獎勵模型(Reward Model, RM)
兩者互相強化,透過增強學習形成最終模型。
Source:OpenAI官網
(以上說明捨去精準與細節描述,用最簡白的方式介紹ChatGPT給入門讀者,具體可以參考OpenAI官方介紹)
早在2022年1月的時候,OpenAI發表了一篇論文《Training language models to follow instructions with human feedback》來介紹這個作法,第一次應用在ChatGPT的兄弟模型InstructGPT上。
要訓練出一個表現強大的AI網路會仰賴三個要素,且缺一不可:
1.超強的硬體運算能力(比如很多GPU)
2.超大的神經網路(很多隱藏單元或輸入參數)
3.大量的資料量(經過人類標籤的訓練資料)
目前通用AI模型大小呈現指數成長,每2.5個月即成長一倍。OpenAI一開始研發,沒有引入人類回饋校正的模型GPT-3已經擁有高達1,750億個參數量(超肥大的神經網路)。
Google在2022年1月推出的超級語言模型Switch Transformer比GPT-3的參數又更多,直接拉到1.6萬億個(疑似想要打爆GPT-3)。
結果OpenAI在論文中提到,在加入人類回饋的演算法後,就算InstructGPT模型只有13億個參數,比GPT-3的參數數量整整少超過超過100倍,然而InstructGPT所輸出的答案在人類評分上卻相較於GPT-3取得了更高的成績。
研究人員發現由此產生的InstructGPT模型更擅長遵循指令,更少編造事實,並且在有毒答案輸出方面小幅下降。
可以看到藍標的地方是InstructGPT的回答,比起GPT-3更符合問題語境(Source:OpenAI’s blog)
InstructGPT也是在後來發展成了現在的ChatGPT。
我們還不能確定Google的Switch Transformer是否會比ChatGPT更強,然而這個開拓的結果已經讓OpenAI在論文當中提到,確立了:「更大的語言模型並不一定能使它們更好地產出遵循用戶意圖的答案,同時RLHF就是未來OpenAI在語言處理的研究方向」。
不過說回來,ChatGPT的本質仍然是透過機率來不斷地生成數據,不是靠理解問題後的邏輯推理來生成答案,也因此無法徹底避免會一本正經胡說八道的問題。畢竟核心目標還是像人類一樣自然地聊天,而不是執行特定任務或提供精準的資訊。
ChatGPT輸出的答案是否可靠,關鍵取決於是否有高品質且高多樣性的訓練資料,還有模型微調過程的情況。
這就會產生幾個潛在問題:為訓練資料打標籤(Label)人的偏好,或是人類對於要餵哪些訓練問題&答案排序的偏好。
比如OpenAI在官網上就有提到,有時候ChatGPT回答之所以會顯得特別冗長,或是很愛過度使用某些特定詞語(比如它會一直重申「我是OpenAI訓練的語言模型」),主要就源自於訓練資料的偏差。
或像ChatGPT之所以滿多回答都很冗長、是因為訓練AI的人更偏好看起來長度越長、越完整的答案,會給這種答案更高排序。
再加上,ChatGPT現階段還是在靜態的語料庫上進行訓練的,一旦擴大使用者數量,需要針對不斷冒出來的新知識、更多元或更地域性的宗教或價值觀、在地的語言表述方式等等進行調整,加入更多元背景且更多數量的人類標籤/訓練師也會增加壓力。
(OpenAI目前的正式員工不到400人,但傳出過去6個月他們在拉丁美洲、東歐等地區雇用約1,000多名遠端工作的約聘員工,約60%約聘人員負責資料標籤的工作,另外40%人員則是程式設計師,為AI模型創造數據資料)
相較之下,Google(還記得我們的目標是回答「ChatGPT有沒有可能取代Google搜尋引擎嗎?」)針對使用者的問題,可以非常快速地抓取網路上的網站,按照時間軸最新、在地化,或根據使用者過往偏好的客製化資訊進行喜好排列,對於只是要精準找到資訊而言,實際上才是更高效且低成本的選項。
根據Bloomberg在這兩天的報導,百度也正計畫推出類似於ChatGPT的聊天機器人服務,預計在2023年3月上線整合至目前的百度搜尋引擎上,消息一傳出讓百度在當日盤中直接大漲5.8%。目前ChatGPT的中文能力已經很不錯了,很可能百度聊天機器人在中文對話的表現上又會比ChatGPT更強。