■圖文轉載自 寫點科普網站https://kopu.chat/chatgpt/
答案真實性無法驗證如果我們有個問題拿去問Google:「Next Level是New Jeans發行的歌曲嗎?」可以看到Google的搜尋結果中第一條「Next Level」是另外一個團體Aespa的歌曲。但是若用同樣的問題拿去問ChatGPT,只得到「不是,Next Level是New Jeans發行的歌曲」這種Garbage In,Garbage Out(垃圾進,垃圾出)的結果
但為什麼我們會願意相信Google到的答案?因為從結果中我們可以輕鬆跳轉到原始網頁,看到更完整的上下文背景資訊,包括創作者是誰或資訊發佈的日期等等,看到答案背後的共同背書人包括維基百科與特定媒體等來源,我們才願意相信或決定不相信。但ChatGPT為人熟知的問題就是很容易一本正經講幹話,目標是生成自然語言,結果出現一堆看似合理的廢話,使用者也完全無法知道來源。如果想讓ChatGPT取代Google,我個人反倒更推薦另外一家搜尋引擎公司Neeva的作法。Neeva是在Google工作長達15年的廣告資深副總裁Sridhar Ramaswamy在2018年所創立的新創,致力於成為一家純粹靠用戶訂閱收費、完全無廣告的搜尋引擎,也被美國Time時代雜誌評選為2021年100個最棒的發明之一。同樣在2022年12月,Neeva推出了NeevaAI的Beta測試,同樣針對使用者的搜尋結果以自然語言對話呈現,NeevaAI同樣顯示了一個綜合所有資訊的單一答案。然而它更進一步在答案當中放入引用的參考文獻,讓使用者可以一目了然地掌握搜尋結果的來源和可信度。很明顯,如果NeevaAI的生成結果要一個個引用資料來源,自然語言生成能力會很難像ChatGPT這麼強大。ChatGPT這樣的語言模型的目標是生成連貫且聽起來自然的文本答案,簡單來說就是ChatGPT是模擬一個人類在進行聊天或創作、答案對不對不一定,訓練的資料集還需要隨實進行更新。(ChatGPT目前尚未聯網,訓練資料集只到2021年第4季)而NeevaAI不會透過自然語言與人類進行交流和互動,而是爬完一堆網站後直接幫你寫個總結,把長篇文本縮短成簡短的版本,會有來源且隨時聯網給使用者最新資訊。更重要的是:運轉的速度更快且成本更低。看看NeevaAI去年底最新募資金額約在8千萬美元左右,跟微軟對OpenAI至少10億美元以上的投資(還不包括伺服器成本)不能相提並論。(不過NeevaAI到現在也只出了Beta版本且僅限美國地區使用,概念很強大但實際能不能做的出來,甚至能針對不同語言進行整合還得看後續發展)AI訓練員的偏好誤差與持續訓練成本過往訓練大型語言模型(LLM,Large Language Model)的方式就是讓模型根據大型網際網路的文字資料集來預測下一個單字,比如「老虎會吃__」這句話後面看是接:肉/草/人……等等。但「預測下一個單字」和「使用者想要聽的語句」是兩個不同的目標。也就是說模型會很容易產生與用戶預期不同的結果,比如預測出一堆胡亂拼湊的單字或有毒的內容。ChatGPT之所以可以突破重圍取得令人驚豔的效果,主要來自於採取了一種創新的訓練方式--基於人類給回饋的增強學習,稱作RLHF(Reinforcement Learning from Human Feedback),並結合監督式學習做預訓練。但這樣一來,AI聊天機器人的回復就會受到研究人員或訓練人員偏好的高度影響,很可能產生偏頗,也得耗費大量的人力持續更新訓練。這也是我認為ChatGPT不可能取代Google的第三個原因。要解釋這個概念,以下讓我們來針對「ChatGPT到底是怎麼運作的」進行超簡化科普:一開始人類AI訓練員會提供一些對話作為訓練資料集給AI參考,比如「一個問題+對應的理想回答」,到這邊還是監督式學習,讓AI學著人類去判斷一句話所代表的使用者意圖,完全按照人類的規範;或如果看到機器人所認知的對話意圖出錯時,AI訓練員要給予否定。預訓練完這個模型後,就開始讓ChatGPT來實戰了--訓練員會開始向AI進行提問(不在之前有標準答案的資料集裡面),接著讓AI生成數個對應的回答,再讓訓練員會針對這些回答進行排序,比如問題是:「蘋果是一種水果嗎?」假設AI生成出3個答案:A.蘋果和水果都很好吃B.蘋果長得很像水果C.蘋果是水果的一種就由人類來針對這些答案進行排序,比如排出C>B>A,最終訓練完成針對這個增強學習模型的獎勵模型/偏好模型。(事實上研究人員會採用多種模型來生成答案,可以是初始模型、fine-tune完的模型或人工等等,生完答案後再來人工排序餵回去給AI)接著進一步把這個訓練後的獎勵模型透過增強學習(Reinforcement Learning)來優化出最終的聊天模型,獎勵模型會對AI生成的答案進行排序,並將排名轉換為獎勵,藉著增強學習的過程一步步讓AI自己探索出最合適的答案。簡單來說就是生成一個經過人類偏好校正的獎勵模型,來確保聊天機器人說出人類想聽的內容。透過監督學習的預訓練,學習出一個具有一定能力的基礎模型(Supervised Fine-Tuning, SFT)從人類的回饋中學習出基礎獎勵模型(Reward Model,