ChatGPT與歷史文化保存有甚麼關係?
《奔騰思潮》授權全文
闕志克 / 清華大學合聘教授
ChatGPT的底層技術叫大型語言模型(LLM: large language model),這種模型骨子裏試圖掌握文字接龍般預測下一個字的能力:給定一段前文,預測下一個字或建立下一個字所形成的機率分布。譬如說,如果前文是「中國大陸最長的河流是什麼?」,它最有可能的下一個字是「長」;如果前文是「中國大陸最長的河流是什麼?長」,則它最有可能的下一個字是「江」。訓練LLM所需的語料無需標註,所以很容易取得。假設前文的長度是一百字,一篇5000字文章可作成約4950組訓練語料:第一組以1-100字為輸入,第101字為輸出;第一組以2-101字為輸入,第102字為輸出,以此類推。
這些語料餵進稱為Transformer的深度神經網路架構,可訓練出大型語言模型。而且,只要語料越豐富,網路架構參數越多,前文長度越長,訓練出來的大型語言模型所具有的自然語言處理能力就越強。目前已知的功能包括摘要、問答、翻譯、分類、情境分析、規劃、設計等;甚至,這些模型還具有舉一反三的能力:只要在提示裡提用幾個例子說明特定的概念,它們就能將例子所隱含的概念應用到後續的回應中。
從知識管理的角度的觀點,大型語言模型已經具備以下三種能力。其一,將一篇文章裡面的重點與關鍵思想摘要出來;再者,從多篇探討相同議題的文章中,抽取它們所提出的觀點或解決方法,並比較其優劣和權衡焦點;最後,根據已經提出的解決提案,藉由內外插的手段產出混搭既有方案的新穎解決方法。這三種能力結合起來,表示大型語言模型已具有將大量專業文章自動內化成可讓用戶以自然語言查詢、探索與腦力激盪的知識庫。當然,儘管以上這些能力在目前最先進的大語言模型都已達一定的水準,但也都還有改進的空間。
歷史文化保存的一大重點是歷代文字的收集、整理與傳播。第一級的歷史文化保存聚焦於實體文物的收集、修復與妥善保管於專業博物館,重點放在盡可能保持歷史文物的原狀。第二級的歷史文化保存進展到數位典藏:首先將歷史文物數位化,再運用現代資料庫技術將其分門別類、建立索引,以便後人易於搜尋、閱覽和欣賞,重點放在以數位方式增進民眾接觸歷史文物的方便性。
上述兩類保存方式都只是被動地保存歷史文物的既有風貌,大型語言模型技術則可將歷史文化保存推向一個前所未有的第三級境界:主動分析消化所有歷史文物的文字內容,積極找出它們在時間與空間軸上的語意關聯性,進而將其所涵歷史資訊組裝成互相援引的關聯網路,最終形成包羅萬象、旁徵博引、交叉勾稽串聯的知識庫,讓後人得以超越個別文本,輕易地進行之前需要皓首窮經、曠日廢時才能作到的跨代、跨領域、跨文本的查詢、連結、比對與推理論證。
這種將歷代文籍整理消化、融會貫通過後的知識庫讓後世可以輕易地對如下的歷史疑問旁敲側擊、追根究底:孔子問過老子什麼問題?老子的回答對後世儒教有何影響?李白有提點過杜甫嗎?杜甫的詩風有因此改變嗎?中國歷史上有名的猶太裔人物為何?他們對猶太教徒逐漸被中國文化同化持什麼態度?徐福到底有沒有到過日本?鄭和的回教徒背景與他能成為七下南洋的世界級航海家有啥關係?也就是說,大型語言模型技術藉由積極梳理所有歷史文字,廣泛連結相關歷史資訊,因而大大豐富擴展了原來歷史典籍的文化深度與廣度。
除了協助解析歷史文物的來龍去脈與文化意涵以外,歷史文化保存的最高境界應是提煉萃取用於製作文化遺產的底層技能(skill),並將這些技能代代傳承下去。譬如說,保存唐詩的最高境界不僅是讓後人能理解它們的寓意或欣賞它們的藝術美感,還可以是進一步主動擷取唐代詩人的各種作詩技巧,進而運用這些技巧創作出格式相同、質地類似,但情境可隨後人任意指定的現代唐詩。只要有足夠的唐詩及其白話文語譯作為語料,現代大型語言模型很有機會藉由精調訓練鍛煉成可以媲美李白杜甫的機器詩人。
同樣的手法也可以應用於其他藝術形式,如李清照的宋詞、關漢卿的元曲,張大千的潑墨畫、顏真卿的書法、朱銘的木雕,甚至莫札特的古典樂等。一旦如上所述的大型語言模型成功開發出來,它們不但將帶給歷史文化保存翻天覆地的變化,也將開創無際藍海的商業新契機!