荀子古籍大語言模型發(fā)布會在京成功舉辦
來源:中國社會科學網(wǎng)
時間:孔子二五七四年歲次癸卯十一月初六日庚戌
耶穌2023年12月18日
中國社會科學網(wǎng)訊(通訊員 趙志梟)12月2日,國家社科基金重大項目“中國古代典籍跨語言知識庫構(gòu)建及應用研究”課題組主辦的荀子古籍大語言模型發(fā)布會暨古籍智能化研究與產(chǎn)業(yè)應用研討會在北京舉行。來自高校、出版界和互聯(lián)網(wǎng)頭部企業(yè)的專家學者參會。古籍大語言模型主研專家、南京農(nóng)業(yè)大學信息管理學院教授王東波進行專題匯報。
發(fā)布荀子古籍大語言模型
荀子古籍大語言模型是由王東波擔任首席專家的國家社科基金重大項目“中國古代典籍跨語言知識庫構(gòu)建及應用研究”課題組聯(lián)合古聯(lián)公司歷時數(shù)月研究推出的專門應用于古籍處理與研究的智能工具,是以提供古籍信息處理的大型基座模型、對話模型與智能代理為主要目標的開源的、公益的古籍大語言模型。王東波團隊以“荀子古籍大語言模型構(gòu)建及應用研究”為題,介紹了大語言模型古籍處理能力評測,古籍處理基座模型構(gòu)建和對話模型構(gòu)建三個方面的研究內(nèi)容。
在匯報過程中,王東波首先闡述了如ChatGPT一類的大語言模型在AI產(chǎn)業(yè)中引發(fā)的革命,并揭示了古籍領域?qū)Υ笳Z言模型的需求以及國家層面的關注。他表示,盡管目前已有200多個通用模型在各領域得到應用,但古籍領域仍缺乏專業(yè)的大語言模型,并且當前的各種評測基準很難準確地衡量各種大語言模型的古文處理能力。隨后,王東波簡要介紹了為解決這些問題所進行的工作。為了緩解用戶群體選擇模型過程中的“信息過載”現(xiàn)象,團隊設計了一個覆蓋13項自然語言處理任務的ACHeval評測基準,該基準分為文本理解能力評估、文本生成能力評估和知識能力評估三個模塊,包含文本分類、分詞、命名實體識別、古現(xiàn)翻譯等各種不同的處理任務,團隊將世界各地善于理解中文的大語言模型都參與了較量。不僅包括代表性的千億級閉源模型,還納入了在各大通用表單上取得出色表現(xiàn)的優(yōu)質(zhì)開源模型。團隊使用小樣本提示技術(shù)規(guī)范模型的輸出答案,并對最終結(jié)果進行后處理計算對應指標,以量化各種模型的表現(xiàn)。課題組根據(jù)評價結(jié)果,確定了最終用于領域化訓練的開源基座大模型Qwen-7b。隨后,王東波介紹了基座大模型和對話大模型的構(gòu)建的方法,團隊通過大量實驗論證不同預訓練數(shù)據(jù)的選擇和配比,以及超參數(shù)的選取對大模型最終性能所產(chǎn)生的影響。結(jié)果表明,由于現(xiàn)代漢語和古代漢語之間存在較大的語法差異,單純使用古籍文本增強模型會使得模型出現(xiàn)災難性遺忘現(xiàn)象損失現(xiàn)代漢語能力,更傾向于生成古籍文本。為此,團隊在分析古籍本身和對話任務特性的基礎上,采集了大約5GB的古籍語料,并與現(xiàn)代漢語文本、指令數(shù)據(jù),平行語料等其他類型的語料混合,形成了一個包含40億個中文字符的混合數(shù)據(jù)集,分別用于學習古籍文本字符分布特征、防止災難性遺忘、增強對指令響應以及將現(xiàn)代文習得的知識進一步外推,并以此數(shù)據(jù)集訓練荀子基座模型。在訓練過程中,王東波團隊綜合使用多種加速技術(shù)、內(nèi)存優(yōu)化技術(shù)和訓練技巧提升模型的訓練效率,最終成功在8卡A800計算集群上實現(xiàn)了17500token/秒的訓練吞吐量,在保證基座模型性能的同時最大程度的利用了已有計算資源。為使模型遵循根據(jù)用戶請求回答問題,團隊基于以往研究的經(jīng)驗,設計一系列指令數(shù)據(jù)集,這些任務涵蓋常見的古籍處理場景,包括詞法分析、實體識別、關系抽取、文本分類與匹配、古現(xiàn)翻譯、文本摘要、自動問答、詩歌生成、文本摘要等等。除此之外,為了恢復模型的現(xiàn)代漢語理解能力,團隊還從互聯(lián)網(wǎng)開源高質(zhì)量指令微調(diào)數(shù)據(jù)集中篩選出符合條件的指令,按照一定比例混合后獲得了綜合指令數(shù)據(jù)集,訓練了“荀子”系列對話模型。最后,王東波團隊的技術(shù)人員對荀子對話大模型的各項古籍處理能力進行現(xiàn)場演示,通過這一環(huán)節(jié),與會者親身體驗模型的實用性和直觀效果,進一步證明了其在古籍處理領域的應用潛力。
隨后,古聯(lián)公司總經(jīng)理洪濤分享了在古籍智能化領域的探索歷程,介紹了古聯(lián)公司的多方經(jīng)驗,對于利用古籍大模型進行優(yōu)化OCR、自動標點、自動翻譯、自動注釋、自動生成主題詞與摘要、自動構(gòu)建古籍知識庫等系統(tǒng)能力做了分析。除了在專業(yè)領域推動古籍整理、古籍數(shù)字化、古籍利用與傳播,洪濤也分析了大模型在大眾領域的應用前景,比如通過實現(xiàn)基于“中華經(jīng)典古籍庫”的語義檢索和回答,讓大眾用戶能夠順暢地利用古籍的內(nèi)容。古籍大模型還可以用于AI寫作、AI教學、數(shù)字文娛等。
荀子古籍大語言模型發(fā)布會暨古籍智能化研究與產(chǎn)業(yè)應用研討會在北京舉行。國家社科基金重大項目“中國古代典籍跨語言知識庫構(gòu)建及應用研究”課題組/供圖
全面推動古籍處理技術(shù)進步
來自高校、出版界和互聯(lián)網(wǎng)頭部企業(yè)的與會專家學者分別立足于各自領域,圍繞大模型在古籍整理、研究和普及等方面展開了熱烈的探討,就大模型在古籍整理、傳統(tǒng)文化傳承、數(shù)字化轉(zhuǎn)型和技術(shù)挑戰(zhàn)等方面進行了深入探討。與會專家一致認為,荀子一類大語言模型的應用與推廣對于中華優(yōu)秀傳統(tǒng)文化的傳播和傳承有著重要的意義。構(gòu)建高質(zhì)量古文處理模型的關鍵在于數(shù)據(jù)質(zhì)量,古聯(lián)公司與南京農(nóng)業(yè)大學的合作能夠充分發(fā)揮各自的優(yōu)勢,更加全面的推動古籍處理技術(shù)的進步。
目前,作為開源的、公益的研究成果的荀子古籍大語言模型已在相關網(wǎng)站開源,用戶可自行下載模型權(quán)重文件與代碼文件進行模型部署。此次會議,是南京農(nóng)業(yè)大學古籍大語言模型研發(fā)團隊和古聯(lián)公司合作探索古籍大語言模型的第一步。未來,古聯(lián)公司將基于百億級古籍大數(shù)據(jù),著手研發(fā)下新一版商用古籍大模型,為古籍智能整理、大眾傳播的產(chǎn)業(yè)應用提供強大的技術(shù)支持,推動古籍事業(yè)的新發(fā)展。
(通訊員單位:南京農(nóng)業(yè)大學信息管理學院)
責任編輯:近復