當前位置: 華文頭條 > 文化

龍泉寺賢超法師:用 AI 為古籍經書辨識、斷句、轉譯

2024-03-07文化

坐落在京郊鳳凰嶺腳下的龍泉寺,稱得上全國甚至全球科研實力最強的佛教寺廟。

憑借當年一句「佛教是古老的,但佛教徒是現代的」,推動了龍泉寺裏的高僧們搞科研、寫程式碼,將佛學與新技術結合,將專案大眾化、國際化。成果不斷,屢上熱搜,被外界持續關註。

近期龍泉寺的賢超法師,參加了國內某技術大會,分享了使用人工智能對【大藏經】進行整理和校勘的技術實踐。

佛系 AI 的誕生:讓佛經更易讀

賢超法師原是北京大學物理學院凝聚態物理碩士,2007 年他從北大畢業,2008 年在龍泉寺皈依,此後一直致力於龍泉大藏經的編修與佛學義理研究。

2016 年,AlphaGo 在戰勝李世石的歷史性事件,引起了賢超法師對 AI 的關註。從那時候起,他便開始嘗試將 AI 和自己正在研究的 OCR 技術以及自動標點相結合。

賢超法師在 Techo Park 開發者大會上介紹其研究成果

佛原生 AI 解決古籍經文痛點

龍泉寺在整理和校勘的【大藏經】為佛教經典的總集,也稱為一切經。在漢傳佛教的兩千多年裏,歷朝歷代都對【大藏經】進行了轉譯、增補、修訂。

流傳至今有數十個版本,少的有五千多字,多的有一億兩千萬字。

【乾隆版大藏經】的修訂參與官員、學者、高僧等 60 余人,

刻字、刷印和裝幀等工匠 860 余人,歷時六年完成

(圖為【乾隆版大藏經】雕版)

2012 年,龍泉寺就著手整理【大藏經】,計劃用整整十年的時間完成。因為傳統方法對古籍的整理主要有版本校對、校勘、標點,這些步驟能夠保證當代讀者,也可以盡可能理解晦澀、生僻的經文。

三年後,龍泉寺整理出版了【南山八大部】;再次年,龍泉寺的藏經辦公室成立,旨在探索利用人工智能技術,研發出基於深度學習的單字辨識引擎;

2017年,龍泉寺成立人工智能與資訊科技中心,研發出能辨識各種不同大藏經版本的整列辨識引擎,並成功的將【六十華嚴】的大藏經版本進行電子化。

賢超法師目前擔任藏經辦公室主任,負責【大藏經】的整理工作。

自動標點:OCR +深度學習

為了降低人們閱讀古文典籍的門檻,提高學者的工作效率,在近年來賢超法師團隊,運用了包括深度學習、OCR 在內的技術改變傳統【大藏經】的解讀方式,目前已經取得了頗為驚艷的效果。

現代漢語中,句號、引號、書名號等常用標點近十種,古漢語中僅有的句號、頓號,經文中也很少出現,難以閱讀

賢超法師介紹道,所謂自動標點,是指在沒有人工幹預的前提下,根據演算法給古籍文本自動標註現代中文標點的技術,這主要是為了方便現代讀者閱讀。

此前,已有人工智能為古文加標點的相關研究,不過賢超法師表示,之前基本只是為古文加句號,他認為這個做法「比較保守,比較學術性」。

而他的團隊將深度學習運用到了自動標點上,可以以更高的準確性,給古文添加句號、逗號、問號、感嘆號、冒號、分號和頓號其中標點符號。經過驗證,他們所研發的 Transformer 標註結果,和人類的標註結果「幾乎已經無法區分」。

RNN+LSTM+ResNet 效果全面提升

自動標點,在 NLP 領域來說,就是一個簡單的序列標註問題。解決這類問題的標準方法,就是使用迴圈神經網絡(RNN)。

為了增強 RNN 的效能,在此基礎上又發展出來了雙向 RNN,也就是每一時刻的輸出不僅僅取決於之前時刻的所有輸入,而是同時取決於之前和之後的輸入。之後,賢超法師團隊又將 LSTM 方法引入。

但是此前基於這些技術所實作的自動標點,效果仍不是很令人滿意。賢超法師團隊之所以達到出乎意料的效果,是因為他們在此前的基礎上,引入了 ResNet 殘留誤差網絡(Residual network)。

團隊 2019 年發表論文

【大藏經的組譯:當 AI 遇見佛教】,介紹了其自動標點技術

賢超法師解釋道,以往的神經網絡最多就是十幾層、二十多層的結構,如果層數再多,訓練結果就不太容易收斂了。而殘留誤差網絡動輒幾百層,甚至上千層。更深的網絡有助於捕捉到更深層的語意資訊,這是其大獲成功的關鍵。

團隊也曾嘗試使用摺積神經網絡(CNN),最終效果是,殘留誤差網絡比摺積神經網絡的標點準確率平均高出 20-30% 左右。

AI 自動標點工具效率如何呢?賢超法師用一天時間完成了 2 萬字左右規模的古文標點,按照古籍標點每千字 15 元的一般稿酬水平,相當於一天創造了 300 元的經濟價值。即使自動標點的準確率只按照 60% 來算,其每天也創造了 180 元的價值。

團隊對該自動標點工具也在不斷升級

目前最新一代的準確率達到 93.3%

目前,由於賢超法師團隊的訓練數據多取自佛經,因此其自動標點更適合標點佛教典籍。不過,他表示,未來該技術也將套用在,經史子集等更多領域的古文獻整理工作之中,從而讓學者們擺離線械、重復性的勞動。

今後的古籍點校工作模式有希望改為:AI 先斷句、加標點;專業學者進行後期校對、修改。

賢超法師團隊在 18 年就開源了這一自動標點的線上服務,存取古籍·酷(http://gj.cool)可以試用,還可以申請免費呼叫 API。

辨識、轉譯:AI 成為佛經中文化百寶箱

除了自動標點,賢超法師還將 AI 套用古籍研究的多個方面。

文白對句:對齊 & 轉譯

文白對句,也就是古文到現代文的對齊和轉譯。為了實作 AI 文白對句,賢超法師首先構建了一個文白對齊的語料庫,然後設計了一個對齊演算法,取得了很好的效果。根據相似度和差異度這兩個獨立指標,可以非常容易地定位出對齊錯誤的句子。

將【大藏經】轉譯並單句分離開對齊

有助於人工後期檢索與校對

由於【大藏經】專業名詞眾多,且歷代轉譯著作語料繁雜,因此並非古文相關專業就能搞定。【大藏經】的總字數以億計,如果僅依靠有限的幾位專家,工作量將十分巨大,所以,AI 的介入,為專家們分擔了不少工作量。

基於深度學習的 OCR,辨識古籍文字

目前市面上的 OCR 軟件都是針對印刷體的,因此不能很好地辨識古籍文獻中的字型。

賢超法師及其合作團隊,基於 CNN+LSTM+CTC 框架,開發了新的 OCR 引擎。然後基於【大藏經(高麗版)】的七萬多張整圖,168 萬條文本行影像的數據集進行訓練。

基於弱監督學習的精確文字分割

最終,其開發的 OCR 方法能夠進行古籍的單字辨識、單列辨識和半自動的多列辨識,能夠有效地完成各類古籍的電子化工作。

OCR 軟件辨識古文將其數碼化

科技與佛法:以悲憫為內核的不同外化

佛法與科技,距離並不遙遠。

我們也曾在【本世紀,佛祖派機器人來弘揚佛法】一文中,對佛教與科技融合的趨勢做出過報道,近年來湧現的賢二機器人、機器觀音、智能佛珠等等,早已講科技深刻和諧地融入進佛法。

科技與佛學的融合中佳作頻出,吸引關註

龍泉寺的另一位知名高僧、IT 禪修營的創辦者賢信法師,在一次訪談裏被提問佛法和科技的關系。

他回答:「科技,是追求物質世界的真。佛法,是內心世界的真。很多在科學上做出探索、在技術上做出探索的人,最開始是抱著想為人類做貢獻的心,跟佛教提出最慈悲的追求也是相共的,這就是科技與佛法的共同點。」

參考資料:

賢超小和尚公眾號:【人工智能與中華文明的碰撞交融】

2050 雲棲大會:【賢度法師——龍泉寺的科技實踐】

龍泉寺自動標點工具:http://gj.cool/gjcool/index