【CNMO新聞】古代語言的解釋包括對語義的猜測,以及一詞多義和語境。Alan Turing Institute研究所、華威大學、赫爾辛基大學和亞馬遜的研究人員在最新發(fā)表的一篇論文中提出了一種新的解決方案,該方案涉及到神經(jīng)網(wǎng)絡(luò)或分層的數(shù)學函數(shù)來模擬生物神經(jīng)元,它被稱為古希臘語的類別感知語義變化(GASC),它利用目標文本類型的分類元數(shù)據(jù)來揭示古希臘語數(shù)據(jù)集中含義的演變。
對語義變化進行建模的系統(tǒng)并不新鮮,研究人員已經(jīng)使用了一系列基于主題和基于圖形的自然語言處理模型,來完成解釋任務。但作者指出,很少有人關(guān)注古代語言,而且大多數(shù)都沒有考慮到語言的變異特征。相比之下,該團隊的工作超越了文學數(shù)據(jù)集和歷史語言數(shù)據(jù),直接解決了關(guān)于體裁的問題。
研究人員首先編制了一個預處理語料庫,其中包括820首詩歌、戲劇、演講、哲學、散文、敘事、地圖冊、宗教手稿和公元前8世紀至公元5世紀之間的信件,共逾1000萬字。每個詞都進行了引理 和詞性標記,模型的任務是在給定的上下文中檢測與目標詞相關(guān)的意義,并描述它們隨時間的演變。
研究小組解釋說:”在技術(shù)文本中,我們希望多義詞具有技術(shù)意義。另一方面,在更接近一般語言的作品中,如喜劇、演講、史學等,我們希望這些詞以更具體、更少隱喻的意義出現(xiàn)。”
為了評估人工智能系統(tǒng)的性能,研究人員創(chuàng)建了一個輔助數(shù)據(jù)集和框架。他們在語料庫中選擇了50個可以確定為多義詞的目標詞,其中17個來自希臘語專業(yè)詞匯,33個來自Diorisis語料庫中頻率最高的引理(用來表示詞匯或意義單位的形式)。對于每個單詞,他們隨機地將源語料庫分為訓練集和測試集,并設(shè)計了一種方法,可以自動將模型中與每種感覺相關(guān)的單詞列表與一組由人類專家標注的感覺標簽匹配起來。在實驗中,研究人員報告說,GASC能夠提供詞義演變的可解釋表述,并且與目前的技術(shù)水平相比,它實現(xiàn)了更好的預測性能。
關(guān)于CNMO | 聯(lián)系我們 | 站點地圖 | 精英招聘 | CNMO記事 | 家長監(jiān)護工程 | 舉報不良信息
Copyright © 2007 -
北京沃德斯瑪特網(wǎng)絡(luò)科技有限責任公司.All rights reserved 發(fā)郵件給我們
京ICP證-070681號 京ICP備09081256號 京公網(wǎng)安備 11010502036320號