當前位置: CNMO > 新聞 > 新聞 > 消息 > 正文

與古人對話 人工智能使用元數(shù)據(jù)跟蹤古希臘文字演變

CNMO 【編譯】 作者:Lisa,韓媛 韓媛 2019-03-18 11:23
評論(0
分享

  【CNMO新聞】古代語言的解釋包括對語義的猜測,以及一詞多義和語境。Alan Turing Institute研究所、華威大學、赫爾辛基大學和亞馬遜的研究人員在最新發(fā)表的一篇論文中提出了一種新的解決方案,該方案涉及到神經(jīng)網(wǎng)絡(luò)或分層的數(shù)學函數(shù)來模擬生物神經(jīng)元,它被稱為古希臘語的類別感知語義變化(GASC),它利用目標文本類型的分類元數(shù)據(jù)來揭示古希臘語數(shù)據(jù)集中含義的演變。 

  對語義變化進行建模的系統(tǒng)并不新鮮,研究人員已經(jīng)使用了一系列基于主題和基于圖形的自然語言處理模型,來完成解釋任務。但作者指出,很少有人關(guān)注古代語言,而且大多數(shù)都沒有考慮到語言的變異特征。相比之下,該團隊的工作超越了文學數(shù)據(jù)集和歷史語言數(shù)據(jù),直接解決了關(guān)于體裁的問題。 

古希臘文字
古希臘文字

  研究人員首先編制了一個預處理語料庫,其中包括820首詩歌、戲劇、演講、哲學、散文、敘事、地圖冊、宗教手稿和公元前8世紀至公元5世紀之間的信件,共逾1000萬字。每個詞都進行了引理 和詞性標記,模型的任務是在給定的上下文中檢測與目標詞相關(guān)的意義,并描述它們隨時間的演變。

  研究小組解釋說:”在技術(shù)文本中,我們希望多義詞具有技術(shù)意義。另一方面,在更接近一般語言的作品中,如喜劇、演講、史學等,我們希望這些詞以更具體、更少隱喻的意義出現(xiàn)。”

  為了評估人工智能系統(tǒng)的性能,研究人員創(chuàng)建了一個輔助數(shù)據(jù)集和框架。他們在語料庫中選擇了50個可以確定為多義詞的目標詞,其中17個來自希臘語專業(yè)詞匯,33個來自Diorisis語料庫中頻率最高的引理(用來表示詞匯或意義單位的形式)。對于每個單詞,他們隨機地將源語料庫分為訓練集和測試集,并設(shè)計了一種方法,可以自動將模型中與每種感覺相關(guān)的單詞列表與一組由人類專家標注的感覺標簽匹配起來。在實驗中,研究人員報告說,GASC能夠提供詞義演變的可解釋表述,并且與目前的技術(shù)水平相比,它實現(xiàn)了更好的預測性能。

分享

加入收藏

網(wǎng)友評論 0條評論
用其他賬號登錄:
請稍后,數(shù)據(jù)加載中...
查看全部0條評論 >
潮機范兒

Copyright © 2007 - 北京沃德斯瑪特網(wǎng)絡(luò)科技有限責任公司.All rights reserved 發(fā)郵件給我們
京ICP證-070681號 京ICP備09081256號 京公網(wǎng)安備 11010502036320號