草根影響力新視野 夜未央編譯
好像作為一名古希臘學者從根本上來說還不夠難,他們所依賴的原始文本經常被損壞而無法修復,因為它們已有數千年的歷史。歷史學家可能在伊薩卡擁有一個強大的新工具,這是一種由 DeepMind 構建的機器學習模型,可以對丟失的單詞以及文本的位置和日期做出驚人的準確猜測。這是人工智慧的一種不同尋常的應用,但它證明了它在科技世界之外的用途。
古代文獻不完整的問題涉及專家處理退化材料的許多學科。原始文件可能由石頭、黏土或紙莎草紙製成,用阿卡德語、古希臘語或線性 A 書寫,描述了從雜貨店賬單到英雄旅程的任何內容。但是,它們的共同點是數千年來積累的破壞。
文本被磨損或撕掉的間隙通常被稱為空白,可以短到丟失的字母,也可以長到一章,甚至是整個故事。填寫它們可能是微不足道的,也可能是不可能的,但你必須從某個地方開始—這就是伊薩卡想要提供幫助的地方。
圖片取自:(示意圖123rf)
伊薩卡(以奧德修斯的家鄉島嶼命名)在一個巨大的古希臘文本圖書館接受訓練,不僅可以說出丟失的單詞或短語可能是什麼,還可以拍攝它的年代和書寫地點。它不會獨自完成整個史詩般的循環—它是為那些使用這些文本的人提供的工具,而不是解決方案。
發表在《自然》雜誌上的一篇論文展示了它的功效,並以 Periclean 雅典的一些法令為例。被認為是在公元前 445 年左右寫成的,伊薩卡根據其文本分析建議它們實際上來自公元前 420 年左右—與最近的證據一致。聽起來可能不是很多,但想像一下,如果權利法案真的是在 20 年後編寫的!
至於文本本身,該研究的專家在第一遍就得到了大約 25% 的正確率,並不完全是一流的,儘管文本恢復當然不是一個下午的工作,而是一個長期的項目。然而,與伊薩卡配對後,他們很快就達到了 72% 的準確率。在其他情況下,通常會發現這種情況,人類最終更準確,但可以通過快速消除死胡同或建議起點來加快他們的進度。在醫療數據中,很容易監督人工智慧可能會迅速標記的異常情況—但最終,感知細節並找到正確答案的是人類的專業知識。
儘管古希臘語對於伊薩卡來說是一個顯而易見且富有成果的領域,但該團隊已經在努力研究其他語言。阿卡德語、古埃及通俗語、希伯來語和瑪雅語都在名單上,希望隨著時間的推移會增加更多。
「伊薩卡展示了自然語言處理和機器學習在人文學科中的潛在貢獻,」參與該項目的雅典大學教授 Ion Androutsopoulos 說。「我們需要更多像伊薩卡這樣的項目來進一步展示這種潛力,還需要合適的課程和教材來教育未來的研究人員,他們將對人文學科和人工智慧方法有更好的共同理解。」
資料來源: https://techcrunch.com
Polygon recent comments