呆板进修已能翻译失传已久的语言

网络 林晓舟 2019-07-18 14:03  阅读量:8271   

 
 
呆板进修已能翻译失传已久的语言  
 

对失传已久的语言举办破译,一直是考古学家和语言学家存眷的核心和难点。跟着大型注释库的应用以及呆板进修技能的成长,人们开始思考,呆板可否辅佐破译失传已久的语言。克日,美国麻省理工学院的罗家明和雷吉娜·巴兹雷以及加州山景城谷歌人工智能尝试室的曹元团队发现了可以或许破译失传语言的呆板进修系统,并用它破译了线形文字B。

1886年,英国考古学家阿瑟·埃文斯在地中海的克里特岛发明白刻着怪异未知语言铭文的陈腐石头。而石头上所刻的正是线形文字A和线形文字B。

线形文字A可追溯到公元前1800年至1400年间,其时该岛被青铜时代的米诺斯文明统治。线形文字B在公元前1400年后呈现,其时该岛被来自希腊大陆的迈锡尼人征服。多年来,考古学家一直试图破译这些陈腐的文字,但都失败了。直到1953年,业余语言学家迈克尔·文特里斯破译了线形文字B。

但破译更陈腐的线形文字A至今仍是语言学中令人瞩目标困难。

罗家明等人发现的破译失传语言的呆板进修系统,通过破译线形文字B证实了这一系统的有效性——这是首次呆板完成自动破译,其实现方法与呆板翻译技能差异。

呆板在不知其意的环境下,是如何实现翻译的呢?

无论呆板翻译哪种语言,道理都是从目标语中寻找与源语词汇相对应的单词,因而首先要将特定语言的对应干系映射出来。这一进程需要复杂的文本数据库。呆板通过搜索该文本库,得出每个单词和每个与它相邻单词呈现的频率。每个单词可以看做多维参数空间中的一个向量,该向量作为约束条件,限制了对应单词呈此刻呆板翻译中的形式,而且这些向量会遵循一些简朴的数学法例。

呆板翻译的要害是,差异语言中的单词在各自参数空间内占据着沟通的“点”。这使得从一种语言一对一映射到另一种语言成为大概。因此,翻译句子的进程酿成了在这些空间中寻找相似轨迹的进程。呆板甚至无需“知道”这些句子的寄义。

罗家明等人研发的呆板进修系统,其约束条件与语言成长方法息息相关。该道理是任何语言只能以特定的方法改变——好比,对应语言中的标记以相似的漫衍呈现,对应单词以沟通的字符顺序分列,以此类推。有了这些法则约束呆板,只要知道源语言,就可以轻松破译。

为了更好地测试该技能,罗家明等人利用了两种消失的语言——线形文字B和乌加里特语。线形文字B记录了古希腊的早期形式,而发明于1929年的乌加里特语则是希伯来语的早期形式。

试验证明,罗家明等人研究的呆板进修系统能很是精确地翻译这两种语言。“在破译进程中,我们能精确地将67.3%的线形文字B的同源词翻译成对应的希腊语。”他们说,“我们的尝试是呆板自动破译线形文字B的首次实验。”

然而他们却没有提到线形文字A的破译,浩瀚语言学家都认为线形文字A的研究意义重大。所以,在呆板可以或许破译线形文字A之前,仍需取得重大的研究打破。

固然没有源语,新技能也行不通,但呆板翻译的最大利益是,它可以不知倦怠地快速检测一种又一种语言。因此,罗家明和他的团队很大概会利用大致近似法破译线形文字A,试图把它破译成呆板翻译已在利用的每种语言。

田小雨

《中国科学报》 (2019-07-18 第7版 信息技能)

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。