2018人工智能之机器翻译研究报告.pdf
机器翻译研究报告 目录 1 概述篇 . 1 1.1 机器翻译简介 . 2 1.2 机器翻译发展历程 . 2 1.3 我国机器翻译现状 . 5 2 技术篇 . 8 2.1 理性主义方法 . 9 2.1.1 基于规则的机器翻译 . 9 2.2 经验主义方法 . 12 2.2.1 基于统计的机器翻译 . 13 2.2.2 基于实例的机器翻译 . 15 2.2.3 基于深度学习的机器翻译 . 16 3 人才篇 . 20 3.1 领军人物 . 22 3.2 中坚力量 . 28 3.3 领域新星 . 33 4 应用篇 . 35 5 趋势篇 . 38 图表目录 图 1 抽象转换的分层实现 . 3 图 2 机器翻译技术源头 . 4 图 3 机器翻译过程 . 9 图 4 机器翻 译 的 转换层 面 . 10 图 5 直接翻译过程 . 10 图 6 基于转换方法的翻译流程 . 11 图 7 中间语言与转换方法比较 . 12 图 8 中间语转换翻译过程 . 12 图 9 统计机器翻译典型模型 . 13 图 10 基于统计的机器翻译模型 . 14 图 11 基于实例方法翻译过程 . 15 图 12 深度学习发展脉络 . 16 图 13 机器翻译领域全球学者分布 . 21 图 14 机器翻译领 域中国学者分布图 . 21 图 15 机器翻译领域全局热度 . 39 图 16 机器翻译领域近期热度 . 39 摘要 随着计算机科学技术的发展,机器翻译作为自然语言处理研究的重要组成部分越发受到人们关注。经过了几十年的努力,以机器翻译为代表的自然语言处理工作取得了巨大的进展,并且在未来有着广阔的发展空间,为了梳理机器翻译领域的研究概括,我们编写了此份报告,主要内容包括: 机器翻译概论 。 首先 对机器翻译进行了 定义,接着对机器翻译的发展历程进行了梳理 ,对我国机器翻译现状进行了 介绍 。 机器翻译技术原理 。机器翻译的技术原理可以概括为基于理性主义的方法 和 基于经验主义的方法两种,分别对两种方法 下的基于规则的翻译方法、基于实例的翻译方法、基于统计的翻译方法 以及 基于深度学习的翻译方法进行介绍。 机器翻译领域专家介绍。 利用 AMiner 大数据 对机器翻译领域专家进行深入挖掘,选取国内外有代表性的专家进行 介绍。 机器翻译的应用及趋势预测。 机器翻译在现实生活中应用广泛,在文本翻译、语音翻译、图像翻译和视频、 VR 翻译等 领域均有了不同的进展,在此基础上,对机器翻译未来的发展趋势做出 相应的预测。 1 1 概述篇 2 1.1 机器翻译简介 机器翻译( Machine Translation)是指运用机器,通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。机器翻译是一门交叉学科(边缘学科), 组成它的三门子学科分别是计算机语言学、人工智能和数理逻辑,各自 建立在语言学、计算机科学和数学的基础之上。 机器翻译可以实现世界上不同国家不同语言间的低成本交流,其主要优点体现为: 成本低 。 相对于人工翻译来说,机器翻译的成本要低很多。机器翻译需要人工参与的程序其实很少,基本上由计算机自动完成翻译,大大降低了翻译成本。 易把控 。 机器翻译的流程简单快捷,在翻译时间的把控上也能进行较为精准的估算。 速度快 。 计算机程序的运行速度非常快,其 速度是人工翻译速度不可比拟的。 由于这些优点,机器翻译 在这几十年来 得到了快速的发展 。 在具体应用上一般分为三种,分别是:词典翻译软件、计算机辅助翻译软件和机器翻译软件。 第一种是最基本的网络查词翻译,查询对象一般为单个的字词、简单的词组或者是固定结构。 第二种为计算机辅助翻译,英文简称 CAT( Computer Aided Translation),其原理为利用计算机的记忆功能将译者之前翻译的资料进行整理,以便为之后出现 的 类似翻译提供便利条件。 CAT 软件产业已经比较成熟 , 例如 Google Translator Toolkit、 Microsoft LocStudio 等,Trados(塔多思) 占有国际计算机辅助翻译软件产业绝大多数的市场份额,微软、西门子等国际大公司都是它的用户。 第三种是机器翻译软件,也叫做计算机翻 译,即 MT( Machine Translation)。 其原理为应用计算机 按照一定规则把一种自然语言转换为另一种目标自然语言。此过程一般指自然语言之间句子和段落等的翻译,大部分见诸于世的翻译软件,如谷歌翻译、金山词霸和有道翻译等均属于机器翻译软件。 1.2 机器翻译发展历程 机器翻译思想正式提出于 1949 年, Warren Weaver 发表翻译备忘录,在那以后至今的时间里,机器翻译研究经历了一个曲折的发展过程。 第一台数字电子计算机诞生于 1946 年,从那以后,人们就开始思索如何运用计算机代替人从事翻译工作的问题, 甚至在此之前,图灵就已经开始思考计算机是否能够进行思维这一问题 。 1949 年,信息论先驱 Warren Weaver 发表了有关机器翻译的备忘录,提出了机器翻译的可计算性,他提出两个主要观点:第一,他认为翻译类似于解读密码的过程 ; 第二 , 他认为原文与译文“说的是同样的事情”,因此,当把语言 A 翻译为语言 B 时,就意味着从语言 A 出发,经过某一“通用语言”或“中间语言”,可以假定是全人类共通 的。这是机器翻译发展初始阶段的第一件标志性事件; 1954 年美国乔治敦大学( Georgetown)在 IBM 的 协同下进行的英俄翻译实验开始 了,在翻译自动化方面的尝试 是机器翻译发展初始阶段的第二件标志性事件。 3 总体来说,这一阶段人们头脑中已经形成了机器翻译的概念,并且已经意识到 可以 利用语法规则的转换和字典来实现翻译目的。人们乐观地认为只要扩大词汇量和语法规则,在不久的将来,机器翻译问题会比较完美地得以解决。所以在此之后的很长一段时间,全球各国大力支持机器翻译项目,一个机器翻译研究的高潮就此形成。 好景不长, 1966 年 11 月,美国语言自动处理咨询委员会( ALPAC)从机器翻译的速度、质量 、 花费以及当时人们对机器翻译的需求等几个角度,对当时的各个翻 译系统进行了一次评估,公布了著名的 APLAC 报告,给机器翻译研究工作浇了一盆凉水。报告提出,机器翻译的译文质量明显 远低于人工翻译,难以克服的“语义障碍”是 当 时机器翻译遇到的问题,这份 报告全面否定了机 器翻译的可行性,建议各大机构停止对机器翻译的投资和研究。尽管报告的结论过于仓促、武断,但是这一阶段关于机器翻译的研究的确没有解决许多至关重要的问题,并没有对语言进行深入的分析。此后在世界范围内,机器翻译出现了空前的萧条局面。 20 世纪 80 年代末,由于微处理器的出现,计算机能力获得了突飞猛进的发展,机器翻译这一学科 有着极大的开发潜力和经济利益,被重新提起。许多大公司开始投入资金和人力进行研究,使得机器翻译得到了复苏和重新发展的机会。这一时期,计算 机和语言学的一些基础工作,比如许多重要的算法的 研究已经到达了一个比较深入的阶段,对语法和语义的研究也已经有了一些比较重大的成果,词法分析、句法分析的算法相继得到开发,并且加强了软件资源,例如电子词典的建设。翻译方法以转换方法为代表,开始普遍采用以分析为主,辅以语义分析的基于规则方法来进行翻译,采用抽象转换表示的分层实现策略,如图 1。语法与算法的分开是这一时期机器翻译的另一个特 点。所谓语法与算法分开,就是指把语言分析和程序设计分开来成为两部分操作,程序设计工作者提出规则描述的方法,而语言学工作者使用这种方法来描述语言的规则。 图 1 抽象转换的分层实现 现在,机器翻译已经成为世界自然语言处理研究的热门。原因之一是网络化和国际化对翻译的需求日益增大,翻译软件商业化的趋势也非常明显。这一时期的翻译方法我们一般称之为基于经验主义的翻译方法,主要是基于实例和基于统计的方法,特点是注重大规模语料库的建设 , 开始了针对大规模的真实文本处理 。 同时 , 这一阶段的研究工作开始解决一个比文本翻译更加复杂和艰难的问题 语音翻译 。 而且由于 Internet 上的机器翻译系统具有 巨大的潜在市场和商业利益,此时网上翻译机器系统也进入了实用领域的新突破阶段。 4 图 2 机器翻译技术源头 机器翻译功能越来越强大,从最初只能进行简单的单词翻译,到之后可以翻译出基本符合语法的句子,慢慢可以翻译具有一定逻辑性的句子,现在部分软件已经可以自主联系上下文进行翻译,翻译结果的准确性与可读性都已经取得了非常大的进步。 近年来,加入了“深度学习技术”等人工智能的机器翻译已经不止于简单的将一个个单词翻译成另一种语 言,而是可以像人工翻译一样,不断向前回顾理解结构复杂的句子,同时联系上下文进行翻译。最为明显的 是现在的部分机器翻译软件已经可以理解每一个代词具体指代谁,这在许多年 前是不可想象的。 实现这种功能的关键,分别依赖于两种神经网络架构,一个是循环神经网络( RNN,Recurrent Neural Networks),另一个是卷积神经网络 ( CNN, Convolutional Neural Network),目前关于两种网路架构哪种更适用于机器翻译的争论还有很多。 循环神经网络 循环神经网络的关键在于“循环”二字,计算机系统会“记住”上一次输出的内容,并以此来决定下一次输出。有了上一次和下一次的概念,神经网络就不会把输入和输出的信息看作是独立的,而是 看作 相互关联的时间序列。这样可以通过以往的序列关联猜测到下一个序列会出现的词。在翻译时,神经循环网络把源语言当作输入序列,把翻译语言当作输出序列,由于每次的输出都会参考上一次输出的结果,所以机器翻译更具有整体性,可读性和准确性更高,而不是简单地翻译单词。目前,循环神经网络运用最为熟练的应该是谷歌翻译,谷歌曾提出利用神经网络系统进行机器翻译,据称汉译英的错误率最高下降 了 85%。 卷积神经网络 卷积神经网络可以同时处理多个语言片段,并且具有信息分层处理能力。将文本序列化、单 词向量化,经过分层处理后再输出结果。在分层 过程中,还会不断回顾源 文本来确定下一个输出序列。 首先应用 这种技术的是 Facebook 和最近的机器翻译新秀 DeepL。 2017 年上半年, Facebook 宣布推 出了基于卷积神经网络开发的语言翻译模型,据说比基于循环神经网络开发的语言翻译模型速度可以快 9 倍,而且准确率更高。在测试上, Facebook 翻译系统在英 语 -德语、英语 -法语的测试上都比循环神经网络更接近人工翻译。 不管是哪种系统,都不是机器翻译的终点,比如谷歌近期提到 的不再 基于卷积神经网络的注意力机 制,以及多层神经网络、深度神经网络等,都是解决机器翻译问题 的探索 ,在速 5 度、计算机资源消耗、情感理解等多种维度上各有不同的表现。 1.3 我国机器翻译现状 中国的机器翻译研究始于 20 世纪 50 年代,但是由于国际环境和电脑发展水平的束缚,国内真正对机器翻译的研究是在 20 世纪 80 年代晚期。具有重要意义的标志性成果是著名的“ 863 智能英 -汉翻译系统”。 20 世纪 90 年代,随着电脑技术的发展和对外交流的扩大,机器翻译的使 用变得日趋频繁;机器翻译不仅是必要的,而且随着 机器翻译软件发展到了前所未有的新高度,机器翻译也成为可 能。机器翻译研究形成了独立研究机构和政府研究组织共存的良好面貌 。国内成功的机器翻译的开发也呈现出前所未有的繁荣景象。 第一阶段的开发期是在 1957 年,中科院语言研究所、电脑科技研究所与中俄机器翻译合作,成功译出了九类复杂的句式。作为世界上的两种重要语言,英汉互译是国内外诸多学者所关心的。 第二阶段由于政治原因和机器翻译固有的困难而停滞。在此阶段,汉英机器翻译研究几乎止步不前。 第三阶段是大发展阶段,始于 1975 年。国内的机器翻译列入了“六五 ”“ 七五 ”“ 863”等主要研究计划。研究者集中精力进行了多个科研院所 的协作研究,开展了与国际研究机构的 合作和沟通,不仅培养了大批人才,积累了资源,而且把我国机器翻译带入了繁荣期。 上世纪 90 年代以来 , 我国相继推出了一系列机器翻译软件 , 例如 “ 译星 ”“ 通译 ”等 。随着市场需求的扩大,机器翻译成为一种新兴产业,走向了专业化和市场化。 近几年国内机器翻译发展很快,各大 IT 公司都 相继推出自己的机器翻译系统,而且 神经翻译技术 和深度学习技术 作为一种新的机器翻译范式,在诸多语种及应用场景中的翻译质量已经超越了统计机器翻译技术,并成为目前学术界 和工业界研究的热点,以下对各大 IT公司机器翻译进展 逐一介绍 。 2010 年初,百度组建了机器翻译核心研发团队, 2011 年 6 月 30 日,百度机器翻译服务正式上线, 目前, 百度翻译 支持全球 28 种语言互译、 756 个翻译方向,每日响应过亿次的翻译请求。此外,百度翻译还开放了 API 接口, 目前已有超过 2 万个第三方应用接入。华为、 OPPO、中兴、三星等手机厂商,金山词霸、灵格斯词霸、敦煌网等众多 产品 均接入了百度翻译 API。 百度还 将基于神经网络的机器翻译引入机器翻译中, 这一应用比谷歌翻译要早一年, 在海量翻译知识获取、翻译模型、多语种翻译技 术等方面取得重大突破,实时准确地响应互联 网海量、复杂的翻译请求 。其 所研发的深度学习与多种主流翻译模型相融合的在线翻译系统以及基于 “ 枢轴语言 ” 等技术,处于业内领先水平,在国际上获得了广泛认可。 科大讯飞成立之时就开始 在 语言和翻译领域 布局 项目。基于深度神经网络算法上的创新和突破,科大讯飞在 2014 年国际口语翻译大赛 IWSLT 上获得中英和英中两个翻译方向的全球第一名;在 2015 年又在由美国国家标准技术研究院组织的机器翻译大赛中取得全球第一的成绩。 2017 年 科大讯飞 还推出了多款硬件翻译产品,其中晓译翻译机 1.0plus 将世界上最先进的神经网络翻译系统,从 在线系统优化成一个离线系统。 它可以在没有网络的情况下提 6 供基本的翻译服务。 阿里巴巴 2015 年 收购 了 国内最大的众包翻译平台 365 翻译, 开始涉入机器翻译领域 。 2016 年 10 月起正式开始自主 研发 NMT 模型, 2016 年 11 月首次将 NMT 系统的输出结果应用在中英消息通讯场景下的外部测评中,并取得了不错的成绩 2017 年初 阿里 正式上线了自主开发的神经网络翻译 系统 ,为阿里经济体复杂多样的国际化需求提供可靠的技术支撑。阿里机器翻译是基于阿里巴巴海量电商数据并结合机器学习、自然语言处理技术,实现多语言语种识别与自动翻译功能,为跨境电商信息本地化与跨语言沟通上提供精准、快捷、可靠的在线翻译服务,其宗旨是 “ 让商业没有语言障碍 ” 。 2016 年初,腾讯开始研发 AI 翻译产品, 并 正式推出机器人翻译 翻译君 ,支持中英日韩法德意土等 15 种语言和 80 个语种的对翻译。 2017 年宣布翻译君上线“同声传译”新功能,用户边说边翻的需求得到满足,语音识别 +NMT 等技术的应用保证了边说边翻的速度与精准性。腾讯 机器翻译基于腾讯领先的底层算法、丰富的中文 知识图谱和先进的 NLP 引擎能力,结合了神经网络机器翻译和统计机器翻译的优点,对源语言文本进行深入理解,使翻译效果更为准确,同时支持语音翻译、图片翻译、语种识别等多种场景,大大减轻传统文本翻译的读写成本。 机器翻译 是搜狗人工智能战略中的重要一环,一方面可以满足用户在搜索过程中 大量 的机器翻译需求,一方面还可以通过搜索和机器翻译技术的结合,帮助中文用户打破语言障碍,搜索并浏览全世界外语信息。 2016 年 5 月 19 日,搜狗正式上线英文搜索。搜狗英文搜索 提供跨语言检索功能,可自动将中文翻译成英文进行查询,再生成英文查询结 果。对于不擅长英文的用户,可以节省很多 “ 先翻后搜 ” 的搜索时间 2017 年 11 月的乌镇世界互联网大会上,搜 狗展示了机器同传技术,可将演讲者的中文同步翻译成英文并实时上屏 12 月 21 日,搜狗英文搜索正式升级为搜狗海外搜索频道,并同步上线了搜狗翻译频道。 2018 年 3 月,搜狗上线定位旅游用的翻译机 翻 译宝开始了在机器翻译领域硬件的探索。 目前,搜狗已经上线了基于神经网络的机器翻译频道,并发布了跨语言搜索系统,为用户提供高质量的英文网页搜索服务,并同时能够将搜索结果翻译为中文帮助用户理解。 网易 2011 年创立网易感知与智 能中心,拥有自建分布式深度学习平台,其自主研发的图像处理、语音识别、智能问答等 AI 技术,已经在有道翻译中 得到了应用和推广。 2017 年5 月 网易有道 在 GMIC 未来创新峰会上公布:由网易公司自主研发的神经网络翻译技术正式上线。此次在有道上线的 YNMT 技术,由网易有道与网易杭州研究院历时两年合力研发,让以中文为中心的、根据中文用户使用习惯定制的神经翻译系统服务于 6 亿有道用户, 服务于有道词典、有道翻译官、有道翻译网页版、有道 e 读等产品。 除了 BAT 这类大型的 IT 公司, 一些 机器翻译的创业公司如火如荼的发展起来。例如 “ 小牛”翻译,由东北大学计算机科学与工程学院自主研发的机器翻译系统 Niu Trans, 荣获钱伟长中文信息处理科学技术一等奖,这是国内中文信息处理领域的最高科学技术奖项。 小牛翻译团队于 2012 年 5 月创立了沈阳雅译网络技术有限公司,聚焦机器翻译的产学研一体化发展,提供企业级机器翻译服务解决方案。 小牛翻译是目前国际上功能最强的两个开源统计机器翻译之一,目前有 70 多个国家的 2000 多个高校和企业研究机构下载使用。 小牛翻译除 7 了有统计机器翻译开源系统 之外, 还有商用的机器翻译系统 。 目前小牛翻译已经支持,以中文为核心,与其他 64 种语言机器翻译,在技术上已经转换为最新的神经机器翻译模型。 由微软亚洲研究院和微软搜索技术中心的资深技术专家创立的爱特曼科技 ( Atman)是一家人工智能创业公司,创立仅三个月产品还没上线便获得千万级的天使轮投 资。该公司聚焦于世界领先机器翻译技术的研发和应用,核心技术有机器翻译、语音识别、机器写作、知识图谱等,提供的产品和服务包括:领先机器翻译技术结合译后编辑重构高质量语言转换服务、外媒内容全链条生产平台 ,包括 外媒选材、机器翻译、在线编辑、自动分发等。 总而言之 , 机器翻译在我国从无到有,现如今其发展更是有着 新的广度和深度,深刻的时代意义和现实价值。 8 2 技术篇 9 机器翻译的过程 包括三 个阶段, 原文分析、原文译文转换和译文生成。 根据不同的翻译目的和翻译需求,在某一具体的机器翻译系统中,可以将原文分析和原文译文转换相结合,独立出译文生成,建立相关分析独立的生成系统。在这一翻译过程当中,机器翻译在进行原文分析时要考虑文本的结构特点,而在译语生成时则不考虑源语的结构特点。也可以结合原文译文转换与译文生成,把原文分析独立出来,建立独立分析相关生成系统。此时,文本分析时不考虑译语的结构特点,而在译语生成时要考虑源语的结构特点。还可以让原文分析、原文译文转换与译文生成分别独立,建立独立分析独立生成系统。在这样的系统中,分析源语时不考虑译语的特 点,生成译语时也不考虑源语的特点,通过原文译文转换解决源语译语之间的异同。 图 3 机器翻译过程 自机器翻译诞生以来,其研究围绕理性主义方法和经验主义方法两种思潮进行了两次转变。 所谓“理性主义”的翻译方法,是指由人类专家通过编撰规则的方式,将不同自然语言之间的转换规律生成算法,计算机通过这种规则进行翻译。这种方法理论上能够把握语言间深层次的转换规律,然而理性主义方法对专家的要求极高,不仅要求了解源语言和目标语言,还要具备一定的语言学知识和翻译知识,更要熟练掌握计算 机的相关操作技能。这些因素都使得研制系统的成本高、周期长, 面向小语种更是人才匮乏非常困难。因此,翻译知识和语言学知识的获取成为基于理性的机器翻译方法所面临的主要问题。 所谓“经验主义”的翻译方法,指的是以数据驱动为基础,主 张计算机自动从大规模数据中学习自然语言之间的转换规律。由于互联网文本数据不断增长,计算机运算能力也不断加强, 以 数据驱动为基础的统计翻译方法逐渐成为机器翻译的主流技术。但是同时统计机器翻译也面临诸如数据稀疏、难以设计特征等问题,而深度学习能够较好的环节统计机器翻译所面临的挑战,基于深度学习的机器翻译现在正获得迅速发展,成为当前机器翻译领域的热点。 2.1 理性主义方法 2.1.1 基于规则的机器翻译 基于规则的机器翻译方法( Rule-based System)的基本思想认为,一种语言无限的句 子可以由有限的规则 推导出来。依据语言规则对文本进行分析,再借助计算机程序进行翻译,这是多数商用机器翻译系统采用的方法。 基于规则的方法比较直观,能够直接表达语言学家的知识。 规则的颗粒具有很大的可收 10 缩性,大颗粒度的规则具有很强的概括能力,而且有比较好的系统适 应性,不依赖于具体的训练语料;小颗粒度的规则具有精细的描述能力, 这种方法便于处理复杂的结构和进行深层次的理解,如解决长距离依赖等问题 。 但是,基于规则的翻译方法中规则主观因素比较重,有时与客观事实有一定差距;规则的覆盖性比较差,特别是细颗粒度的规则很难总结得比较全面;规则之 间的冲突没有好的解决办法;规则库的调试是一个漫长枯燥的过程;规则一般只局限于某一个具体的系统,规则库开发成本太高。 图 4 机器翻 译 的 转换层 面 基于规则的机器翻译系统中,主要包括词法、句法、短语规则和转换生成语法规则,通过三个连续的阶段实现分析、转换、生成,根据三个阶段的复杂性可以分为直接翻译、结构转换翻译和中间语翻译。 直接翻译 直接翻译是指把源语中的单词或句子直接替换成相应的目的语的单词,必要时可以对词序进行适当的调整。这是机器翻译 最 初构想的体现,从目的语中寻找与源语词汇相对应的单词, 但并不是电子词典 word-to-word 的形式,而是翻译句子中的所有词汇,再 通过词语翻译、 插入、删除和局部的词序调整来实现翻译,不进行深层次的句法和语义的分析,直接翻译应用的后期也加入了一些简单的句法或者是语义规则,对替换后的词语进行重新排序,生成最终的目的语文本,也可以采用一些统计方法对词语和词类序列进行分析。 直接翻译是早期机器翻译系统常用的方法,后来 IBM 提出的统计机器翻译模型也可以认为是采用了这一范式,著名的机器翻译系统 Systran 早期也是采用这种方法,后来逐步引入了一些句法和语义分析。 由于目的语和源语在句子语法结构等方面的差别很 大,所以使用直接翻译法翻译出来的句子可读性和准确性都比较低,但 它是机器翻译最实质性的一步,是机器翻译变成现实的一次迈步。 图 5 直接翻译过程 11 结构转换翻译 结构转换 翻译是在直接翻译系统上出现的,相比较于直接翻译,它更多的从句子 层面来分析处理源语与目的语,译文的可读性和准确性更高。结构转换翻译通常包括分析、转换和生成三个阶段。分析要对源语言句子和源语言深层结构进行分析,其中相关分析在分析时要考虑目标语言的特点,而独立分析在分析过程中则与目标语言无关。从源语深层结构向目标语言的深层结构转换是关键部分,生成则是由目标语言深层结构生成目标语言句子,相关生成要考虑语言的特点,独立生成则与源语言无关。这种方法被认为是模拟人类翻译活动最恰当的机制。不同的语言具有相同或者相似的深层结构,就像是一座桥梁,把人类不同的语言连接起来,使得两种语言间可 以实现翻译交流。目前绝大部分商品化机器翻译系统采用转换式机器翻译方法。 理想的转换方法应该做到独立分析和独立 生成,这样在进行多语言翻译的时候可以大大减少分析和生成的工作量, 转换放大根据深层结构所处 的层面可分为句法层转换和语义层转换,分别对应句法信息和语义信息, 分析的深层次越深,歧义排除也就越充分,但同时,错误率也会相对越高。 1 图 6 基于转换方法的翻译流程 人类自然语言中很多单词不止有一个意思,比如中文的“意思”二字就有很多不同的意思,容易产生歧义。在机器翻译中,为了简化比较复杂的表达结构,避免翻译过程中出现有歧义的语言现象,能够独立于各种自然语言,同时还能够清晰准确的表达各种自然语言的人造计算机语言便应运而生,这种作为翻译中介的人造计算机语言被称作中间语。它常见的形式有语义网络( Semantic Network)、框架( Frame)和逻辑( Logic),以某种知识表示形式作为中间语言的机器翻译方法有时候也称为基于知识的机器翻译方法。 中间语言转换翻译 中间语 言转换的机器翻译原理其实是在不同的语言之间建立一个通用的语义 -句法表达式。整个翻译 过程分为“分析”和“生成”两个阶段,由源语言到中间语言的生成,由 中间语言到目标语言的生成环节。分析过程只与源语言有关,与目标语言无关,生成过程只与目标语言有关,与源语言无关。 1刘群 机器翻译原理与方法讲义 12 中间语言方法的优点在于进行多语种翻译的时候,只需要对每种语言分别开发一个分析模块和一个生成模块,模块总数为 2*n,相比之下,如果采用转换方法就需要对每两种语言之间都开发一个转换模块,模块总数为 n*( n-1)。 图 7 中间语言与转换方法比较 中间语言方法一般 用于多语言的机器翻译系统中,从实践看,采用某种人工定义的知识表示形式作为中间语言进行多语言机器翻译都不太成功,如日本主持的亚洲五国语言机器 翻译系统,总体上是失败的。在 CSTAR 多国机器翻译系统中,曾经采用了一种中间语言方法,其中间语言是一种带话语信息的语义表示形式,由于语音翻译都限制在非常狭窄的领域中(如旅游领域或机票预定),语义描述可以做到比较精确,因此采用中间语言方法有一定的合理性,但该方法最终也不成功。 实际上,领域特别窄的场合可以采用中间语言方法,一个 适合于中间语言方法的例子是数词的翻译,采用阿拉伯数字作为中间语言显然是比较合理的。 图 8 中间语转换翻译过程 2.2 经验主义方法 20 世纪 80 年代末至 90 年代初,随着计算机技术的快速发展,大规模双语语料库的构建以及机器学习方法的兴起,机器翻译方法逐渐由基于理性主义思维的规则方法转向基于经验主义思维的语料库方法。基于语料库的机器翻译方法又可以进一步划分为基于实例的翻译方法和基于统计模型的翻译方法。 基于语料库的方法使用语料库 作为翻译知识的来源,无需人工编写规则,系统开发成本低,速度快;而且从语料库中学习到的知识比较客观,覆盖性也比较好。但是这种系统性能严重依赖于语料库, 有着严重的数据稀疏问题 ,也不容易获得大颗粒度的高概括性知识。 13 2.2.1 基于统计的机器翻译 统计机器翻译( Statistics-based machine translation)的基本思想是充分利用机器 学习技术,通过对大量的平行语料进行统计分析进行翻译。通俗来讲,源语到目的语的翻译过程是一个概率统计的问题,任何一个目的语句子都有可能是任何一个源语的译文,只是 概率不同,机器翻译的任务就是找到概率最大的那个句子。 20 世纪 90 年代初期, IBM 的研究人员提出了基于信源信道思想的统计机器翻译模型,并在实验中获得了初步的成功,正式标志着统