句容英语翻译公司服务介绍
作者:镇江译林翻译2020/7/14 5:45:49


技术背景

  (1)机器翻译研究历程

  机器翻译的研究在上世纪五十年代就已经展开,早期的工作主要以基于规则的方法为主,进展相对来说比较缓慢。之后美国自然语言处理咨询委I员会还作出了一个质疑了机器翻译的可行性的报告,对该领域研究造成了一定阻碍。到了上世纪九十年代,IBM提出了著i名的基于词的翻译模型,开启了统计机器翻译时代,随后短语和句法模型相继被提出,翻译质量得到了显著提升。***近两年***网络机器翻译方法开始兴起,该方法突破统计机器翻译方法中的许多限制,成为当前的研究热点。

  (2)统计机器翻译

  统计机器翻译的基本思想是充分利用机器学习技术从大规模双语平行语料中自动获取翻译规则及其概率参数,然后利用翻译规则对源语言句子进行解i码。对于给定的源语言句子,统计机器翻译认为其翻译可以是任意的目标语言句子,只是不同目标语言句子的概率不同。而统计机器翻译的任务,就是从所有的目标语言句子中,找到概率***i大的译文。

  (3)***网络机器翻译

  ***网络机器翻译(neural machine translation,NMT)是近年来兴起的一种全新的机器翻译方法,其基本思想是使用***网络直接将源语言文本映射为目标语言文本,这种编码器解i码器架构使得它可以采用端到端的方式进行训练,能同时优化模型中的所有参数。完全不同于传统机器翻译中以基于离散符号的转换规则为核心的做法,需要经过词对齐,抽规则,概率估计和调参等一系列步骤,容易产生误差传播。***网络机器翻译使用连续的向量表示对翻译过程进行建模,因而能从根本上克服传统机器翻译中的泛化性能不佳、***性假设过强等问题。





术语翻译方法

  (1)基于双语括号句子的术语翻译挖掘方法

  站在改善***终机器翻译译文质量的角度,我们认为术语翻译知识的质量优

  先于规模。因此,我们将目光转向互联网上单语网页上大量存在的双语括号的句子。所谓双语括号句子需要同时满足下列三个条件:包含一个或多个括号;紧临括号的左边是一个术语;该术语的译文在括号内。双语括号句子包含丰富的术语翻译知识,如目标语言术语的上下文信息。相对于平行语料或可比语料而言,双语括号句子的限制更少,更新比较及时且相对更容易抽取术语翻译知识。因此我们认为双语括号句子是挖掘术语翻译知识的理想语料。如以下示例所示,挖掘术语翻译知识的主要任务是确定目标术语的左边界,因为右边界已经由括号给出,且源语言术语的边界是确定的。

  各个进程有自己的内存空间、数据栈等,所以只能使用进程间通讯(interprocess communication,IPC),而不能直接共享信息。

  该方法的输入为种子 URL 和种子术语词典,***终输出为带概率的术语翻译规则表,类似于统计翻译的短语翻译规则表。在工作流中,中间结果包括主题爬虫获取的Web网页和URL,双语括号句子过滤器筛选出的双语括号句子,术语左边界分类器的术语翻译候选列表,以及增量更新后的种子术语词典。

  (2)融合双语术语识别的联合词对齐方法

  词对齐是统计机器翻译的一项核心任务,它从双语平行语料中发掘互为翻译的语言片断,是翻译知识的主要来源。在实践中,一部分词对齐错误就是术语产生的,***终的译文质量也会受到影响。如果能自动识别出平行句对中的术语对应关系,词对齐质量就能得到改善,进而有望改善术语和句子的翻译质量。

  术语识别方面,基于规则的方法已基本退出历史舞台。基于统计方法的方法虽然不受领域限制,但是对于多词术语和低频术语的识别并不理想, 因而抽取的术语也存在较多噪声。所以,如果直接将术语识别结果作为词对齐的约束,术语识别错误就会传递给后续阶段,***终译文质量反而难以得到提升。因此,研究如何提高术语识别和词对齐性能,并提高***终的机器翻译译文质量是迫切需要解决的一个难题。

  为了尽量降低训练流程中错误传递的影响以改进术语翻译知识抽取,我们提出了融合双语术语识别的联合词对齐方法。首先,为了降低对训练数据的依赖,该联合词对齐方法从单语术语识别弱分类器开始。该分类器由维基百科等自然标注数据训练得到的。其次,为了降低因术语识别和词对齐的错误传递带来的负i面影响,该方法利用双语术语和词对齐的相互约束,将单语术语识别、双语术语对齐和词对齐联合在一起执行,***后得到效果更好的双语术语识别和词对齐结果。

  (3)融合术语识别边界信息的统计翻译术语解i码方法

  人名、地名、机构名等命名实体有明显的边界特征,相对容易进行识别与对齐。一般而言,将命名实体直接翻译方法用于统计翻译解i码器就可以取得比较好的翻译效果。但是,用与翻译命名实体的方式“直接翻译” 术语并不能明显改善机器翻译自动译文的质量。***主要的原因就是目前的术语识别模型还不够好,识别准确率大幅弱于命名实体识别。另外,由于术语本身是与领域高度相关的,为目标领域训练高性能的术语识别分类器需要大量高质量且同领域的人工标注训练语料,这进一步加大了术语识别的难度。在这种情况下,如果直接将术语识别结果作为词对齐的约束,术语识别错误就会传递给后续阶段,***终译文质量反而难以得到提升。因此,研究如何提高术语识别和词对齐性能,并提高***终的机器翻译译文质量是迫切需要解决的一个难题。

  为了尽量降低训练流程中错误传递的影响以改进术语翻译知识抽取,我们提出了融合双语术语识别的联合词对齐方法。首先,为了降低对训练数据的依赖,该联合词对齐方法从单语术语识别弱分类器开始。该分类器由维基百科等自然标注数据训练得到的。其次,为了降低因术语识别和词对齐的错误传递带来的负i面影响,该方法利用双语术语和词对齐的相互约束,将单语术语识别、双语术语对齐和词对齐联合在一起执行,***后得到效果更好的双语术语识别和词对齐结果。





译者的任务说到底还真的是一个“终i极”问题:它关乎翻译的定义,也关乎译者的身份。确立身份,是确立存在的大事。所以早在差不多一个世纪以前,德国哲学家本雅明就写了一篇在当时读起来很是莫名其妙的文章:《译者的任务》,上来第1段居然就说,没有一首诗是为读者而作,没有一幅画是为观赏者而绘,没有一首交响乐是为听众而谱。也就是说,译者的任务,在高冷的本雅明看来,根本不是为了不懂原文的读者的! 更不要说是为了维护目的语的“显著特征”!

  当然,本雅明这一论断并不适用于翻译实践的具体讨论,虽然本雅明自己做波德莱尔的翻译,也是个译者。他寻求的是藏身于显见的翻译行为背后的隐喻。一些认为翻译的目的就是维护母语纯洁性的学者,因为文中有一句“即使***伟大的译作也注定要成为自己语言发展的组成部分”而将本雅明引为知己,但事实上,当本雅明将他晦涩难懂的文章推进到***后,得出译者的任务是“纯语言”的论断时,所谓的“纯语言”却***是指任何一种具体语言,诸如汉语,英语,德语,法语什么的。“纯语言”是形而上的,有其一定的***意义和神学意义,是上帝的,先验的语言。听上去有些神秘,做过翻译的人却还是能够隐隐约约捕i捉到本雅明的意思:两种语言尚在译者的脑中,在相遇的过程中,却尚未落实在某一种具体语言的套路之时,我们经常会产生一种错觉,有一瞬,我们已经接近了语言之“真”———这个“真”,是语言的能指与所指彼此严丝合缝,再也不会遭遇到人为割裂的状态,无法描述,也无法在某一种具体语言中加以体现。这是经典文本呼唤翻译的根本原因:它为我们接近语言之“真”提供了无数的可能性。然而可惜的是,哪怕是对于1流的译者而言,一旦翻译完成,尽管语言之“真”的状态还能以碎片的形式散落其中,译者却悖论性的终结了自己的求真之路。唯1的希望就只是寄望于未来的其它经验,自己的,或者别人的。




商户名称:镇江译林翻译有限公司

版权所有©2025 产品网