术语翻译方法
(1)基于双语括号句子的术语翻译挖掘方法
站在改善***终机器翻译译文质量的角度,我们认为术语翻译知识的质量优
先于规模。因此,我们将目光转向互联网上单语网页上大量存在的双语括号的句子。所谓双语括号句子需要同时满足下列三个条件:包含一个或多个括号;紧临括号的左边是一个术语;该术语的译文在括号内。双语括号句子包含丰富的术语翻译知识,如目标语言术语的上下文信息。相对于平行语料或可比语料而言,双语括号句子的限制更少,更新比较及时且相对更容易抽取术语翻译知识。因此我们认为双语括号句子是挖掘术语翻译知识的理想语料。如以下示例所示,挖掘术语翻译知识的主要任务是确定目标术语的左边界,因为右边界已经由括号给出,且源语言术语的边界是确定的。
各个进程有自己的内存空间、数据栈等,镇江德语翻译公司,所以只能使用进程间通讯(interprocess communication,IPC),而不能直接共享信息。
该方法的输入为种子 URL 和种子术语词典,***终输出为带概率的术语翻译规则表,类似于统计翻译的短语翻译规则表。在工作流中,中间结果包括主题爬虫获取的Web网页和URL,双语括号句子过滤器筛选出的双语括号句子,术语左边界分类器的术语翻译候选列表,以及增量更新后的种子术语词典。
(2)融合双语术语识别的联合词对齐方法
词对齐是统计机器翻译的一项核心任务,它从双语平行语料中发掘互为翻译的语言片断,是翻译知识的主要来源。在实践中,一部分词对齐错误就是术语产生的,***终的译文质量也会受到影响。如果能自动识别出平行句对中的术语对应关系,词对齐质量就能得到改善,进而有望改善术语和句子的翻译质量。
术语识别方面,基于规则的方法已基本退出历史舞台。基于统计方法的方法虽然不受领域限制,但是对于多词术语和低频术语的识别并不理想, 因而抽取的术语也存在较多噪声。所以,如果直接将术语识别结果作为词对齐的约束,术语识别错误就会传递给后续阶段,***终译文质量反而难以得到提升。因此,研究如何提高术语识别和词对齐性能,并提高***终的机器翻译译文质量是迫切需要解决的一个难题。
为了尽量降低训练流程中错误传递的影响以改进术语翻译知识抽取,我们提出了融合双语术语识别的联合词对齐方法。首先,为了降低对训练数据的依赖,该联合词对齐方法从单语术语识别弱分类器开始。该分类器由维基百科等自然标注数据训练得到的。其次,为了降低因术语识别和词对齐的错误传递带来的负i面影响,镇江德语翻译工资,该方法利用双语术语和词对齐的相互约束,将单语术语识别、双语术语对齐和词对齐联合在一起执行,***后得到效果更好的双语术语识别和词对齐结果。
(3)融合术语识别边界信息的统计翻译术语解i码方法
人名、地名、机构名等命名实体有明显的边界特征,相对容易进行识别与对齐。一般而言,将命名实体直接翻译方法用于统计翻译解i码器就可以取得比较好的翻译效果。但是,用与翻译命名实体的方式“直接翻译” 术语并不能明显改善机器翻译自动译文的质量。***主要的原因就是目前的术语识别模型还不够好,识别准确率大幅弱于命名实体识别。另外,由于术语本身是与领域高度相关的,为目标领域训练高性能的术语识别分类器需要大量高质量且同领域的人工标注训练语料,这进一步加大了术语识别的难度。在这种情况下,如果直接将术语识别结果作为词对齐的约束,术语识别错误就会传递给后续阶段,***终译文质量反而难以得到提升。因此,研究如何提高术语识别和词对齐性能,并提高***终的机器翻译译文质量是迫切需要解决的一个难题。
为了尽量降低训练流程中错误传递的影响以改进术语翻译知识抽取,我们提出了融合双语术语识别的联合词对齐方法。首先,为了降低对训练数据的依赖,该联合词对齐方法从单语术语识别弱分类器开始。该分类器由维基百科等自然标注数据训练得到的。其次,为了降低因术语识别和词对齐的错误传递带来的负i面影响,该方法利用双语术语和词对齐的相互约束,将单语术语识别、双语术语对齐和词对齐联合在一起执行,***后得到效果更好的双语术语识别和词对齐结果。
译后编辑/交互式机器翻译
(1)译后编辑
译后编辑简单而言就是通过人工直接修改机器翻译的自动译文来完成翻译。译后编辑是***简单的人机交互方式。SDL Trados等计算机辅助翻译工具通常支持谷歌翻译等API来直接获取机器翻译的自动译文,因此译后编辑是目前***i流行的辅助形式。如果机器翻译的自动译文质量较高,人工修改量就比较少,这种方式可以有效提升译员的生产效率。但在行业实践中,译后编辑面临诸多现实挑战,有时甚至仅仅是聊胜于无。主要原因在于当前的机器翻译系统对应的译文质量远未达到人工翻译场景的用户期望。如果机器翻译的自动译文质量较差,译员不得不为了少打几个字而***分析和修改漏洞百出的整句译文,其代价远超过直接翻译。僵化的译文和似是而非的术语翻译使得译员使用机器翻译的热情并不高,镇江德语翻译,而重复纠正相同错误的乏味感和反复修改仍不能满意的挫败感也使用户感到沮丧。
近两年来,***网络机器翻译发展迅猛,译文质量显著提升,镇江德语翻译机构,同时也带来了新的挑战,如“顺而不信”和翻译结果难以干预等问题。因此,***网络机器翻译仍需要相当长时间才可能在实践中显著改善译后编辑的人机交互体验。
(2)交互式机器翻译
交互式机器翻译指系统根据用户已翻译的部分译文动态生成后续译文候选供用户参考。译员从零开始翻译,因此译员无需修改自动译文,仅在翻译过程中选择可接受的部分即可。该技术指在通过翻译人员与机器翻译引擎之间的交互作用,从而实现人类译员的准确性和机器翻译引擎的高i效性。
与译后编辑相比,交互式机器翻译系统对技术实现有更高的要求:从左至右的强制解i码和流畅的实时响应。同时,因为需要译员反复阅读和理解***i新的译文部分,这种模式也给用户带来了额外负担。因此,目前流行的在线翻译系统和计算机辅助翻译工具并不支持交互式机器翻译模式。目前的交互式机器翻译系统仍处于原型阶段。可喜的是,从近期机器翻译技术的发展,尤其是基于***网络机器翻译的交互式机器翻译的进步可以预见,交互式机器翻译有望成为未来人工翻译的候选项之一。
语言问题是两种语言在几个层面上存在的与规范和差异有关的问题,这几个层面包括:词汇、形态、句法、风格和文本(如衔接、连贯、主题发展、文本类型和互文性)。非语言问题涉及有关主题、文化或各种学科知识的问题。工具性问题源自研究中的难点。语用问题与源语中的言语行为、作者意图、预设的立场和含义、由翻译任务的具体细节引起的问题、目标受众的特征、以及翻译的语境有关。这些潜在问题很容易使新手译者(甚至是经验丰富的译者)陷入迷茫。
翻译阶段与错误
版权所有©2024 产品网