`
lovecontry
  • 浏览: 1038450 次
文章分类
社区版块
存档分类
最新评论

基于互联网语料的“机器翻译助手”

 
阅读更多
如果将机器翻译看做是一条线的话,那么线的一头就是类似于金山词霸的词典式方法。这种方法只提供词这一层面的翻译。对于一个不认识的英文单词,通过查找词典可以找到它对应的中文。同样,查找一个中文词可以找到很多个可能对应的英文单词。这种翻译方式很大的一个缺点是缺少翻译中的上下文信息,它只能孤立的进行词与词之间的翻译,而没有考虑到在不同的上下文环境中词的含义是不一样的。例如“吃了午饭”中的“吃”对应的词应该是“eat”,但其实“吃午饭”这个词组一般对应于“have lunch”。
线的另一头则是传统的machine learning所代表的整句的机器翻译技术。包括了三大门派,RBMT(基于规则的机器翻译),EBMT(基于实例的机器翻译),SMT(基于统计的机器翻译)。google的翻译系统就是这样一个系统。但无论是哪个门派,采用哪种方法,这些方法的目的都是提供一个完整的翻译解决方案,就是说在没有任何人工干预的情况下进行整句甚至是整篇文章的翻译。应该说,这是机器翻译的终极目标,但可惜的是,它们的性能都还远远达不到实用的程度(除非在某些小的特定领域)。

以上两种方案大部分人都非常最熟悉,但其实,最近出现了一种新的尝试,介于线两头的某个中间地段。我试图举个例子来说明这种方法。
有道海量词典很多人都用过,它属于的是基于词典的方法。只是它的词典构造有些特殊,这个词典不是来源于人的编排,例如牛津大辞典等等,而是来源于网络。网络上面存在着大量的双语语料,例如很多网页上都存在这一个名词后跟着一个括号,括号里面是它对应的英文单词,如"机器翻译(machine learning)是一种....",有道词典就是通过某种方法(应该是规则的方法)将这些网络中的双语语料抓取出来,自动的组成一个词典。这样的词典有个非常大的好处,就是它会包含很多专有名词或者最新流行词汇词组的翻译,如“次贷危机 - subprime mortgage crisis”,而这是以前的词典所没法做到的。
说了这么多,其实我想提及的是有道词典的另一个功能,就是它的例句功能。在有道词典中查找任何词或者短语,它都会返回包含了相关词/短语的双语例句,而这些例句也是来源于互联网的,可以认为基本上它们的翻译都是正确的。例如:
次贷危机正朝更糟糕的局面发展.
The subprime mortgage crisis is poised to get much worse.
这个功能对于我来说非常的有用,因为对于我这个有点英语基础但是又不够好的人来说,很多时候写英语最麻烦的就是写的句子不够地道,句子的结构不够漂亮。但是现在,我可以通过有道词典很好的解决这个问题,例如我想翻译“google的翻译系统就是这样一个系统”,那么我通过搜索“就是这样一个”的例句,发现大部分都翻译成了“is such a”,然后这句话我就知道可以翻译成“Google's Translate is such a sytem”。
通过搜索句子的主干或者句式来找到对应的翻译例句,然后再在例句的基础上替换自己句子的其它部分。它并不是过去传统的机器翻译方法,而是需要人工干预。这里很关键的地方就在于你找到的例句都是正确且真实的,你可以相信你找到的结果,并在这个基础上进行修正。而如果你用google翻译等传统的机器翻译系统,结果不需要人工干预,但是却不让人放心(确实也不准确),因为机器翻译的现有水平还没有达到这个程度。

写这篇文章的原因是在CSDN上看到了这篇文章:
基于例句搜索的中英文翻译和写作
这个系统提供的就是我所描述的,一个类似于机器翻译助手的角色。如文中所说,

该系统应用前景包括对用户的中英文翻译和写作,主要体现在如下三个方面:
1. 用户仅知道中文,不知英文怎么说?如“憧憬未来,符合标准”等;
2. 用户可以写出一句英文,却不确认自己写的是否正确?此时基于实例的机器辅助翻译可以帮助用户“写对写准”;
3. 用户想了解有没有更典雅的表达,此时基于实例的机器辅助翻译和写作可以帮助用户“写得更好”;比如用户写了一句“The story started with a storm.(故事开始于一场风雪。)”,系统就可以提示用户时候可以考虑改成“The story opened with a storm.”

我想,这会是机器翻译领域一个崭新的思路。
分享到:
评论

相关推荐

    关系抽取技术研究综述

    个研究阶段的技术路线: 面向特定领域的关系抽取技术以基于标注语料的机器学习方法为主; 面向开放互联网文 本的关系抽取则根据不同任务需要,采取基于启发式规则的方法或者基于背景知识库实例的机器学习方法。

    基于多种数据源的中文知识图谱构建方法研究_胡芳槐.caj

    3.研究如何从大规模的互联网文本中抽取知识图谱形式的知识,提出一种基于自监督机器学习的开放中文关系抽取方法,用于抽取实体(概念)之间的同义关系、上下位关系和属性关系。该方法的主要优势在于能够使用从结构化数据...

    传媒互联网周报:GPT4、文心一言陆续发布,微软上线基于大模型的办公产品Copilot.pdf

    ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是...

    ChatGPT4具有更高的准确性和更强的语言生成能力

    与其他自然语言处理模型不同,ChatGPT4不需要人工标注的数据来训练模型,而是使用了大规模的互联网语料库进行自我训练,使其具有了广泛的知识和丰富的语言表达能力。 ChatGPT4可以用于各种任务,如对话生成、文本...

    计算机网络前沿技术.docx

    从技术发展角度讲,随着计算机的发展和互联网的普及,对海量文本信息处理的需求越来越迫切,这使得人工智能中机器学习技术在基于语料的文本信息处理中获得了快速发展。同时,基于统计和经验的方法在超出传统机器...

    RedPajama 项目旨在创建一套领先的全开源大语言模型.rar

    LLM 通常基于神经网络模型,使用大规模的语料库进行训练,比如使用互联网上的海量文本数据。这些模型通常拥有数十亿到数万亿个参数,能够处理各种自然语言处理任务,如自然语言生成、文本分类、文本摘要、机器翻译、...

    基于预分类的高效SVM网页分类器

    当今社会,生活的各个方面都离不开互联网的支持。网页分类技术的出现极大地促 进了网络的发展,方便了人们的生活。在当今的众多的网页分类算法中,SVM 算法由于 其分类思想简单和分类效果较好,成为一种比较优秀的...

    一种基于知识树的推荐算法及其在移动电子商务上的应用

    首先利用互联网资源构建基于词的知识树,然后运用EM算法不断用待分类的新文档自动更新知识树,使得词分类和文档分类结果同时达到最优,该算法不依赖于标注好的训练语料,是一种半监督的机器学习算法。在实际应用中,...

    《程序员》杂志2012年第7期

    本期封面报道,我们将从搜索技术、社交网络数据挖掘、机器翻译、推荐引擎等角度,结合具体应用,为你揭开智能算法的面纱。 (1)地图和本地搜索的最基本技术 (2)搜索引擎的查询意图识别 (3)社交网络:数据科学...

    PowerWord.exe

    2、体积小巧,内涵无限:全面收录基于43亿大语料库海量内容的旗舰版《柯林斯词典》; 3、翻译快速、准确;支持生词本同步、支持悬浮窗查词。 Ÿ特点 1.领先的C/S应用模式稳定灵活 《金山词霸2014企业版》的...

    基于深度学习的手语计算的发展趋势及研究分析

    究其原因,主要是缺乏用于机器学习的具有一定规模的手语语料库资源,同时传统的语言计算技术也存在不足,这些都阻碍了手语机器翻译、手语冋答系统、手语信息检索等信息处理的应用研究。该文首先阐述了手语计算与传统...

Global site tag (gtag.js) - Google Analytics