为什么巨头扎堆做机器翻译?

pic

在机器替代人类劳动力的征途里,翻译是最先感受到冲击的前哨阵地。 因为在既有的AI技术中,机器翻译是成熟度相对高的领域。即便出于炫技,翻译也是必争之地。

文 | 孙然

10年前,网易有道翻译产品上线,接替了传统电子翻译机“文曲星”的班,是国内最早涉足翻译领域的互联网公司。此后数年间,类似的翻译产品贯 穿了很多中国人学英语的记忆。

但由于时常出现形态尴尬的整句翻译,没人指望机器翻译能大规模替代严谨的人工译员。每逢正式的用途,人们仍愿意出高价雇个英语专八的学生,甚至专业同传来确保准确度。

一直以来,翻译是很多外文系学生赚外快甚至谋生的渠道。这门生意 规模不大,但需求稳定。网易有道CEO周枫估算过人工翻 译市场的盘子,400亿元左右。目前有道的纯人工翻译业务,一年的营收规模数千万元。2011年上线五年的订单总量在一百万单以上。

不过去年事情有了变化。原因是谷歌在2016年9月27日宣布推出谷歌神经网络机器翻译系统,《麻省理工学院技术评论》杂志评价,采用神经网络技术的Google翻译准确率几乎与人类无异。

神经网络翻译之所以准确性高,是因为“说人话”。它在翻译逻辑模 仿了人脑的表达模式,通俗地讲,能把一句话中所有词汇的语意融合在一起分析理解。而统计翻译是挨个识别和理解词汇,却难 以理解不同词汇融合后产生的含义。经常生硬地蹦关键词,串起来就不知所云。

这项技术变革对于翻译行业有多大意义?周枫的评价是,从传统机器翻译到神经网络机器翻译的变革,可以比喻成从“手工针线活儿”到“缝纫机”的变革,神经网络翻译带来的翻译质量的提升, 是过去十年的总和。

网易有道开始关注神经网络翻译技术,是2014年。这个举动源自行业中一项节点性事件——在国际赛事ACL WMT 2014中,神经网络翻译技术的准确率首次超过传统的统计机器翻译技术,这意味着神经网络翻译初步具备了商业化的可能性。

这个突破对于做翻译产品的公司而言,出现得恰逢其时。“2014年,统计机器翻译技术的商业化已经发展了近十年,我们发现再投入人力资金去寻求技术提升,回报率很低。而NMT这种基于深度学习 的技术,每个月翻译质量的进步都是惊人的。”周枫说。

在那之后的两年间,关于神经网络翻译的研发战争就开始了。根据新智元统计,在arXiv.org 存储库中,涉及NMT (神经网络翻译) 的论文从2014年的7篇,2015年的11篇,上涨2016年的67篇。

而大规模的产品化,发生在谷歌发布翻译产品之后的半年中,谷歌、百度、科大讯飞、搜狗、微软、有道,均上线或更新了翻译产品。

你可能会奇怪,为什么大型技术公司都扎堆做翻译?事实上,无论对于上述哪家公司,翻译都不是块有极大商业空间的业务。但在机器替代人类劳动力的征途里,这是最先感受到冲击的前哨阵地。 因为在既有的AI技术中,机器翻译是成熟度相对高的领域。即便出于炫技,翻译也是必争之地。

当然,对公司而言,能转化成钱、衍生出商业模式的技术才有价值。

有道翻译有一支3000人规模的众包译员 团队,此前分为人工翻译和机器翻译两种类别,前者150-300元/千字,后者免费。 神经网络翻译将机器翻译的准确度提升后,人机结合的商业模式具备了可行性。即由机器先做翻译,人工翻译员做后续的审核和 润色。人工需要付出的时间和精力由此缩减了50%,相应的,人机翻译的价格,设定在70-150元/千字档位。对企业级客户,有道也推出了有道智云,通过提供API接口和嵌入SDK的模式销售。

技术提升引发的成本下降,往往是撕开商业化缺口的契机。周枫觉得 人机结合的方式,降低了用户的使用成本,会激发出一部分此前被压抑的翻译需求。“原来人工翻译篇一万字的文章大概需要两 千元左右,很多人觉得贵,翻译需求就会被压抑掉。现在用人机结合翻译能降低一半的成本,被压抑的需求会释放出来,翻译的 市场容量也许会因为技术革新而变得更大。”

另一方面,由于精准度提升和移动端翻译的用户习惯的拓展,翻译的 需求量也在释放。网易有道官方提供的数据显示,有道翻译官在去年一年的使用量呈现出三倍的提升。目前神经网络翻译技术,被用于有道词典、有道翻译官、有道智云、WEB端的有道翻译以及有道人机翻译产品。

根据周枫的估算, 除却艺术属性的文学领域和对准确性要求非常高的商业合同等领域,三年左右时间,机器翻译会替代包括日常通信、新闻、技术文档、学术文献等90%的人工翻译场景。

不过机器翻译依然是个赢者通吃的小市场。过去两年,做语音技术起 家的科大讯飞,也开辟了翻译业务。集中产品化不到一年,已然是一片红海态势。同传之后,下一个被占领的人类高地,又会是哪块呢?