导读:国外媒体撰文称,微软通过互联网数据挖掘技术开发了一款名为英库的语言学习工具,并有望借此为必应吸引更多用户,获得更多广告收入。

  以下为文章全文:

  挖掘数据

  微软位于北京的研究人员正在使用从互联网中挖掘的数据来改进在线汉英词典以及语言练习服务。该技术有朝一日将被用在一些类似的工具上,使得所有语言学习者都能够使用。

  英库(www.engkoo.com)是“英语”和“仓库”的合成词。该产品的核心是翻译数据。这些数据是微软在一些获得出版商授权的词典中提取出来的。除此之外,微软还通过对同时具备中英文两个版本的网站的扫描来充实数据库。

  微软的电脑会对这些网站的段落、语句和单词进行校正,然后计算出一个翻译的质量等级并存档。

  当用户在英库的输入栏中输入一个单词或语句时,无论是中文还是英文,该网站都可以从数据库中提取数据对其进行翻译。英库还可以显示一些使用相似单词的例句,很多情况下还会提供该例句的来源链接。

  英库是今年“华尔街日报亚洲创新奖”(Asian Innovation Awards)终优胜者。

  更多创新

  尽管谷歌翻译(Google Translate)等翻译工具也使用了一些类似的方法,但英库的研究人员还通过其他一些技术拓展了语言练习工具的范围。

  但与谷歌相比,英库的触角仍然很有限。谷歌号称是全球大的免费翻译服务,提供57个语种的翻译。谷歌还将翻译技术整合到了多款服务中,包括手机、搜索引擎以及Chrome浏览器。

  微软也为用户提供了必应翻译器,可以对文本和网站进行翻译,覆盖32个语种。

  微软的研究人员还计划推出其他语言版本的英库,包括日语和英语。微软亚洲研究院技术战略总监埃里克?常(Eric Chang)表示,帮助英语用户学习汉语也将成为他们的目标之一,但该公司的研究目前主要还是着眼于汉译英。

  英库上的多数英语例句都为用户提供了语音版本,这些语音是利用英语的人朗读的语音文件生成的。他们还试图模仿真人的声调,尽管抑扬顿挫的变化无法达到真人发声的水平。

  谷歌翻译也为用户提供部分语种的语音版本,包括中文。