机器翻译的崭新方法:将语言变成向量空间

视听在线 阅读(1982)

机器翻译(以下简称“机器翻译”)一直是科技领域的一大难题。 目前,在线工具基于统计机器翻译方法,如谷歌翻译、必应翻译、脸书翻译、小鱼翻译、巴比伦翻译等。在翻译结果中几乎没有,但还远远不够完美。

为了提高在线翻译的质量,谷歌公司的三名工程师最近提出了一种全新的机器翻译方法:将语言翻译转化为向量间的数学问题空,利用数据挖掘技术对一种语言的结构进行建模,然后与另一种语言的结构进行比较,从而扩展和完善现有的双语语料库。

该研究论文的预印本于9月17日在着名网站arXiv.org公开,引起了学术界的广泛关注。

新方法依赖于这样一个概念,即每种语言都有一套相似的想法,所以单词的使用方式也有相似之处。 例如,大多数语言都有描述同一种动物的单词,如“狗”、“猫”和“牛”。这些词在句子中很可能以同样的方式使用,比如“猫比狗小”

数字也是如此 上图显示了英语和西班牙语中数字(1到5)的矢量表示及其相似性。

一种语言中词与词之间的关系被称为“语言空间”空。它可以被类比为从一点到另一点的一组向量,并且可以被数学处理。例如,“国王”减去“男性”加上“女性”等于“女王”(“国王”-“男人”+“女人”=“女王”)

许多语言在向量空之间有一些共同点。向量空之间的线性变换可用于将一种语言翻译成另一种语言 工程师们说:“虽然非常简单,但我们的方法却出奇地有效。” 在英语和西班牙语之间翻译单词和短语时,准确率可以达到近90% “

周海中,中国数学家和语言学家,认为这种基于线性代数的机器翻译方法非常创新和有效。 然而,他怀疑不同语系的自然语言(如英语和汉语)的在线翻译是否有如此高的准确性。 他强调,无论用什么方法来提高机器翻译的质量,首先要解决的是自然语言本身,尤其是语义表达和语用功能,而不是计算机编程或数学建模的问题。

周海中说:“如果不知道大脑如何对自然语言进行模糊识别和逻辑判断,机器翻译的质量就不可能达到‘信、达、雅’的水平。” "

入冬劳动力市场趋热