機器翻譯(簡稱“機譯”)一直是科技領域的一大難題。目前基于統(tǒng)計機譯方法的在線工具如谷歌翻譯、必應翻譯、臉譜翻譯、寶貝魚翻譯、巴比倫翻譯等,其翻譯結(jié)果勉強可用,但離完美還相去甚遠。
為提高在線翻譯質(zhì)量,美國谷歌(Google)公司的三名工程師最近提出一種嶄新的機譯方法:將語言翻譯變成向量空間數(shù)學問題,利用數(shù)據(jù)挖掘技術建模一種語言的結(jié)構(gòu),然后與另一種語言的結(jié)構(gòu)進行對比,從而擴充和完善現(xiàn)有的雙語語料庫。該研究成果的論文預印本于9月17日在著名網(wǎng)站arXiv.org公開后,引起了學術界的廣泛關注。
新的方法依賴于一個概念,即每一種語言都有一套相似的想法,因而使用單詞的方式也存在相似性。例如,大多數(shù)語言中都有描述相同動物的單詞,如“狗”、“貓”和“牛”,這些單詞很可能以相同的方式在句子中使用,如“貓是一種比狗小的動物”。
數(shù)字也一樣;上圖顯示了在英語和西班牙語中數(shù)字(一至五)的向量表示法以及它們是如何相似的。
語言中單詞之間的關系集合被稱為“語言空間”(language space),可類比為一個點到另一個點的向量集合,能以數(shù)學的方式進行處理,例如“國王”減去“男性”加上“女性”等于“女王”(“king”–“man”+“woman”=“queen”)。
在向量空間中,許多語言都有共通之處,可以利用向量空間線性變換將一種語言翻譯成另一種語言。工程師們說,“盡管它很簡單,我們的方法出奇有效;在翻譯英語和西班牙語之間的單詞和短語時,準確率可以達到幾乎90%。”
中國數(shù)學家和語言學家周海中認為,這種基于線性代數(shù)的機譯方法很有新意也有實效。不過,他對不同語系的自然語言(如英語和漢語)在線翻譯是否也有那么高的準確率表示懷疑。他強調(diào):不管用什么方法來提高機譯質(zhì)量,首先要解決的是自然語言的本身問題,尤其是語義表達和語用功能,而不是計算機編程問題或數(shù)學建模問題?!霸谌祟惿形疵髁舜竽X是如何進行自然語言的模糊識別和邏輯判斷的情況下,機譯質(zhì)量要想達到‘信、達、雅’的程度是不可能的。”周海中說。