記者近日獲悉,在業(yè)界權威的WMT2021國際機器翻譯大賽上,阿里巴巴達摩院翻譯團隊打造的翻譯質量評估系統(tǒng),在極具挑戰(zhàn)的 Sentence-level Direct Assessment QE Shared Task 2021質量估計比賽上獲得第一名。該系統(tǒng)堪比AI考官,能夠自動給AI翻譯的結果打分,以此不斷優(yōu)化翻譯模型,提升AI翻譯的質量。
國際機器翻譯大賽WMT已有15年歷史,其賽事眾多。其中包括較為常見的翻譯任務,比如將新聞從英文翻譯為中文,其質量好壞評估是用人類譯文來做參考,越接近越好,即BLEU值越高越好。大會還有更為挑戰(zhàn)的翻譯質量估計比賽,參賽者需要創(chuàng)造一套AI系統(tǒng),在沒有人類參考譯文的情況下,自動評估機器翻譯的質量,因為真實世界就是如此,很少有人類標準答案。
達摩院翻譯團隊打造的AI考官,參與了Sentence-level Direct Assessment任務的全部11項子任務,獲得總平均分第一,從華為、Unbabel等國內外資深團隊中脫穎而出。其中,達摩院在7項有樣本的語向中獲得5項第一,分別為英語-中文、羅馬尼亞語-英語、愛沙尼亞語-英語、尼泊爾語-英語、俄語-英語;在4項零樣本(zero-shot)語向中獲得3項第一,分別為英語-捷克語、普什圖語-英語、高棉語-英語。

(達摩院翻譯團隊獲得總平均分第一名)
據(jù)介紹,該項目的創(chuàng)新之處在于,達摩院翻譯團隊在大規(guī)模預訓練模型和遷移學習的基礎上,改進了機器翻譯的“白盒”特征,洞悉了機器翻譯模型的內部狀態(tài)和原理,包括非常重要的翻譯解碼概率。與此同時,他們還發(fā)現(xiàn)了新的重要質檢特征,先使用Levenshtein算法和Masked語言模型對原文進行適度加噪,然后利用待評估質量的翻譯模型提取相應的譯文解碼概率,結果發(fā)現(xiàn)它與譯文質量緊密相關。更關鍵的是,研究團隊驗證發(fā)現(xiàn),這些創(chuàng)新方法能夠跨語言通用,在多語向項融合的翻譯質量估計模型訓練過程中也表現(xiàn)優(yōu)秀,有望推動機器翻譯整個領域的進步。
達摩院AI考官已用于阿里多個業(yè)務場景,包括全球速賣通AliExpress、Lazada、釘釘、阿里云技術文檔等,能實時監(jiān)測線上翻譯質量,定向優(yōu)化翻譯模型,讓這些場景里的機器翻譯性能提升5%-15%不等。

據(jù)了解,這是達摩院翻譯團隊第二次參與WMT的翻譯質量估計比賽,2018年他們曾獲得英-德、德-英語向句子級別和詞級別等六項質量估計子任務冠軍。達摩院翻譯團隊近兩年在國際頂會上發(fā)表論文100余篇,已實現(xiàn)214種語言的高質量翻譯,日調用量突破13億次,創(chuàng)造了多項世界紀錄。他們還揭榜了工信部人工智能產業(yè)創(chuàng)新重點任務中的智能翻譯系統(tǒng),在2021年第一期評比中榮獲優(yōu)勝單位。
轉自:C114通信網
【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業(yè)經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯(lián)系:010-65363056。
延伸閱讀