6月24日,2023年度國家科學技術獎在京揭曉,共評選出250個項目。其中,由科大訊飛股份有限公司牽頭,聯(lián)合中國科學技術大學、清華大學、華為終端有限公司、中移(杭州)信息技術有限公司等高校及行業(yè)領軍企業(yè)聯(lián)合完成的“多語種智能語音關鍵技術及產(chǎn)業(yè)化”項目榮獲2023年度國家科技進步獎一等獎。
據(jù)了解,多語種智能語音技術對于支撐人機交互、人類語言互通等具有重大戰(zhàn)略意義,產(chǎn)業(yè)前景廣闊。
為解決語音識別研究中遠場、噪聲、多人語音混疊等難題,該項目提出了多通道語音信號時空分離建模方法和多維度語音屬性解耦表征方法,實現(xiàn)語音信號中內(nèi)容、噪聲等高度耦合的多維屬性特征解耦,使得復雜場景下語音識別準確率得到重大突破。
為應對小語種智能語音系統(tǒng)構建所面臨的知識匱乏、訓練數(shù)據(jù)稀缺等難題,科大訊飛設計了全新的多語種通用音素體系和基本語言單元,實現(xiàn)多語種統(tǒng)一音素韻律體系的構建,又通過基于元學習的多語種預訓練和基于語族分組的多語種共享建模。通俗地說,就是將不同的小語種進行分類,找到同類語種的共同規(guī)律,進行分析建模和訓練,最終顯著提升了小語種語音系統(tǒng)性能。
同時,為解決復雜應用場景下語音交互、語音翻譯面臨著深層次語義理解困難、專業(yè)性不足等問題,科大訊飛提出語音語義互增強的魯棒口語理解技術,有效提升語音交互、語音翻譯等復雜場景的語義理解準確率;提出多源知識增強的可信文本生成技術,提升專有詞匯及領域知識引用的準確率。
目前,該技術成果得到廣泛應用。以智能手機為例,項目支持各主流手機廠商累計激活設備超10億臺;智能汽車方面,車載智能化產(chǎn)品累計前裝超5300萬套。此外,該項目還構建了多語種智能語音技術及全球產(chǎn)業(yè)生態(tài),2017年開始承建的智能語音國家新一代人工智能開放創(chuàng)新平臺,已聚集平臺開發(fā)者數(shù)700.7萬,終端設備數(shù)40.5億。(記者 郭倩)
轉(zhuǎn)自:經(jīng)濟參考網(wǎng)
【版權及免責聲明】凡本網(wǎng)所屬版權作品,轉(zhuǎn)載時須獲得授權并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關法律責任的權力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權事宜請聯(lián)系:010-65363056。
延伸閱讀