資 訊
鄧力:以獨特視角詮釋語音識別領域最新技術進展
  • 2018-8-30 16:03:50 網絡轉載 點擊量:1236
分享到:

軟人工智能首席科學家鄧力日前接受了記者專訪,以另外的視角詮釋了語音識別領域的最新技術進展,以及他的團隊的一些不同的工作。
  
  鄧力:以獨特視角詮釋語音識別領域最新技術進展
  
  著眼于端到端建模和訓練,鄧力介紹了輸出端和輸入端的進展,遷移學習、增強學習、非監督學習在語音識別領域的應用現狀和前景,并解釋了他對非監督學習的獨特理解,重點總結了詞嵌入的利用和改善。他還展望了類腦機器智能突破現有的深度神經網絡局限的方法。
  
  有感于有監督學習的局限,鄧力目前將很大部分的精力用到了非監督學習上,并且與微軟目前的自然語言理解、對話系統、聊天機器人等核心工作相結合。看好非監督學習語音識別,是由于語音識別領域“先驗”知識的逐漸成熟,包括輸出端非常強的語言模型和多年積累的從輸出端到輸入端映射的生成式知識。鄧力認為,將各種先驗知識整合到一個完整而能快速計算和優化的非監督深度學習框架,語音識別的問題將可以徹底解決。當然,這需要新的深度非監督學習算法和理論。
  
  鄧力認為,詞嵌入或音素嵌入用到語音識別領域,一項有意思的工作是把喬姆斯基的生成式音韻結構整合到深度學習講的嵌入方法里。對抗式網絡的思路可以用來整合語音生成知識。不過,詞嵌入的本質是利用鄰近詞的預測特性,只是所應該用的先驗知識的一小部分。更重要的先驗知識應該是關于輸出序列變量的更強并比現有詞嵌入具有更長距離的統計特性,以及從輸出到輸入的生成特性。
  
  以下為采訪實錄:
  
  非監督學習語音識別將來會成功,但需要大量創新工作來鋪路
  
  記者:能否介紹當前語音識別領域最讓您興奮的一些進展,以及您目前所做的一些有趣的工作?
  
  鄧力:從整個語音識別業界來講(包括中國和美國幾家主要大公司的工作),令人興奮的進展涵蓋了輸出端和輸入端全方位的端到端訓練::
  
  端到端建模和訓練大規模神經網絡語音識別系統近期繼續降低識別錯誤率,特別是成功用上CTC訓練準則使得端到端訓練行之有效。CTC訓練準則最忠實地代表了語音識別系統的訓練目標,比我們在DNN時代之前用的MCE、MPE、MWE、MMI更合理,盡管CTC的優化需要不少工程技巧。我在研究院的同事在這方面做了很多工作,包括對CTC的延伸并將CTC與傳統的MMI序列訓練方法相結合。
  
  行之有效的端到端訓練在輸入端已經擴張到多麥克風陣列的語音波形。這使得抗噪音的語音識別系統部分也整合進入端到端學習。
  
  我自己目前將不少時間用在關于讓非監督學習用到離散序列輸出(比如自然語言)的應用,包括語音識別、機器翻譯、看圖說話,等等。為什么注重像自然語言這樣的離散序列輸出?這是因為自然語言模型包含了非常豐富的“先驗”知識,使得不需輸入輸出匹配的學習的成功機會大于其他在輸出端缺乏豐富“先驗”知識的應用和任務。
  
  靠輸入輸出匹配的學習是要花高代價準備大訓練數據的。這是目前很成功的有監督深度學習的局限之一。相反,無需輸入輸出匹配的大數據成本要低得多,它遍地皆是,有取之不盡用之不竭的潛力。
  
  要有效地利用比現有輸入輸出相匹配的訓練數據高出幾個數量級的無輸入輸出匹配的大數據來訓練深度學習系統,有待于開創全新的深度非監督學習算法和理論。一旦成功,這會給深度學習建立一個新的里程碑。比如用在語音識別,任何人們之間的對話和個人演講都可以成為非監督學習語音識別機的語料,而我們并不需要去標注這些自然的到處都有的語料。
  
  為什么我認為非監督學習語音識別會成功?因為我們在輸出端有豐富的“先驗”知識,就是非常強的語言模型,可以是嵌入式的,也可以是非嵌入式的。同時我們也有非常豐富的從輸出端到輸入端映射的生成式的“先驗”知識。這就是語音科學家幾十年積累下來的人類從概念到波形的語音motorcontrol和語音生成的知識。語音生成的motorcontrol要比機械人對手指的精細運動控制還復雜。
  
  我當年在MIT、ATR和在加拿大滑鐵盧大學任教時做了很多這方面的研究。當時用的是動態深度貝葉斯網絡來表達和實現這些知識,模型中的一部分也用上multilayerperception。我和我的學生們在1997-2003年發表了一系列論文。到微軟之后還寫了兩本關于這方面的書。記得當年GeoffHinton教授同我就如何將這些動態語音生成知識和模型用到有監督深度學習討論了很長時間。當時得到的識別率結果跟丟開這些生成知識的DNN-HMM差不多,但計算上卻難以得益于用GPU訓練,而且解碼要用很多近似,也很慢。所以我把動態語音生成模型放棄了很長時間專攻DNN,后者沒有這些弱點。見文末一些文獻,回顧了以上講的這些古老的工作。
  
  現在到了大家開始注重非監督深度學習的時代。過去積累的研究經驗和有計算價值的語音生成知識真是可以派上用場。將多種類(輸入輸出端統計特性以及它們的關聯性)的先驗知識整合到一個嶄新的非監督深度學習框架,我相信語音識別的問題可以徹底解決。
  
    記者:概括地說,除了特征提取,深度學習在語音識別領域主要還發揮哪些作用?
  
  鄧力:端到端訓練高層動態網絡是有監督深度學習在語音識別領域應用的精華。特征提取只是它的自然結果之一。
  
  直到現在,單靠特征提取在非監督深度學習上從未成功過。
  
  記者:您與俞棟博士合著的新書《解析深度學習-語音識別實踐》系統地介紹了基于DNN的語音識別技術,哪些人應該讀這本書?他們會收獲些什么?這本書適合入門嗎?需要讀者具備什么知識基礎?
  
  鄧力:我們在序言里講到這本書的對象主要是語音處理及機器學習領域的在讀研究生、研究者、實踐者、工程師以及科學家的學習研究工作。但注意由于我們寫書時間緊迫,有些內容沒有加上,包括CNN、CTC、麥克風陣列、語音分離,等等。
  
  閱讀本書的知識基礎包括微積分、矩陣代數和基本的概率統計等。
  
  對于入門讀者,我們同年出版的英文版《深度學習:方法和應用》(由謝磊教授翻譯成中文)可能更適合。只是材料有點過時了。
  
  記者:您介紹了很多魯棒性的方法,有哪一種是您最喜歡的嗎?
  
  鄧力:對speaker魯棒性的方法,我很喜歡KL-divergenceregularization,不但管用,而且方法巧妙,實現起來也簡單。是subspace方法中的一種。
  
  對抗環境噪音的魯棒性的方法,我在全力攻DNN之前很喜歡VTS的方法,也發明了整合語音-噪音相位的VTS方法,不但方法巧妙,在某些條件下也挺管用。但因為它用的是生成式的概念,幾年前很難用DNN方法來實現。現在我們知道怎樣整合生成式模型和神經網絡(見書中第6章和文末一些文獻),大家做這方面的研究可能就有成功希望了。

免責聲明:易商中國部分文章信息來源于網絡,如頁面信息對您造成影響,請及時聯系我們進行修改或刪除處理!文章版權歸屬原作者所有。轉載只為讀者傳播更多信息,并不表示本平臺支持或證實文章觀點,文章內容僅做參考。若涉及版權問題,煩請聯系我們協商解決,撥打全國免費熱線即可。
相關搜索:鄧力:以獨特視角詮釋語音識別領域最新技術進展
上一條:展訊全球副總裁康一:4年后推出5G芯片        下一條:中國制造2025落地有聲 體系框架已基本形成

 
分享到:
     返回頂部
太原客服中心:0351-6584449 石家莊客服中心:0311-86978585 沈陽客服中心:024-62579240 鄭州客服中心:0371-63818890 西安客服中心:029-89389805 重慶客服中心: 023-89128490 成都客服中心:15713523760
呼和浩特客服中心:15713523760
晉公網安備 14019902000100號 晉公網安備 14019902000100號
地址:太原高新區中心北街8號電子商務產業園A座314、315室 | 郵編:030024 E-mail:[email protected]
版權所有 易揚眾和信息技術有限公司@2015-2018 增值業務電信許可證號:晉B2-20100018   晉ICP備13001105號 工商網監
全國免費熱線:
微信公眾平臺

微信公眾平臺

公眾號廣告

公眾號廣告

魔兽世界吧
现在开网络写小说的公司赚钱吗 2017在家做什么赚钱 高中生写文赚钱 彩金捕鱼游戏 网上打字赚钱 日结软件 饭店不开票赚钱 手机杭州麻将微信群 九九数据靠什么赚钱 血流成河换三张手机版下载 魔兽世界钓鱼专业怎么赚钱 梦幻西游手游 五开赚钱攻略2015年 现实二人麻将怎么打 女比男赚钱多的明星 三人推麻将规则 航海行业赚钱吗 彩34游戏