我單位“遠場(chǎng)聲學(xué)信息人機交互關(guān)鍵技術(shù)及其應用”項目提名2020年度北京市科學(xué)技術(shù)獎,現進(jìn)行公示。公示期: 2020 年 11 月 4 日至 11 月 10日,公示期內如有任何單位或個(gè)人對公示內容有異議的,請您以書(shū)面方式向中國科學(xué)院聲學(xué)研究所科技發(fā)展部(公示單位科管部門(mén)名稱(chēng))反映,以單位名義提出的,需加蓋單位公章;以個(gè)人名義提出的,需要提供個(gè)人身份證明文件。
聯(lián)系人及聯(lián)系電話(huà):金老師 010-82547935
中國科學(xué)院聲學(xué)研究所
2020年11月4日
公示內容:
項目名稱(chēng):遠場(chǎng)聲學(xué)信息人機交互關(guān)鍵技術(shù)及其應用
候選單位(含排序):1.中國科學(xué)院聲學(xué)研究所; 2.北京聲智科技有限公司; 3.北京建筑大學(xué)
候選人(含排序):1.楊軍; 2.陳孝良; 3.楊飛然; 4.吳鳴; 5.馮大航; 6.程曉斌; 7.常樂(lè ); 8.余紫瑩; 9.周若華; 10.蘇少煒; 11.許勇; 12.李良斌; 13.武帥兵; 14.劉博; 15.欒天祥
提名意見(jiàn):
本項目突破了遠場(chǎng)復雜聲學(xué)場(chǎng)景下語(yǔ)音交互的聲學(xué)感知和語(yǔ)義理解關(guān)鍵技術(shù),融合了基于經(jīng)典陣列信號處理的模型驅動(dòng)算法和基于深度學(xué)習的數據驅動(dòng)算法,開(kāi)發(fā)出具有自主知識產(chǎn)權的遠場(chǎng)聲學(xué)信息人機交互系統和平臺,提高了遠場(chǎng)人機交互質(zhì)量和用戶(hù)體驗,促進(jìn)了人工智能技術(shù)在聲學(xué)信息交互領(lǐng)域的落地。本項目的推廣應用產(chǎn)生了重大的經(jīng)濟效益和社會(huì )效益,技術(shù)成果在智能音箱、AI數字人紅外測溫與監管系統、智慧電梯與安全監管平臺等多個(gè)領(lǐng)域獲得成功應用,服務(wù)海內外包括中國移動(dòng)、華為、百度、小米、阿里、騰訊等120家企業(yè),擁有4000多萬(wàn)用戶(hù),產(chǎn)生直接經(jīng)濟效益超1.6億。本項目成果產(chǎn)品國內首款智慧電梯與安全監管平臺和AI數字人紅外測溫與監管系統已迅速落地北京、武漢、上海、青島、深圳等地的新冠肺炎定點(diǎn)醫院,以及全國人大機關(guān)辦公樓、北京東城區政協(xié)、中國殘聯(lián)大廈等等海內外近百個(gè)城市的辦事服務(wù)中心、機場(chǎng)、酒店、辦公樓宇、區民小區等公共場(chǎng)所,為抗擊新冠疫情作出了突出貢獻,獲得工信部突出貢獻企業(yè)表彰,入選工信部AI助力疫情防控重點(diǎn)物資清單。
提名該項目為北京市科學(xué)技術(shù)獎科學(xué)技術(shù)進(jìn)步獎(類(lèi)別:技術(shù)開(kāi)發(fā)類(lèi))(一等獎和二等獎)。
項目簡(jiǎn)介:
聲學(xué)信息人機交互對人工智能產(chǎn)業(yè)發(fā)展具有重要戰略意義,遠場(chǎng)交互是聲學(xué)信息人機交互產(chǎn)業(yè)的創(chuàng )新升級方向。從近場(chǎng)交互到遠場(chǎng)交互,噪聲、混響、回聲等干擾帶來(lái)了語(yǔ)音識別、語(yǔ)義理解等難題,亟需攻克。本項目面向聲學(xué)信息人機交互產(chǎn)業(yè)落地的重大需求,突破了多項遠場(chǎng)語(yǔ)音交互的聲學(xué)感知和語(yǔ)義理解關(guān)鍵技術(shù),構建了陣列信號處理融合深度學(xué)習的先進(jìn)聲學(xué)模型和通用語(yǔ)義理解模型,形成了涵蓋麥克風(fēng)陣列、前端聲學(xué)處理、語(yǔ)音喚醒、語(yǔ)音識別、語(yǔ)義理解、語(yǔ)音合成等技術(shù)深度融合的端+云一體化系統,大幅提高了系統泛化能力和識別精度,促使我國智能產(chǎn)品萬(wàn)物互聯(lián)現象級產(chǎn)業(yè)直接對標超越歐美標桿企業(yè)。主要技術(shù)創(chuàng )新點(diǎn):
1. 提出了不同場(chǎng)景下低復雜度穩健的時(shí)頻域自適應濾波算法,解決了高度依賴(lài)雙端對講檢測、收斂速度慢等難題,實(shí)現了單通道和多通道回聲抵消系統應用。
2. 提出了基于麥克風(fēng)陣列噪聲消除和盲源分離等方法,建立了帶噪語(yǔ)音的特征修復技術(shù),去除了人聲及背景噪聲干擾,大幅提升了系統的識別性能。
3. 提出了抗混響、抗干擾的低復雜度聲源定位方法,有效解決了復雜聲學(xué)環(huán)境特別是電梯、家居、會(huì )議室等場(chǎng)景的聲源定位問(wèn)題。
4. 提出了加權有限狀態(tài)轉換機解碼圖喚醒算法,實(shí)現了多個(gè)聲學(xué)模型深度融合的在線(xiàn)語(yǔ)音識別引擎,提高了系統在各種環(huán)境下語(yǔ)音識別、喚醒的性能。
5. 提出了基于用戶(hù)對話(huà)交互歷史的詞匯-領(lǐng)域詞庫映射算法、領(lǐng)域感知的詞向量訓練算法,提高了領(lǐng)域識別精度,提升了信息交互的流暢度與準確性。
本項目在國家科技支撐計劃等課題支持下,開(kāi)發(fā)出具有自主知識產(chǎn)權的全球領(lǐng)先的遠場(chǎng)聲學(xué)信息人機交互系統,技術(shù)成果形成了智能音箱、AI數字人紅外測溫與監管系統、智慧電梯與安全監管平臺等產(chǎn)品在多個(gè)領(lǐng)域落地應用,占據了全球70%以上的中文遠場(chǎng)智能語(yǔ)音市場(chǎng)。本項目獲授權發(fā)明專(zhuān)利44項、實(shí)用新型專(zhuān)利37項、軟件著(zhù)作權61項,發(fā)表論文135篇,參與制定國家標準15項、團體標準15項,產(chǎn)生直接經(jīng)濟效益超1.6億。本項目促進(jìn)了人工智能技術(shù)的推廣應用,產(chǎn)品覆蓋家居、會(huì )議、軍工、醫療、交通等行業(yè),服務(wù)120多家企業(yè),擁有4000多萬(wàn)用戶(hù),數十億次人機交互真實(shí)場(chǎng)景的規模驗證,服務(wù)海內外客戶(hù)包括中國移動(dòng)、華為、百度、小米、阿里、騰訊等。實(shí)現了先進(jìn)的智能交互體驗,有力促進(jìn)了北京建設具有全球影響力的科技創(chuàng )新中心。本項目產(chǎn)品在抗擊新冠疫情期間作出了突出貢獻,獲得工信部突出貢獻企業(yè)表彰,入選工信部AI助力疫情防控重點(diǎn)物資清單。
附件:主要支撐材料目錄