科普文章丨嘿,siri!嘈雜的酒吧里,AI為什么聽(tīng)不懂指令?
不知道你是否有這樣的經(jīng)歷,月底窮困潦倒的你中午走進(jìn)人潮喧嘩的食堂,正在心里瘋狂比較哪個(gè)菜更便宜時(shí),忽然聽(tīng)到五米開(kāi)外某人的一聲“咱們發(fā)工資了”,于是你理直氣壯地對食堂大媽喊道:“加個(gè)雞腿!”
(圖片來(lái)源:修改自《家有兒女》)
還有,不管在哪里,周?chē)卸喑常坏┯腥私凶约旱拿郑偸悄苈?tīng)到。人能夠在如此嘈雜的環(huán)境下精確捕捉到想聽(tīng)到的聲音,甚至還能知道聲音的方位,相比之下,現在的很多智能設備卻做不到這一點(diǎn),這究竟是為什么呢?
Part. 1
人的聽(tīng)覺(jué)為什么具有選擇性
說(shuō)起人的聽(tīng)覺(jué),有一個(gè)著(zhù)名的效應——雞尾酒會(huì )效應,它是指在喧鬧的雞尾酒會(huì )上,參會(huì )者大腦中的聽(tīng)覺(jué)系統可以將他的注意力集中約束在他感興趣的談話(huà)內容上,而自動(dòng)忽略其他“無(wú)關(guān)”的噪聲,即使周?chē)h(huán)境非常嘈雜。
然而,這種我們人類(lèi)用兩只耳朵就能搞定的小問(wèn)題,對于智能音箱等語(yǔ)音交互設備來(lái)說(shuō),卻并不是那么容易的。當它們身處嘈雜的環(huán)境時(shí),很容易就受到各種來(lái)路不明的聲音的連環(huán)暴擊,最終陷入我是誰(shuí)我在哪我在干嘛的死循環(huán)中無(wú)法自拔(感興趣的同學(xué)可以打開(kāi)你身邊的語(yǔ)音交互設備嘗試一下)…
于是,攻(工)城(程)獅(師)們本著(zhù)大力出奇跡的原則,不惜斥巨資為它們裝上很多個(gè)金光閃閃的麥克風(fēng)用來(lái)接收聲音,又去全世界各地搜羅各種各樣的聲音數據,沒(méi)日沒(méi)夜地投喂它們。但是,機器們學(xué)習的效果不是十分理想,雞尾酒會(huì )問(wèn)題至今仍然困擾著(zhù)世界各地的語(yǔ)音攻城獅們。
這時(shí)有的同學(xué)可能就要坐不住了:“就這?還用學(xué)?看來(lái)我的學(xué)霸屬性就要藏不住了!”這位同學(xué)你先冷靜一下,事情可并不是你想的那么簡(jiǎn)單喲。
其實(shí),你能具有這種聽(tīng)覺(jué)選擇能力首先要感謝你的媽媽給了你兩只忽閃忽閃的大耳朵,這使得你的耳膜并不是像麥克風(fēng)一樣是直接裸露在空氣中的。你的耳廓、頭部、肩膀、軀干等身體部位對于聲音來(lái)說(shuō)像是一個(gè)“迷宮”,來(lái)自不同方位的聲音需要從不同的入口進(jìn)入,經(jīng)歷上述部位的一系列反射后最終到達“迷宮”的中心——耳膜,然后你的大腦就能感知到這個(gè)聲音啦。
由于聲波所走過(guò)的路徑不同,它們的頻譜也會(huì )發(fā)生不同程度的修改。在這個(gè)“迷宮”的不同位置,仿佛潛伏著(zhù)一群造型師(沒(méi)錯,就是讓你又愛(ài)又恨的Tony老師),聲波路過(guò)時(shí)總是難免被“改造”一番。由于這些造型師們風(fēng)格迥異、水平參差不齊,在大腦看來(lái),這些聲波就變得各有特色,所以很容易區分,怎么說(shuō)呢…有點(diǎn)像…
所以當你還是個(gè)小baby的時(shí)候,你還沒(méi)能累積足夠多的聽(tīng)音經(jīng)驗,你的大腦對這些改造過(guò)的聲音可能一時(shí)無(wú)法辨認,因此導致你對聲音的辨別能力可能比較弱。隨著(zhù)你慢慢長(cháng)大,聽(tīng)到的聲音越來(lái)越多,你的大腦就會(huì )慢慢摸清套路,建立一套自己的算法(數據庫),這樣即使是好幾個(gè)聲音同時(shí)出現在你面前,你也能很輕松地區分他們。
Part. 2
機器怎么獲取辨音能力
那么問(wèn)題來(lái)了!能不能讓機器像我們人一樣,擁有能夠分辨不同聲音的能力呢?答案是肯定噠!前不久,中科院聲學(xué)所的楊軍研究員團隊就提出了一種基于聲學(xué)超材料的單通道多聲源定位與分離系統,只使用一個(gè)帶有超材料外殼的單通道傳聲器,即可實(shí)現三維空間中多個(gè)同時(shí)發(fā)聲聲源的實(shí)時(shí)定位與分離。研究成果發(fā)表在了綜合類(lèi)期刊Advanced Science上。
別...別激動(dòng)…說(shuō)人話(huà)就是——給麥克風(fēng)做了一個(gè)忽閃忽閃的“大耳朵”,不過(guò)這個(gè)耳朵跟我們的耳朵差別有點(diǎn)大,它長(cháng)這樣…
左圖:超材料結構模型圖 右圖:超材料結構實(shí)物圖
(圖片來(lái)源:作者繪制與拍攝)
我們暫且叫他“蜂窩耳”吧。這個(gè)“蜂窩耳”由外中內三層半球殼嵌套而成,每一層球殼上都隨機設置大小不一的圓孔,球殼之間隨機插入了若干塊橫向和縱向的擋板來(lái)制造大小不一的腔體,在球心位置則放著(zhù)一個(gè)單通道的麥克風(fēng)。這些大小隨機的圓孔和隔板使“蜂窩耳”具有高度的空間不對稱(chēng)性,因此會(huì )對來(lái)自不同方向的聲波起到不同的調制效果。
這個(gè)“蜂窩耳”中的聲學(xué)結構就像是一個(gè)個(gè)風(fēng)格迥異的Tony老師,聲波經(jīng)過(guò)時(shí)總是難逃老師們的“改造”,這位老師畫(huà)個(gè)眉毛,那位老師涂個(gè)口紅,所以等它到麥克風(fēng)的面前時(shí),早就不是它原本的樣子啦。
你可能已經(jīng)猜到,“蜂窩耳”的學(xué)名就是——聲學(xué)濾波器。剛才所說(shuō)的聲波的“改造”過(guò)程其實(shí)就是濾波過(guò)程,濾波后的聲信號頻譜會(huì )發(fā)生相應的改變,因此被麥克風(fēng)接收到的信號就會(huì )產(chǎn)生與來(lái)波方向有關(guān)的差異性了。
那么問(wèn)題又來(lái)了——你以為聲波們長(cháng)得不一樣,機器就能很快辨別出來(lái)嗎?想得美!
我們還需要訓練一個(gè)算法,讓機器提取這些聲波身上的獨家特征,最終定位和識別來(lái)自不同方向的聲音。擁有這個(gè)算法就好像擁有了一本Tony老師們的《造型百科全書(shū)》,里面記錄了各位Tony老師的改造技能和偏愛(ài)風(fēng)格。從某種意義上說(shuō),這個(gè)算法也可以幫助廣大男同胞完美應對女朋友每日的靈魂拷問(wèn):“你覺(jué)得我今天有什么不一樣嗎?”是不是很想來(lái)一套!
Part. 3
機器戴耳記
一切準備就緒,我們的“蜂窩耳”就可以正式上崗啦!
來(lái)自不同方向的聲波從外表面不同的位置進(jìn)入“蜂窩耳”,經(jīng)過(guò)不同的傳播路徑時(shí)被不同的造型師改造,被球心的麥克風(fēng)接收;熟讀《造型百科全書(shū)》的算法對接收信號進(jìn)行處理,最終重建出它們的來(lái)波方向和聲音的內容。這種超材料結構+智能算法的組合,只用一個(gè)麥克風(fēng)就能實(shí)現多聲源的實(shí)時(shí)定位和分離。攻城獅們再也不用擔心麥克風(fēng)數量不夠用啦!
“蜂窩耳”的工作流程
(圖片來(lái)源:作者繪制)
你是不是也很好奇“蜂窩耳”的效果如何呢?來(lái)看看研究人員針對多個(gè)生活場(chǎng)景進(jìn)行的聽(tīng)音測試。
實(shí)驗場(chǎng)景(圖片來(lái)源:作者拍攝)
“蜂窩耳”(圖片紅框里)放在中間,周?chē)鶆蚍胖?span lang="en-US">16個(gè)音響用于播放測試所用的聲音。測試所用到的聲音包括馬路上的鳴笛聲、動(dòng)物的叫聲、各種樂(lè )器聲、人說(shuō)話(huà)的聲音等等,好奇心爆棚的筆者曾一度跑到“蜂窩耳”的位置,試圖挑戰一下這個(gè)聽(tīng)音測試,當時(shí)的場(chǎng)景大概是這個(gè)樣子的…
不過(guò),這對訓練有素的“蜂窩耳”來(lái)說(shuō)就是小菜一碟啦。當空間中同時(shí)發(fā)聲的聲源不超過(guò)三個(gè),定位與分離的準確率可以達到90%以上,耗時(shí)也不超過(guò)1s,是不是棒棒噠!
當然,現在的“蜂窩耳”還只能算一個(gè)小baby,它的聲學(xué)結構設計和后端算法仍有待進(jìn)一步的磨合和提升,研究人員也正在馬不停蹄地研發(fā)“蜂窩耳”2.0版本。隨著(zhù)語(yǔ)音技術(shù)的發(fā)展,我們身邊越來(lái)越多的電子設備都搭載了語(yǔ)音交互系統,希望這個(gè)“蜂窩耳”能讓這些設備更加智能,使人與機器之間的交互更加流暢和便捷。
參考文獻:
SUN Xuecong, JIA Han, ZHANG Zhe, YANG Yuzhen, SUN Zhaoyong, YANG Jun. Sound Localization and Separation in 3D Space Using a Single Microphone with a Metamaterial Enclosure. Advanced Science n/a, 1902271.
論文鏈接:https://doi.org/10.1002/advs.201902271
出品:科普中國
制作:孫雪聰(中科院聲學(xué)所 中科院噪聲與振動(dòng)重點(diǎn)實(shí)驗室)
監制:中國科學(xué)院計算機網(wǎng)絡(luò )信息中心
(本文中標明來(lái)源的圖片已獲得授權)
文章僅代表作者觀(guān)點(diǎn),不代表中國科普博覽立場(chǎng)
本文來(lái)源于“中國科普博覽”公眾號(kepubolan),轉載請注明公眾號出處
附件下載: