音頻社交漸熱, “所聽(tīng)”并非真實(shí) ——
人工智能時(shí)代,你了解“聲音”嗎?
近日,美國一款即時(shí)性音頻社交軟件Clubhouse風(fēng)靡全球,不到一年的上線(xiàn)時(shí)間,軟件全球下載量突破800萬(wàn)?!?span lang="en-US">Spaces”“對話(huà)吧”“SoundClub”等一系列類(lèi)似軟件緊跟其后,似乎都在暗示聲音社交回歸舞臺。
自出生后的第一聲啼哭開(kāi)始,我們與聲音“相處”已久,但關(guān)于“聲音”,或許還有許多方面值得我們深究。人工智能時(shí)代,聲音在被捕捉、模仿、傳輸和理解的過(guò)程中,究竟經(jīng)歷了什么?本期《科技周刊》帶你走進(jìn)聲音的世界。
語(yǔ)音中的聲音為何變“奇怪”
現實(shí)生活中,很多人有這樣的經(jīng)歷:當你飽含深情地說(shuō)了一段語(yǔ)音后,語(yǔ)音播放出來(lái)卻不僅聲音變得奇怪,聽(tīng)起來(lái)甚至不太像自己。明明是同一個(gè)人在說(shuō)話(huà),為何會(huì )出現這樣的差異呢?究竟哪個(gè)才是自己最真實(shí)的聲音?“實(shí)際上,這主要有兩個(gè)原因,首先是聲音傳播的方式不同,另一個(gè)是語(yǔ)音經(jīng)過(guò)社交平臺轉錄出去后常常會(huì )被壓縮?!敝袊茖W(xué)院聲學(xué)研究所研究員、中國科學(xué)院語(yǔ)言聲學(xué)與內容理解重點(diǎn)實(shí)驗室副主任張鵬遠接受《科技周刊》記者采訪(fǎng)時(shí)表示,聲音是由物體振動(dòng)產(chǎn)生的,“別人聽(tīng)見(jiàn)你的聲音”是由你聲帶的振動(dòng)引起了空氣的振動(dòng),從而被他人感知,所以是依靠空氣傳播;而“自己聽(tīng)見(jiàn)自己的聲音”則是通過(guò)顱骨傳導,直接振動(dòng)耳蝸進(jìn)而轉化為神經(jīng)信號,變成你所聽(tīng)到的聲音,這也就是我們常說(shuō)的“骨傳導”?!耙驗閭鞑シ绞降牟煌?,且環(huán)境中存在著(zhù)大量干擾,同一個(gè)人說(shuō)的話(huà)自己聽(tīng)見(jiàn)的版本和別人聽(tīng)見(jiàn)的版本是不同的?!?/p>
除此之外,聲音之所以變“奇怪”可能還涉及編碼和解碼的問(wèn)題?!爱斘覀儗χ?zhù)麥克風(fēng)說(shuō)話(huà),聲音被麥克風(fēng)采集后轉為數字信號,這時(shí)候就可能會(huì )出現失真?!睆堸i遠以有損音頻和無(wú)損音頻舉例,如果把聲音視作一條曲線(xiàn),無(wú)數的點(diǎn)構成了這條曲線(xiàn)。對于同樣一段聲音,有損音頻的采樣頻率和采樣精度比較低,比如每秒鐘采樣8000個(gè)點(diǎn)(約為打電話(huà)時(shí)所用的采樣頻率),那么聲音自然就會(huì )出現偏差。同一首歌曲,采樣頻率和采樣精度越高,其對聲音的還原程度也就越高?!耙话銇?lái)說(shuō),有損音頻和無(wú)損音頻的文件大小可以相差10倍以上。我們通過(guò)微信發(fā)送語(yǔ)音,因為要降低傳輸數據量,所以一般都會(huì )對其進(jìn)行壓縮?!?/p>
聲音和我們的指紋一樣,有著(zhù)每個(gè)人各自的獨特之處,并且相對穩定、可辨別?!坝捎谌说陌l(fā)聲器官位置、尺寸不同,并且每個(gè)人聲音的音色、音調等特征不同,所以從人聲音中提取出來(lái)的聲紋(人的聲音頻譜)具有唯一性?!睆堸i遠表示,現在很流行的聲紋識別技術(shù)實(shí)際上就是將聲信號轉化為數字信號,再利用技術(shù)手段捕捉特定對象的聲紋特征,從而判定說(shuō)話(huà)的人是誰(shuí)。
你的聲音如何被“復刻”
自1939年世界上第一臺能夠合成人聲的電子設備Voder亮相紐約世界博覽會(huì )以來(lái),“如何能讓機器模仿人的聲音”就成了人工智能領(lǐng)域的一大熱點(diǎn)話(huà)題。江蘇省人工智能學(xué)會(huì )智能語(yǔ)音專(zhuān)家、蘇州思必馳信息科技有限公司聯(lián)合創(chuàng )始人、上海交通大學(xué)蘇州人工智能研究院執行院長(cháng)俞凱教授告訴《科技周刊》記者,人工智能語(yǔ)音合成技術(shù)正不斷迭代更新,其發(fā)展歷史主要分為三個(gè)階段:在第一代技術(shù)階段,我們需要被模仿人提前錄制一個(gè)龐大的音庫,這個(gè)音庫會(huì )被切分成若干小段隨時(shí)待取,當我們所需要合成的語(yǔ)音中每一個(gè)涉及的詞都提前被錄制過(guò),則可以直接調取?!斑@種情況下播放出的聲音將會(huì )很逼真,基本上就是錄音,但其缺點(diǎn)在于需要提前錄制大量語(yǔ)料,一旦遇到?jīng)]有提前錄制的詞句,就會(huì )出現間斷等明顯不自然情況?!?/p>
第二代技術(shù)開(kāi)始運用機器學(xué)習技術(shù),首先將采集到的聲音利用相關(guān)參數化的統計模型進(jìn)行建模,使用信號處理的方式,將建模之后生成的聲音頻率特征進(jìn)行信號處理,最后輸出我們能夠聽(tīng)見(jiàn)的聲音?!氨M管這種方式的連貫性會(huì )好很多,但由于在統計模型的建模過(guò)程中聲音頻率特征會(huì )被平滑,從而產(chǎn)生音質(zhì)損失,因此整體來(lái)看第二代技術(shù)所合成的語(yǔ)音并不是那么逼真?!倍诘诙夹g(shù)的基礎上發(fā)展起來(lái)的第三代語(yǔ)音合成技術(shù),大多是基于深度學(xué)習中的神經(jīng)網(wǎng)絡(luò )技術(shù)開(kāi)展?!昂偷诙嗨?,現在的第三代技術(shù)也是數據驅動(dòng)的,但大多采用了先進(jìn)的端到端深度學(xué)習框架,數據訓練后合成的聲音比較連貫和自然。如果在錄音條件非常好且有充足數據的情況下,其合成聲音和真人聲音沒(méi)有太大區別,人耳基本上聽(tīng)不出差異?!?/p>
目前利用語(yǔ)音合成技術(shù)去模仿人聲,需要通過(guò)神經(jīng)網(wǎng)絡(luò )去捕捉被模仿人聲音中的三類(lèi)主要變化特性。俞凱介紹,首先是語(yǔ)言文字的特征,即這個(gè)詞應該發(fā)什么音;第二類(lèi)特征是韻律的特征,即聲音的抑揚頓挫;最后還需要把握說(shuō)話(huà)人的時(shí)長(cháng)特征,即說(shuō)話(huà)人發(fā)每個(gè)音需要用的時(shí)間?!澳腥撕团?、老人和孩子,不同人說(shuō)話(huà)的聲音各不相同,這三類(lèi)特征信息被神經(jīng)網(wǎng)絡(luò )捕捉到之后會(huì )生成一個(gè)頻譜序列,而這個(gè)序列會(huì )被傳遞到另一類(lèi)神經(jīng)網(wǎng)絡(luò )中,最終生成模仿后的聲音?!?/p>
生活中,很多車(chē)主將林志玲、郭德綱等名人的聲音設定為地圖軟件中的導航提示音,其實(shí)這也得益于語(yǔ)音合成中的復刻技術(shù)?!叭珖蟠笮⌒〉穆访泻芏?,全部讓人念出來(lái)錄音幾乎是不可能的事。因此,我們需要前期在高保真錄音室中記錄很多人的語(yǔ)音數據,訓練一個(gè)平均模型,隨后將特定目標人說(shuō)話(huà)的錄音導入,讓系統根據目標人說(shuō)話(huà)特征進(jìn)行調優(yōu),從而盡可能模仿目標人的聲音?!睆堸i遠表示,一般來(lái)說(shuō),合成語(yǔ)音的自然度和相似度是通過(guò)MOS(平均主觀(guān)意見(jiàn)分)分來(lái)進(jìn)行評價(jià)。MOS分滿(mǎn)分為5分,一般情況下采集目標人100句話(huà)之后所能合成的語(yǔ)音,其MOS分可以達到4.2分的水平;而如果只采集到5句話(huà),則MOS分就會(huì )比較低,人耳能明顯聽(tīng)出不同。
透過(guò)聲音能“看到”臉嗎
兩年前,康奈爾大學(xué)研究團隊設計并訓練了一個(gè)深度神經(jīng)網(wǎng)絡(luò ),它在訓練過(guò)程中學(xué)習了視聽(tīng)、音像、聲音和面部的關(guān)聯(lián)性,從而根據聲音來(lái)推測面部特征。透過(guò)聲音,人工智能真的能夠“看到”臉嗎?目前,人工智能領(lǐng)域對聲音的研究又有何新進(jìn)展?對此,張鵬遠認為,單純借助聲音無(wú)法百分百還原目標人的臉部圖像,但有可能還原出其部分面部特征?!叭说穆曇艉腿四樀膱D像其實(shí)是有相關(guān)性的,例如我們在單看唇部運動(dòng)的時(shí)候,哪怕沒(méi)有出聲,也可以識別其部分說(shuō)話(huà)內容,所以說(shuō)聲音和圖像并不能被割裂,而是強相關(guān)?!?/p>
從康奈爾大學(xué)研究團隊的實(shí)驗結果來(lái)看,通過(guò)聲音,人工智能確實(shí)可以生成與目標人類(lèi)似的面孔,可以還原其部分特征,但和真實(shí)長(cháng)相還有一定差距。俞凱表示,說(shuō)話(huà)人的年齡、性別、面部骨骼等生理學(xué)特征確實(shí)與人的聲音具有相關(guān)性,可以一定程度上還原說(shuō)話(huà)人的面部特征,但想單獨憑借聲音這一種模態(tài)來(lái)完全重構人臉,目前是做不到的。
近年來(lái),隨著(zhù)人工智能領(lǐng)域對于聲音的研究越來(lái)越多,其發(fā)展速度也不斷加快?!霸谌伺c人工智能的語(yǔ)音交互過(guò)程中,不單單包括語(yǔ)音合成和識別,還涉及對說(shuō)話(huà)內容的理解?!庇釀P進(jìn)一步解釋?zhuān)壳按蠖鄶等私佑|到的語(yǔ)音交互主要是“你一句,我一句”輪換著(zhù)對話(huà)的模式,而我們現在正在研究的是即興自然語(yǔ)音交互的新架構,即真人與人工智能可以自由對話(huà)。簡(jiǎn)單來(lái)說(shuō)就是,對話(huà)期間任何一方都可以打斷另一方;當人沒(méi)有表達完自己想表達的意思時(shí),人工智能會(huì )等人繼續說(shuō)完;而當人表達完意思后,人工智能可以立刻反饋?!拔覀儾捎谩p工’的交互架構,幫助人工智能在‘聽(tīng)見(jiàn)’聲音的基礎上,能夠在語(yǔ)音交互過(guò)程中理解說(shuō)話(huà)人的意思,而這些都是早期人工智能語(yǔ)音交互系統里所不具備的?!?/p>
作者:謝詩(shī)涵
來(lái)源:《新華日報》 (2021-03-17 第14版科技周刊·新知)
報道鏈接: