逼近人類水平的語(yǔ)音識(shí)別系統(tǒng)來(lái)了?
沒(méi)錯(cuò),OpenAI 新開源了一個(gè)名為「Whisper」的新語(yǔ)音識(shí)別系統(tǒng),據(jù)稱在英文語(yǔ)音識(shí)別方面擁有接近人類水平的魯棒性和準(zhǔn)確性!
不僅如此,對(duì)于不同口音、專業(yè)術(shù)語(yǔ)的識(shí)別效果也是杠杠的!
一經(jīng)發(fā)布就在推特上收獲4800+ 點(diǎn)贊,1000+ 轉(zhuǎn)發(fā)。

網(wǎng)友們紛紛對(duì)它意料之外的強(qiáng)大功能表示驚訝。
不僅是英文,有人用法國(guó)詩(shī)人波德萊爾的《惡之花》進(jìn)行了語(yǔ)音測(cè)試,得到的文本幾乎與原文一致。

OpenAI 聯(lián)合創(chuàng)始人 & 首席科學(xué)家 Ilya Sutskever 就表示:
終于有一個(gè)靠譜的語(yǔ)音識(shí)別系統(tǒng)能聽懂我的口音了。

前任特斯拉人工智能總監(jiān) Andrej Karpathy 甚至轉(zhuǎn)發(fā)評(píng)論:OpenAI 正處于最好的狀態(tài)中。

話不多說(shuō),讓我們看看這個(gè)被 " 好評(píng)如潮 " 的語(yǔ)音系統(tǒng)究竟是怎么回事。
逼近人類水平的語(yǔ)音識(shí)別系統(tǒng)
首先,Whisper 最大特點(diǎn)是它使用的超大規(guī)模訓(xùn)練集:
它使用從網(wǎng)絡(luò)上收集的68 萬(wàn)小時(shí)的多語(yǔ)言、多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練。
這導(dǎo)致數(shù)據(jù)集的內(nèi)容非常多元化,涵蓋了許多不同環(huán)境、不同錄音設(shè)備下、不同語(yǔ)言的音頻。
具體而言,65% ( 438218 小時(shí) ) 是英語(yǔ)音頻和匹配的英語(yǔ)文本,大約 18% ( 125739 小時(shí) ) 是非英語(yǔ)音頻和英語(yǔ)文本,而最后 17% ( 117113 小時(shí) ) 則是非英語(yǔ)音頻和相應(yīng)的文本。
其中,非英語(yǔ)部分共包含98 種不同語(yǔ)言。

不過(guò),雖然音頻質(zhì)量的多樣性可以幫助提高訓(xùn)練模型的魯棒性,但轉(zhuǎn)錄文本質(zhì)量的多樣性并不是同樣有益的。
初步檢查顯示,原始數(shù)據(jù)集中有大量不合格的、現(xiàn)有自動(dòng)語(yǔ)音識(shí)別 ( ASR ) 系統(tǒng)生成的轉(zhuǎn)錄文本。
而以往的研究表明,在人工和機(jī)器混合生成的數(shù)據(jù)集上進(jìn)行訓(xùn)練,會(huì)顯著損害翻譯系統(tǒng)的性能。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了幾種自動(dòng)過(guò)濾方法來(lái)識(shí)別和刪除低質(zhì)量的數(shù)據(jù)源。
但值得一提的是,沒(méi)有說(shuō)話內(nèi)容的片段會(huì)被留下,作為語(yǔ)音活動(dòng)檢測(cè)的訓(xùn)練數(shù)據(jù)。
其次,Whisper 體系結(jié)構(gòu)是一種簡(jiǎn)單的端到端方法,具體來(lái)說(shuō)就是 Transformer 的編碼器 - 解碼器格式。

輸入音頻被分成 30 秒的片段,再轉(zhuǎn)換成 log-Mel 譜圖,然后傳入編碼器。
解碼器被訓(xùn)練來(lái)預(yù)測(cè)相應(yīng)的文本標(biāo)題,并混合特殊標(biāo)記,指示單一模型執(zhí)行諸如語(yǔ)言識(shí)別、多語(yǔ)言語(yǔ)音轉(zhuǎn)錄和英語(yǔ)語(yǔ)音翻譯等任務(wù)。

除此之外,研究人員還為 Whisper 設(shè)置了5 種不同的型號(hào),以下是各模型大致的內(nèi)存需求和相對(duì)速度,使用者可以自行選擇。
但需要注意的是,只有 "large" 型號(hào)支持多語(yǔ)言,前 4 個(gè)模型都只支持英語(yǔ)。

不過(guò)不需要擔(dān)心,與其他模型相比,英文語(yǔ)音識(shí)別正是 Whisper 的核心競(jìng)爭(zhēng)力。
實(shí)驗(yàn)結(jié)果證明,Whisper 在 Librispeech test-clean 測(cè)試的錯(cuò)誤率達(dá)到 2.7%。
雖然這一數(shù)值與 Wav2vec 2.0 一樣,但在零樣本性能上,Whisper 明顯更穩(wěn)健,平均誤差減少了 55%。

甚至零樣本 Whisper 模型還縮小了與人類魯棒性之間的差距。
可以看出,與人類 Alec 相比,LibriSpeech 模型的錯(cuò)誤率大約是人類的兩倍,而 Whisper 模型的魯棒性邊界則包括 Alec95% 的置信區(qū)間。

研究團(tuán)隊(duì)
Whisper 的研究團(tuán)隊(duì)來(lái)自 OpenAI,共同一作有兩位:Alec Radford、Jong Wook Kim。

Alec Radford,OpenAI 的機(jī)器學(xué)習(xí)研究員,也是 indico.io 的聯(lián)合創(chuàng)始人。

Jong Wook Kim,在紐約大學(xué)獲得了音樂(lè)技術(shù)專業(yè)的博士學(xué)位,研究方向包括多模態(tài)深度學(xué)習(xí)和音樂(lè)理解,目前是 OpenAI 的研究人員。

值得一提的是,研究團(tuán)隊(duì)指出,雖然目前 Whisper 還沒(méi)有實(shí)時(shí)功能,但它的運(yùn)行速度和內(nèi)存大小表明,在這一基礎(chǔ)上搭建實(shí)時(shí)語(yǔ)音識(shí)別和翻譯功能是可行的。
他們希望 Whisper 的高精度和易用性,將允許開發(fā)人員將語(yǔ)音接口添加到更廣泛的應(yīng)用程序中。
原文地址:http://www.myzaker.com/article/632f4619b15ec04ad862541b
轉(zhuǎn)載請(qǐng)注明:能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類 | 快導(dǎo)航網(wǎng)