能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了：OpenAI出品，支持99種語(yǔ)言，英文識(shí)別能力直逼人類

前沿科技 3年前 (2022) 虛像

3 0 0

逼近人類水平的語(yǔ)音識(shí)別系統(tǒng)來(lái)了？

沒(méi)錯(cuò)，OpenAI 新開源了一個(gè)名為「Whisper」的新語(yǔ)音識(shí)別系統(tǒng)，據(jù)稱在英文語(yǔ)音識(shí)別方面擁有接近人類水平的魯棒性和準(zhǔn)確性！

不僅如此，對(duì)于不同口音、專業(yè)術(shù)語(yǔ)的識(shí)別效果也是杠杠的！

一經(jīng)發(fā)布就在推特上收獲4800+ 點(diǎn)贊，1000+ 轉(zhuǎn)發(fā)。

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了：OpenAI出品，支持99種語(yǔ)言，英文識(shí)別能力直逼人類

網(wǎng)友們紛紛對(duì)它意料之外的強(qiáng)大功能表示驚訝。

不僅是英文，有人用法國(guó)詩(shī)人波德萊爾的《惡之花》進(jìn)行了語(yǔ)音測(cè)試，得到的文本幾乎與原文一致。

OpenAI 聯(lián)合創(chuàng)始人 & 首席科學(xué)家 Ilya Sutskever 就表示：

終于有一個(gè)靠譜的語(yǔ)音識(shí)別系統(tǒng)能聽懂我的口音了。

前任特斯拉人工智能總監(jiān) Andrej Karpathy 甚至轉(zhuǎn)發(fā)評(píng)論：OpenAI 正處于最好的狀態(tài)中。

話不多說(shuō)，讓我們看看這個(gè)被 " 好評(píng)如潮 " 的語(yǔ)音系統(tǒng)究竟是怎么回事。

逼近人類水平的語(yǔ)音識(shí)別系統(tǒng)

首先，Whisper 最大特點(diǎn)是它使用的超大規(guī)模訓(xùn)練集：

它使用從網(wǎng)絡(luò)上收集的68 萬(wàn)小時(shí)的多語(yǔ)言、多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練。

這導(dǎo)致數(shù)據(jù)集的內(nèi)容非常多元化，涵蓋了許多不同環(huán)境、不同錄音設(shè)備下、不同語(yǔ)言的音頻。

具體而言，65% ( 438218 小時(shí) ) 是英語(yǔ)音頻和匹配的英語(yǔ)文本，大約 18% ( 125739 小時(shí) ) 是非英語(yǔ)音頻和英語(yǔ)文本，而最后 17% ( 117113 小時(shí) ) 則是非英語(yǔ)音頻和相應(yīng)的文本。

其中，非英語(yǔ)部分共包含98 種不同語(yǔ)言。

不過(guò)，雖然音頻質(zhì)量的多樣性可以幫助提高訓(xùn)練模型的魯棒性，但轉(zhuǎn)錄文本質(zhì)量的多樣性并不是同樣有益的。

初步檢查顯示，原始數(shù)據(jù)集中有大量不合格的、現(xiàn)有自動(dòng)語(yǔ)音識(shí)別 ( ASR ) 系統(tǒng)生成的轉(zhuǎn)錄文本。

而以往的研究表明，在人工和機(jī)器混合生成的數(shù)據(jù)集上進(jìn)行訓(xùn)練，會(huì)顯著損害翻譯系統(tǒng)的性能。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)開發(fā)了幾種自動(dòng)過(guò)濾方法來(lái)識(shí)別和刪除低質(zhì)量的數(shù)據(jù)源。

但值得一提的是，沒(méi)有說(shuō)話內(nèi)容的片段會(huì)被留下，作為語(yǔ)音活動(dòng)檢測(cè)的訓(xùn)練數(shù)據(jù)。

其次，Whisper 體系結(jié)構(gòu)是一種簡(jiǎn)單的端到端方法，具體來(lái)說(shuō)就是 Transformer 的編碼器 - 解碼器格式。

輸入音頻被分成 30 秒的片段，再轉(zhuǎn)換成 log-Mel 譜圖，然后傳入編碼器。

解碼器被訓(xùn)練來(lái)預(yù)測(cè)相應(yīng)的文本標(biāo)題，并混合特殊標(biāo)記，指示單一模型執(zhí)行諸如語(yǔ)言識(shí)別、多語(yǔ)言語(yǔ)音轉(zhuǎn)錄和英語(yǔ)語(yǔ)音翻譯等任務(wù)。

除此之外，研究人員還為 Whisper 設(shè)置了5 種不同的型號(hào)，以下是各模型大致的內(nèi)存需求和相對(duì)速度，使用者可以自行選擇。

但需要注意的是，只有 "large" 型號(hào)支持多語(yǔ)言，前 4 個(gè)模型都只支持英語(yǔ)。

不過(guò)不需要擔(dān)心，與其他模型相比，英文語(yǔ)音識(shí)別正是 Whisper 的核心競(jìng)爭(zhēng)力。

實(shí)驗(yàn)結(jié)果證明，Whisper 在 Librispeech test-clean 測(cè)試的錯(cuò)誤率達(dá)到 2.7%。

雖然這一數(shù)值與 Wav2vec 2.0 一樣，但在零樣本性能上，Whisper 明顯更穩(wěn)健，平均誤差減少了 55%。

甚至零樣本 Whisper 模型還縮小了與人類魯棒性之間的差距。

可以看出，與人類 Alec 相比，LibriSpeech 模型的錯(cuò)誤率大約是人類的兩倍，而 Whisper 模型的魯棒性邊界則包括 Alec95% 的置信區(qū)間。

研究團(tuán)隊(duì)

Whisper 的研究團(tuán)隊(duì)來(lái)自 OpenAI，共同一作有兩位：Alec Radford、Jong Wook Kim。

Alec Radford，OpenAI 的機(jī)器學(xué)習(xí)研究員，也是 indico.io 的聯(lián)合創(chuàng)始人。

Jong Wook Kim，在紐約大學(xué)獲得了音樂(lè)技術(shù)專業(yè)的博士學(xué)位，研究方向包括多模態(tài)深度學(xué)習(xí)和音樂(lè)理解，目前是 OpenAI 的研究人員。

值得一提的是，研究團(tuán)隊(duì)指出，雖然目前 Whisper 還沒(méi)有實(shí)時(shí)功能，但它的運(yùn)行速度和內(nèi)存大小表明，在這一基礎(chǔ)上搭建實(shí)時(shí)語(yǔ)音識(shí)別和翻譯功能是可行的。

他們希望 Whisper 的高精度和易用性，將允許開發(fā)人員將語(yǔ)音接口添加到更廣泛的應(yīng)用程序中。

原文地址：http://www.myzaker.com/article/632f4619b15ec04ad862541b

創(chuàng)始人翻譯英語(yǔ)語(yǔ)音識(shí)別音樂(lè)

版權(quán)聲明：虛像發(fā)表于 2022年9月25日 pm5:04。
轉(zhuǎn)載請(qǐng)注明：能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了：OpenAI出品，支持99種語(yǔ)言，英文識(shí)別能力直逼人類 | 快導(dǎo)航網(wǎng)

欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了：OpenAI出品，支持99種語(yǔ)言，英文識(shí)別能力直逼人類

Google、微軟工程師花幾十萬(wàn)把腿弄斷，這件事在硅谷越來(lái)越流行

運(yùn)營(yíng)商調(diào)侃“家庭FTTR不普及是因?yàn)榉孔硬粔虼蟆保阍趺纯矗?/h4>

相關(guān)文章

熱門文章

最新資訊

熱門網(wǎng)址

熱門標(biāo)簽

欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了：OpenAI出品，支持99種語(yǔ)言，英文識(shí)別能力直逼人類

Google、微軟工程師花幾十萬(wàn)把腿弄斷，這件事在硅谷越來(lái)越流行

運(yùn)營(yíng)商調(diào)侃“家庭FTTR不普及是因?yàn)榉孔硬粔虼蟆保阍趺纯矗?/h4>

相關(guān)文章

熱門文章

最新資訊

熱門網(wǎng)址

熱門標(biāo)簽

運(yùn)營(yíng)相關(guān)

軟件下載

跨境電商

購(gòu)物網(wǎng)站

設(shè)計(jì)相關(guān)

行業(yè)企業(yè)

自媒體相關(guān)

網(wǎng)絡(luò)科技

編程幫手

綜合其他

站長(zhǎng)助手

知識(shí)充能

電商運(yùn)營(yíng)

生活服務(wù)

榜單排名

服務(wù)生活

日常生活

新聞媒體

教育文化

政府組織

探索發(fā)現(xiàn)

影視工具

影視基地

工具大全

學(xué)術(shù)資源

學(xué)習(xí)教育

娛樂(lè)生活

發(fā)現(xiàn)資源

醫(yī)療健康

興趣愛(ài)好

元宇宙

體育健身

休閑娛樂(lè)

交通旅游

NFT概念

ACG