欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

前沿科技 3年前 (2022) 虛像
3 0 0

逼近人類水平語(yǔ)音識(shí)別系統(tǒng)來(lái)了?

沒(méi)錯(cuò),OpenAI 新開源了一個(gè)名為「Whisper」的新語(yǔ)音識(shí)別系統(tǒng),據(jù)稱在英文語(yǔ)音識(shí)別方面擁有接近人類水平的魯棒性和準(zhǔn)確性!

不僅如此,對(duì)于不同口音專業(yè)術(shù)語(yǔ)的識(shí)別效果也是杠杠的!

一經(jīng)發(fā)布就在推特上收獲4800+ 點(diǎn)贊1000+ 轉(zhuǎn)發(fā)

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

網(wǎng)友們紛紛對(duì)它意料之外的強(qiáng)大功能表示驚訝。

不僅是英文,有人用法國(guó)詩(shī)人波德萊爾的《惡之花》進(jìn)行了語(yǔ)音測(cè)試,得到的文本幾乎與原文一致

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

OpenAI 聯(lián)合創(chuàng)始人 & 首席科學(xué)家 Ilya Sutskever 就表示:

終于有一個(gè)靠譜的語(yǔ)音識(shí)別系統(tǒng)能聽懂我的口音了。

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

前任特斯拉人工智能總監(jiān) Andrej Karpathy 甚至轉(zhuǎn)發(fā)評(píng)論:OpenAI 正處于最好的狀態(tài)中。

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

話不多說(shuō),讓我們看看這個(gè)被 " 好評(píng)如潮 " 的語(yǔ)音系統(tǒng)究竟是怎么回事。

逼近人類水平的語(yǔ)音識(shí)別系統(tǒng)

首先,Whisper 最大特點(diǎn)是它使用的超大規(guī)模訓(xùn)練集

它使用從網(wǎng)絡(luò)上收集的68 萬(wàn)小時(shí)的多語(yǔ)言、多任務(wù)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練。

這導(dǎo)致數(shù)據(jù)集的內(nèi)容非常多元化,涵蓋了許多不同環(huán)境、不同錄音設(shè)備下、不同語(yǔ)言的音頻。

具體而言,65% ( 438218 小時(shí) ) 是英語(yǔ)音頻和匹配的英語(yǔ)文本,大約 18% ( 125739 小時(shí) ) 是非英語(yǔ)音頻和英語(yǔ)文本,而最后 17% ( 117113 小時(shí) ) 則是非英語(yǔ)音頻和相應(yīng)的文本。

其中,非英語(yǔ)部分共包含98 種不同語(yǔ)言。

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

不過(guò),雖然音頻質(zhì)量的多樣性可以幫助提高訓(xùn)練模型的魯棒性,但轉(zhuǎn)錄文本質(zhì)量的多樣性并不是同樣有益的。

初步檢查顯示,原始數(shù)據(jù)集中有大量不合格的、現(xiàn)有自動(dòng)語(yǔ)音識(shí)別 ( ASR ) 系統(tǒng)生成的轉(zhuǎn)錄文本。

而以往的研究表明,在人工和機(jī)器混合生成的數(shù)據(jù)集上進(jìn)行訓(xùn)練,會(huì)顯著損害翻譯系統(tǒng)的性能。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開發(fā)了幾種自動(dòng)過(guò)濾方法來(lái)識(shí)別和刪除低質(zhì)量的數(shù)據(jù)源。

但值得一提的是,沒(méi)有說(shuō)話內(nèi)容的片段會(huì)被留下,作為語(yǔ)音活動(dòng)檢測(cè)的訓(xùn)練數(shù)據(jù)。

其次,Whisper 體系結(jié)構(gòu)是一種簡(jiǎn)單的端到端方法,具體來(lái)說(shuō)就是 Transformer 的編碼器 - 解碼器格式。

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

輸入音頻被分成 30 秒的片段,再轉(zhuǎn)換成 log-Mel 譜圖,然后傳入編碼器。

解碼器被訓(xùn)練來(lái)預(yù)測(cè)相應(yīng)的文本標(biāo)題,并混合特殊標(biāo)記,指示單一模型執(zhí)行諸如語(yǔ)言識(shí)別、多語(yǔ)言語(yǔ)音轉(zhuǎn)錄和英語(yǔ)語(yǔ)音翻譯等任務(wù)。

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

除此之外,研究人員還為 Whisper 設(shè)置了5 種不同的型號(hào),以下是各模型大致的內(nèi)存需求和相對(duì)速度,使用者可以自行選擇。

但需要注意的是,只有 "large" 型號(hào)支持多語(yǔ)言,前 4 個(gè)模型都只支持英語(yǔ)。

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

不過(guò)不需要擔(dān)心,與其他模型相比,英文語(yǔ)音識(shí)別正是 Whisper 的核心競(jìng)爭(zhēng)力。

實(shí)驗(yàn)結(jié)果證明,Whisper 在 Librispeech test-clean 測(cè)試的錯(cuò)誤率達(dá)到 2.7%。

雖然這一數(shù)值與 Wav2vec 2.0 一樣,但在零樣本性能上,Whisper 明顯更穩(wěn)健,平均誤差減少了 55%

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

甚至零樣本 Whisper 模型還縮小了與人類魯棒性之間的差距

可以看出,與人類 Alec 相比,LibriSpeech 模型的錯(cuò)誤率大約是人類的兩倍,而 Whisper 模型的魯棒性邊界則包括 Alec95% 的置信區(qū)間。

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

研究團(tuán)隊(duì)

Whisper 的研究團(tuán)隊(duì)來(lái)自 OpenAI,共同一作有兩位:Alec Radford、Jong Wook Kim。

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

Alec Radford,OpenAI 的機(jī)器學(xué)習(xí)研究員,也是 indico.io 的聯(lián)合創(chuàng)始人

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

Jong Wook Kim,在紐約大學(xué)獲得了音樂(lè)技術(shù)專業(yè)的博士學(xué)位,研究方向包括多模態(tài)深度學(xué)習(xí)和音樂(lè)理解,目前是 OpenAI 的研究人員。

能聽懂口音的開源語(yǔ)音系統(tǒng)來(lái)了:OpenAI出品,支持99種語(yǔ)言,英文識(shí)別能力直逼人類

值得一提的是,研究團(tuán)隊(duì)指出,雖然目前 Whisper 還沒(méi)有實(shí)時(shí)功能,但它的運(yùn)行速度和內(nèi)存大小表明,在這一基礎(chǔ)上搭建實(shí)時(shí)語(yǔ)音識(shí)別和翻譯功能是可行的。

他們希望 Whisper 的高精度和易用性,將允許開發(fā)人員將語(yǔ)音接口添加到更廣泛的應(yīng)用程序中。

原文地址:http://www.myzaker.com/article/632f4619b15ec04ad862541b

相關(guān)文章

主站蜘蛛池模板: 乐东| 来凤县| 孟连| 连州市| 大余县| 阳西县| 田林县| 盖州市| 奉贤区| 牙克石市| 通渭县| 盐城市| 黎平县| 鸡西市| 高尔夫| 中方县| 青海省| 盐边县| 新竹市| 泗水县| 习水县| 临洮县| 吐鲁番市| 嘉峪关市| 吉木乃县| 石狮市| 昭觉县| 子长县| 邮箱| 华宁县| 新乐市| 宜州市| 孟津县| 太湖县| 全南县| 波密县| 宜黄县| 包头市| 祥云县| 太湖县| 陕西省|