
圖片來源 @視覺中國
文 | 新商業派
不知道從什么時候起,魏然發現自己常刷的短視頻 APP 中,出現頻率最高的聲音從各種洗腦神曲變成了影視劇剪輯。
而且很多比如 XX 影視、XX 電影說這些粉絲上千萬的賬號,擁有一個共同點——旁白配音高度相似。
魏然一度疑惑,真的有人有這么多精力給數量如此龐大的短視頻配音嗎?直到后來有一次在和一個做短視頻的朋友聊天時,將這個疑問拋給朋友。
" 你真的不知道這些都是配音軟件合成的聲音嗎?" 對方笑他孤陋寡聞,他也恍然大悟。
在他有限的認知里,軟件語音不就是類似于天貓精靈、Siri 那種效果嗎?機械、僵硬、古怪,一聽就是機器人的聲音。但是短視頻中的配音卻聲音流暢、音色出眾,幾乎和真人無異,兩者完全不是一個檔次。
這究竟是怎么回事?
01 短視頻配音的秘密
想了解這些聲音是怎么來的,魏然采取了追根溯源的辦法,去找這些影視大 V 們的供應商,結果發現其實不少賬號都是一家名為 " 魔音工坊 " 配音軟件的客戶。
官方資料介紹,魔音工坊是一款短視頻達人聯袂推薦的 AI 配音神器,能一鍵將文本轉換為音頻。它能幫助用戶快速、高效制作高質量的音頻,從而給短視頻、有聲書等高效配音。
在其官網上也列舉了幾十個粉絲過百萬的抖音影視劇大 V 客戶。

相比魔音工坊,其背后的一家公司在科技圈很多人都不會陌生,它就是出門問問。這是一家由 Google 投資的人工智能公司,前幾年也是人工智能行業的當紅炸子雞之一,主要的產品是智能手表、智能音箱等硬件產品。
出門問問是其對標 Google NOW,亞馬遜 Alexa 創業的一家公司,魔音工坊是 2020 年由出門問問推出 AI 語音系列產品。
2020 年前后是出門問問最艱難的時刻,創始人李志飛提到這是他人生的至暗時刻,此前出門問問突破 10 億美元估值后開始瘋狂擴張,很快遭遇巨大的虧損,出門問問開始急剎車,大幅裁員、砍門店,從千人規模精簡到 500 人、線下門店全部關掉。可以猜想魔音工坊就是出門問問為了挽救公司困局而推出來的一款產品。
魔音工坊的原理很簡單,以 AI 語音技術模擬具有清晰性格特征的真人語音,進行 AI 音頻內容創作。簡單的來說就是先找一些音色出眾的配音人錄制一些聲音,然后用機器學習的手段訓練獲得聲音的特征。用戶使用的時候,只需要導入一段文字,然后略微調整重音、停頓等問題,就可以生成一段和配音人相似的聲音片段了。
這里面需要用到一個關鍵技術叫做 Deepfake Voice,也稱為語音克隆或合成語音,其目的是使用 AI 生成一個人的語音。
業內人士介紹,初代的人工智能語音,干澀、生硬、機械感格外強。但是在 Deepfake Voice(聲音克隆)技術加持下,AI 生成的語音如今已經可以近乎完美復刻真人的聲音。傳統的語音合成通常使用兩種基本技術,即拼接合成和共振峰合成。
而深度學習和人工智能的出現將 TTS(語音合成)技術帶到了新的高度,可以在音調和相似度上非常精確地復制人聲的地步,也就促成了我們聽到的近乎以假亂真的人工智能語音出現。
不過出門問問把自己的技術稱之為 MeetVoice ( Mobvoi End-to-End TTS Voice ) ,也就是采用基于神經網絡的聲碼器 Meet-Vocoder,可以實現高度接近真人的聲音素質。
有了這門技術,一門生意就出現了。為了讓這些聲音變現,魔音工坊建立了聲音商店,用戶可以按天 / 月 / 年付費。

02 蓬勃發展的 " 機器音 "
隨著抖音視頻魔性的聲音在大街小巷響起的時候,短視頻配音產業也迎來了眾多玩家的入局。
眼下短視頻配音領域可以有三大陣營的玩家:
第一類是來自人工智能公司,包括出門問問、微軟、科大訊飛,這些公司在人工智能語音上都有多年的積累,做短視頻配音屬于降維打擊。由于功底扎實,推出的產品品質較高,大多采取付費使用的模式。
第二類同樣是采用付費模式的是一些小型創業公司或者工作室,這些公司大多名不見經傳,搜索引擎一搜一大票,產品良莠不齊。
第三類是短視頻平臺自己推出的帶有配音功能的剪輯軟件,比如抖音的剪映、騰訊的智影等等特點就是使用免費。
玩家蜂擁而來,瞄準的就是處于高速增長階段的短視頻配音市場,近年來 "X 分鐘看完 XX" 等這類視頻大受歡迎,很多創作者有了配音的需求,訊飛和出門問問爭搶的就是這類客戶。
實際上不光是在中國,AI 語音在全球都有著廣闊的市場空間,除了短視頻之外還包括影視劇、廣告、游戲等眾多使用場景,根據 Verified Market Research,僅電影配音市場的價值從 2020 年就開始以 5.6% 的復合年增長率增長,到 2027 年可達 36 億美元。
因此 AI 語音行業在國內外都處于高峰發展的階段。今年 2 月份韓國語音和視頻合成初創公司 Neosapience 獲得 2150 萬美元的 B 輪融資,該公司于 2017 年成立,其語音視頻合成平臺 Typecast 使用戶能夠將文字轉化為 AI 合成的語音和視頻,擁有 170 名說韓語和英語的配音員,大多數用戶是創作者和企業客戶。
今年 6 月音樂流媒體平臺 Spotify 宣布收購人工智能語音初創公司 Sonantic,后者是一個動態的人工智能語音平臺,通過 AI 技術可將文本轉換為逼真的聲音。Spotify 表示,高質量的語音對增加 Spotify 的收聽市場份額非常重要。
03 AI 會殺死人工配音嗎?
在 UP 主和短視頻創作者熱烈歡迎 AI 配音技術的同時,也有一些群體對于這門技術充滿擔憂,其中就包括被 AI 配音直接沖擊的人工配音行業。
相對于人工配音,Ai 配音最大的優勢就是成本低廉。
淘寶上面人工配音商家的價格標準大約是 30-60 元 /100 字;京東上面的配音商家的價格標準大約是 40-80 元 /100 字。而魔音工坊等配音軟件沒有字數要求,按照時長來付費,每天不到 2 元錢。
其次,AI 配音相比人工配音在效率和準確度上也有很大的優勢。傳統人工配音耗時費力、專業設備要求高、在配音的過程中也容易出現準確度不夠等問題。但 AI 人工智能技術產量更高,而且可以做到 100% 準確。
AI 配音還有一點是傳統配音所無法企及的,那就是它可以依靠人聲合成技術復原逝者的聲音,或者讓很多先天語言障礙的聾啞人通過技術的合成擁有自己的聲音。中央電視臺在 2018 年播出了紀錄片《創新中國》是世界上第一部利用人工智能模擬人聲的紀錄片,就是利用已故知名播音員李易。
英國演員工會對 430 個會員進行了一項調查,發現 93% 的配音演員都覺得人工智能對自己的工作機會產生威脅。比如 2021 年 7 月份知名游戲《巫師 3:狂獵》發生了一次 ai 配音風波,有游戲 Mod 開發者發布了自己制作的全新《巫師 3》 額外任務包并且利用 ai 進行配音,在聲優們中引發軒然大波。配音演員 Natalie Winter 表示," 如果 AI 的聲音變得足夠好,可以被廣泛使用,那么(真人聲優的)機會只會進一步減少。"
不過類似于魔音工坊這樣的 AI 語音短期內真的能大殺四方嗎?
也未必。
有人認為,目前 ai 配音取代人工配音還為時尚早,畢竟人工在配音感情更為充沛,而且相對于機器更具有主觀能動性,語氣輕重急緩,風格變化多樣。
而且魔音工坊這類配音工具來說,未來發展本身面臨天花板。
" 這個行業最大的問題就是行業比較小眾,在短視頻爆發之前,配音在國內是一個非常小眾的行業。普通用戶了解最多的就是影視配音。" 有行業人士認為,配音依然是一個非常細分的需求,因此難免陷入工具化的困局。
他舉例認為,魔音工坊這樣的短視頻配音平臺,未來處境可能和天眼查這種個人與企業信息查詢工具所面臨的處境一樣," 解決的問題非常窄,市場不夠大,未來能夠存活的玩家其實很有限。"
原文地址:http://www.myzaker.com/article/62da12268e9f0929377e1060