當前位置: 華文頭條 > 推薦

三只羊「財色錄音」是假的,但背後技術是真的恐怖

2024-09-29推薦

要說這段時間哪家公司風頭正盛,那非三只羊莫屬,隔三差五就要上一回新聞,還是法制欄目的那種。

這不前幾天,月餅門的事件還沒過去,又來了個錄音門。

事情是這樣的, 9 月 20 號的時候網上突然流傳出了一段,疑似三只羊高管盧某的錄音。

錄音裏涉及到了多位三只羊的女主播,具體內容咱在這就不多做討論了, 但確實很炸裂。。。

錄音爆出來後,就在網上迅速引起了一波熱度。有人說這段錄音純純是男的喝多了吹的牛逼,但討論的風向很快又變成了這玩意兒,到底是不是 AI 生成的,甚至還釣出來不少所謂的 AI 行家,開始一頓分析。

結果沒兩天,警方的通報就出來了: 都散散吧,是 AI 幹的。

而這次事件的另外一位主角, Reecho 睿聲公司也終於浮出了水面,錘了自己的使用者一把。

有意思的是,即使是官方都出面了,但還是有網友覺得盧某是 「 酒後吐真言 」 ,通報也不過是把鍋,甩給了沒法兒自證的 AI 。

但不管咋說,人官方調查通報都出來了,你信也好不信也罷,這事兒就這麽定調了。

不過以差評君對 AI 語音的了解,像三只羊錄音門這種情況,的確是有可能的。主要是 現階段的 AI 語音技術,確實已經挺成熟的了。

因為我們只需要上傳一兩句話,剩下的直接甩給 AI 就行,分分鐘就能複制一個人的音色。

這麽說吧,現在 AI 語音合成裏比較常見、開源計畫也比較多的,就數 TTS 、 SVC&RVC 兩大類技術。

所謂 TTS ,簡單來說就是 Text To Speech ,把文本轉化成語音 。像很多 AI 數位人、有聲書、視訊配音,大夥兒刷抖音經常聽到的 「 註意看,這個男人叫小帥 」 ,還有剪映素材柯瑞那些 TVB 女聲、廣西表哥。。。基本都是 TTS 幹的。

像這次三只羊錄音門牽扯到的 Reecho 睿聲,也是一個 TTS 模型的生成網站。咱們其實也在他們網站上,複制過差評君的聲優蛋蛋的聲音,大夥兒可以聽聽看到底像不像。

上來先用【 義大利直麵拌 42 號混凝土 】的 「 名篇節選 」 整一波,你別說,你還真別說。音色的復刻程度能有個 80%-90% ,而且說話的語氣也賊像,不仔細聽還以為在做什麽正經科普。

我們本來還想借著 AI 差評君給大夥兒送一波福利,但沒想到這個 AI 小小翻車了一下, 10 台 iPhone 16 說成了 「 一零台 iPhone sixteen」 。。。穿幫的實在是太明顯了,這福利想送都送不出去呀,可惜可惜。

借 AI 的口,你甚至還能聽到差評君管廣大差友們借錢。就連國慶日自願加班 7 天,還不要加班費這種話,從這位 「AI 差評君 」 的嘴裏說出來,你也能聽出心甘情願的味道。

除此之外,人家那個聲音市場裏還可以自己選訓練好的聲音 AI ,不僅有我們的好朋友影視颶風 Tim ,甚至還有主播電棍,坤哥和派蒙,就連五星評論家麥克亞瑟也能拿來用。

有一說一,這種程度的複制已經相當逼真了,所以現在回頭看三只羊錄音門,好像 AI 參與的可信度又高了一點。而有些朋友可能還覺得,那這個 AI 怎麽就能把那種醉意、含糊不清的話都模擬出來呢?

這就得說到 SVC&RVC 了。這裏面 SVC ( Singing Voice Conversion )是用來唱歌的,而 RVC (
Retrieval-based-Voice-Conversion )的場景多用在直播,這倆都是即時 把語音轉換成 AI 訓練的音色 ,俗稱變聲器。

由於輸入的是音訊,所以它就能把一個人的聲音轉化的更真實,甚至連語氣、聲調這些東西都可以轉化得很自然。如果是歌聲轉換,甚至還能模仿音色和唱腔。

像 GitHub 上有個叫 So-Vits-SVC 的開源計畫, 就一手打造了AI 孫燕姿、唱【 淚橋 】比原唱伍佰還好聽的陶喆。

類似的開源計畫還有很多,而且都很好上手。舉個例子, b 站的大佬 「 花兒不哭 」 今年就上線了一個開源模型 GPT-SoVITs ,下載好直接拿語音餵就行了。

你要懶的自己訓練,那還可以在魔搭社群用 「xz 喬希 」 的計畫直接開玩;甚至剪映和必剪這些剪輯軟體裏都已經用上了自家的 AI 語音,除了那些行銷號語音你也可以生成自己的。

乃至於隨便找個工具集合網站一搜,多得是可以直接上手用的產品。

我們之前用 「 花兒不哭 」 開源的 RVC 即時變聲演算法,也做過一個差評君變聲器。

甚至還專門做了一個非常差評的初始界面。

至於效果大夥兒自個兒品吧,我打包票,這絕對不是隔壁差評君的聲優蛋蛋錄的。

而且當時我們還專門給變聲器做了個硬體外掛,現在還擱辦公室裏呢。

人在這邊對著麥說話,音響那邊即時就能把聲音變成蛋蛋的。

看起來挺牛逼是吧,不過這玩意也不是突然就這麽先進了。

主要語音生成這一塊確實低調 ,你就說這幾年這些 AI 的宣傳,一個個都好像是奔著炸裂全宇宙去的。三天兩頭畫大餅,誰還惦記語音生成是怎麽個情況。

關註的人少,再加上技術積累也多,那可不就是悶聲發大財嘛。只不過現在突然出圈了,大家才感覺到驚奇。

說到底還是 AI 時代這些東西的門檻都降低了,你想 cos 哪個人的聲線都相當方便。

不過實話,技術進步是一回事兒,但就事論事地說, 用這玩意兒來違法犯罪的案例,並不在少數。

也不是咱制造啥恐慌,新華網去年九月就報道過了相關的詐騙手段,你想想家裏年紀大的老人,要是接到跟你說話聲音一模一樣的詐騙電話,說你遇到了危險,會不會把棺材本都給騙子騙走?

不止國內,這事在國外照樣有,就連美國知名密碼管理工具公司 LastPass 的 CEO ,都被偽造聲音拿去詐騙了。

盡管現在已經有不少機構在琢磨怎麽處理安全問題,探索怎麽辨識偽造語音等證據,比如有研究表明,目前可以透過演算法聲紋認證和語音取證等辦法,對 AI 合成語音進行鑒別。

但這些更多還是在找 AI 語音上的 bug 來鑒定的,就好像數手指和穿模來鑒定 AI 圖片一樣,只要模型一升級,這些辦法可能就也沒轍了。

不過差評君覺得,要從根本上解決問題,就還得從生成式模型本身出發。

給 AI 生成的圖片、音視訊也打上類似浮水印的標記,同時裝置和軟體也能夠檢索到這些標簽,提醒大家這些內容並非真實。

像是谷歌就已經開始研究在 AI 生成的音訊聲譜上,添加能被視覺化的特定標記,這樣既不會影響使用者聽感也方便辨識。

總的來說,在生成式 AI 的影響下,以後眼見不一定為實,耳聽也可能為虛。歸根結底技術在發展的同時,防範技術濫用的對策也必須做好。

別光想著說 「 技術無罪 」 ,上個這麽喊的人已經蹲了好多年,現在都出來了。

不過對三只羊來說,雖然始作俑者已經被抓,但這人靠 AI 推在他們身上這把勁,估計影響還會持續挺久,至於後續怎麽發展,我們還是再等等看吧。