當前位置：華文頭條 > 推薦

三只羊「財色錄音」是假的，但背後技術是真的恐怖

2024-09-29推薦

要說這段時間哪家公司風頭正盛，那非三只羊莫屬，隔三差五就要上一回新聞，還是法制欄目的那種。

這不前幾天，月餅門的事件還沒過去，又來了個錄音門。

事情是這樣的， 9 月 20 號的時候網上突然流傳出了一段，疑似三只羊高管盧某的錄音。

錄音裏涉及到了多位三只羊的女主播，具體內容咱在這就不多做討論了， 但確實很炸裂。。。

錄音爆出來後，就在網上迅速引起了一波熱度。有人說這段錄音純純是男的喝多了吹的牛逼，但討論的風向很快又變成了這玩意兒，到底是不是 AI 生成的，甚至還釣出來不少所謂的 AI 行家，開始一頓分析。

結果沒兩天，警方的通報就出來了： 都散散吧，是 AI 幹的。

而這次事件的另外一位主角， Reecho 睿聲公司也終於浮出了水面，錘了自己的使用者一把。

有意思的是，即使是官方都出面了，但還是有網友覺得盧某是「酒後吐真言」，通報也不過是把鍋，甩給了沒法兒自證的 AI 。

但不管咋說，人官方調查通報都出來了，你信也好不信也罷，這事兒就這麽定調了。

不過以差評君對 AI 語音的了解，像三只羊錄音門這種情況，的確是有可能的。主要是 現階段的 AI 語音技術，確實已經挺成熟的了。

因為我們只需要上傳一兩句話，剩下的直接甩給 AI 就行，分分鐘就能複制一個人的音色。

這麽說吧，現在 AI 語音合成裏比較常見、開源計畫也比較多的，就數 TTS 、 SVC&RVC 兩大類技術。

所謂 TTS ，簡單來說就是 Text To Speech ，把文本轉化成語音 。像很多 AI 數位人、有聲書、視訊配音，大夥兒刷抖音經常聽到的「註意看，這個男人叫小帥」，還有剪映素材柯瑞那些 TVB 女聲、廣西表哥。。。基本都是 TTS 幹的。

像這次三只羊錄音門牽扯到的 Reecho 睿聲，也是一個 TTS 模型的生成網站。咱們其實也在他們網站上，複制過差評君的聲優蛋蛋的聲音，大夥兒可以聽聽看到底像不像。

上來先用【義大利直麵拌 42 號混凝土】的「名篇節選」整一波，你別說，你還真別說。音色的復刻程度能有個 80%-90% ，而且說話的語氣也賊像，不仔細聽還以為在做什麽正經科普。

我們本來還想借著 AI 差評君給大夥兒送一波福利，但沒想到這個 AI 小小翻車了一下， 10 台 iPhone 16 說成了「一零台 iPhone sixteen」。。。穿幫的實在是太明顯了，這福利想送都送不出去呀，可惜可惜。

借 AI 的口，你甚至還能聽到差評君管廣大差友們借錢。就連國慶日自願加班 7 天，還不要加班費這種話，從這位「AI 差評君」的嘴裏說出來，你也能聽出心甘情願的味道。

除此之外，人家那個聲音市場裏還可以自己選訓練好的聲音 AI ，不僅有我們的好朋友影視颶風 Tim ，甚至還有主播電棍，坤哥和派蒙，就連五星評論家麥克亞瑟也能拿來用。

有一說一，這種程度的複制已經相當逼真了，所以現在回頭看三只羊錄音門，好像 AI 參與的可信度又高了一點。而有些朋友可能還覺得，那這個 AI 怎麽就能把那種醉意、含糊不清的話都模擬出來呢？

這就得說到 SVC&RVC 了。這裏面 SVC （ Singing Voice Conversion ）是用來唱歌的，而 RVC （
Retrieval-based-Voice-Conversion ）的場景多用在直播，這倆都是即時 把語音轉換成 AI 訓練的音色 ，俗稱變聲器。

由於輸入的是音訊，所以它就能把一個人的聲音轉化的更真實，甚至連語氣、聲調這些東西都可以轉化得很自然。如果是歌聲轉換，甚至還能模仿音色和唱腔。

像 GitHub 上有個叫 So-Vits-SVC 的開源計畫， 就一手打造了AI 孫燕姿、唱【淚橋】比原唱伍佰還好聽的陶喆。

類似的開源計畫還有很多，而且都很好上手。舉個例子， b 站的大佬「花兒不哭」今年就上線了一個開源模型 GPT-SoVITs ，下載好直接拿語音餵就行了。

你要懶的自己訓練，那還可以在魔搭社群用「xz 喬希」的計畫直接開玩；甚至剪映和必剪這些剪輯軟體裏都已經用上了自家的 AI 語音，除了那些行銷號語音你也可以生成自己的。

乃至於隨便找個工具集合網站一搜，多得是可以直接上手用的產品。

我們之前用「花兒不哭」開源的 RVC 即時變聲演算法，也做過一個差評君變聲器。

甚至還專門做了一個非常差評的初始界面。

至於效果大夥兒自個兒品吧，我打包票，這絕對不是隔壁差評君的聲優蛋蛋錄的。

而且當時我們還專門給變聲器做了個硬體外掛，現在還擱辦公室裏呢。

人在這邊對著麥說話，音響那邊即時就能把聲音變成蛋蛋的。

看起來挺牛逼是吧，不過這玩意也不是突然就這麽先進了。

主要語音生成這一塊確實低調 ，你就說這幾年這些 AI 的宣傳，一個個都好像是奔著炸裂全宇宙去的。三天兩頭畫大餅，誰還惦記語音生成是怎麽個情況。

關註的人少，再加上技術積累也多，那可不就是悶聲發大財嘛。只不過現在突然出圈了，大家才感覺到驚奇。

說到底還是 AI 時代這些東西的門檻都降低了，你想 cos 哪個人的聲線都相當方便。

不過實話，技術進步是一回事兒，但就事論事地說， 用這玩意兒來違法犯罪的案例，並不在少數。

也不是咱制造啥恐慌，新華網去年九月就報道過了相關的詐騙手段，你想想家裏年紀大的老人，要是接到跟你說話聲音一模一樣的詐騙電話，說你遇到了危險，會不會把棺材本都給騙子騙走？

不止國內，這事在國外照樣有，就連美國知名密碼管理工具公司 LastPass 的 CEO ，都被偽造聲音拿去詐騙了。

盡管現在已經有不少機構在琢磨怎麽處理安全問題，探索怎麽辨識偽造語音等證據，比如有研究表明，目前可以透過演算法聲紋認證和語音取證等辦法，對 AI 合成語音進行鑒別。

但這些更多還是在找 AI 語音上的 bug 來鑒定的，就好像數手指和穿模來鑒定 AI 圖片一樣，只要模型一升級，這些辦法可能就也沒轍了。

不過差評君覺得，要從根本上解決問題，就還得從生成式模型本身出發。

給 AI 生成的圖片、音視訊也打上類似浮水印的標記，同時裝置和軟體也能夠檢索到這些標簽，提醒大家這些內容並非真實。

像是谷歌就已經開始研究在 AI 生成的音訊聲譜上，添加能被視覺化的特定標記，這樣既不會影響使用者聽感也方便辨識。

總的來說，在生成式 AI 的影響下，以後眼見不一定為實，耳聽也可能為虛。歸根結底技術在發展的同時，防範技術濫用的對策也必須做好。

別光想著說「技術無罪」，上個這麽喊的人已經蹲了好多年，現在都出來了。

不過對三只羊來說，雖然始作俑者已經被抓，但這人靠 AI 推在他們身上這把勁，估計影響還會持續挺久，至於後續怎麽發展，我們還是再等等看吧。

Copyright © 2024 www.digfamily.com NO.1 華文頭條

商務合作：xingwa#jasve.com（傳送郵件請將#換成@）