嚇死人的 AI 合成技術：女神下海、總統踹門通通成為可能

新聞 9年前 (2017) 蘋果哥

20 0 0

以後連高畫質的影片證據都不可信了啊…

嚇死人的 AI 合成技術：女神下海、總統踹門通通成為可能最近，一段以「神奇女俠」扮演者蓋爾·加朵為「主角」的色情短片在網路上開始流傳。

女神下海是所有宅男的夢想，大多數人只能心裡想想，但有的技術宅卻靠自己的雙手解決了這個問題。最近，一段以「神力女超人」扮演者蓋爾·加朵為「主角」的色情短片在網路上開始流傳，仔細看就會發現，蓋爾·加朵的臉只是被「換」到了別人身上，影片的主角並不是女神本人。

這段影片出自國外Reddit 論壇，作者是一位叫 deepfakes 的網友，除了「神奇女俠」蓋爾·加朵，他的作品還有很多，艾瑪·沃特森（赫敏）、麥茜·威廉姆斯（二丫）、斯嘉麗·約翰遜（黑寡婦）均在其中，這些影片都是用AI 技術輔助合成的。

嚇死人的 AI 合成技術：女神下海、總統踹門通通成為可能

這不是尖端技術，用 Open Source 的項目就可以實現

沒有人可以百分百模仿別人的臉，即使是日本成人電影中的波多野結衣、東尼大木，也只是某個角度和明星相似，再加上網友的惡搞，才在網上流行起來。這次「移花接木」的蓋爾·加朵影片不是模仿秀，也不是複雜的CG 技術，只是靠現有的AI Open Source 項目，用機器學習進行大量訓練，然後合成了色情短片。

deepfakes 不是專業的研究人員，只是對機器學習感興趣，他所用的技術全部基於 TensorFlow、Keras 等開源軟體。deepfakes 用Google 圖片搜索、公開的圖庫和 YouTube 影片蒐集了大量圖像，然後用這些素材訓練深度學習網路。經過反覆的訓練，系統就可以識別出蓋爾·加朵的正確圖像，算法會自動將其他圖像變得和訓練對象更相似。

嚇死人的 AI 合成技術：女神下海、總統踹門通通成為可能

deepfakes在Reddit中提到，他使用的算法和前段時間英偉達用來改變天氣的技術類似。英偉達使用的是生成式對抗網路（GAN），這種模型擅長處理視覺數據，所生成的圖像更銳利、清晰。英偉達用這個技術可以將晴天的影片轉換成雨天，以此來欺騙視覺。

有AI 行業的研究人員表示，這已經不再是尖端技術，用消費級顯卡處理這種效果只需要幾個小時。

如何讓女神的細節更完美？

仔細看這段影片，會發現蓋爾·加朵的臉並不是和身體完美貼合，偶爾還是會有錯位、失真的現象，有時候聲音和口型也對不上。考慮到只是一個工程師的個人作品，能達到這樣的程度已經很讓人震撼。

機器學習需要大量素材來訓練，即使是選擇名人作為訓練對象，在面部表情上也無法做到盡善盡美，Face2Face 可以解決這些細節問題。利用臉部追踪技術，可以將真人的面部細節複製到已有的影片中，利用它可以製造大量具有表情細節的影片素材。

嚇死人的 AI 合成技術：女神下海、總統踹門通通成為可能

（點擊查看影片）

如果我們再多一點「野心」，口型對應的問題可以解決嗎？答案是肯定的。

華盛頓大學的研究人員開發出一種新的算法，可以將人說話的聲音轉化為對應嘴型，然後將其移植到一個現有的影片素材中，生成一段全新的影片，影片中人說話時嘴唇的動作幾乎和聲音完美對應。

研究人員使用的素材是歐巴馬，因為深度學習的算法需要有大量數據做支撐，而他的影片在網上有較多的素材，機器學習會更容易。據研究人員透露，整個學習過程需要用 17 個小時的影片作為訓練素材。從技術上講，完全可以把任何人的聲音安插到其他人的臉上。

嚇死人的 AI 合成技術：女神下海、總統踹門通通成為可能
影片中左邊是原版的影片。右邊是經過算法合成的新影片，用的還是左邊影片中的聲音，但圖像是全新生成的。

（點擊查看影片）

口型的問題解決了，這樣我們會得到一個由蓋爾·加朵的臉、色情女星的身體和聲音組成的影片，並且口型和聲音能夠同步。當然，熟悉蓋爾·加朵的人肯定會察覺到異樣，畢竟聲音和人不對應。

既然圖像可以創造，那麼聲音呢？

在2016 年Adobe Max 大會上，開發人員展示了一款代號為Project VoCo 的軟體。它和之前的聲音編輯軟體不同，你可以在一段聲音裡直接插入和改動某幾個單詞。理論上只要有約20 分鐘的錄音，Project VoCo 就可以理解一個人聲音的構成並進行複制。也就是說利用它可以生成一段你從未說過，但確實是你聲音的話。

嚇死人的 AI 合成技術：女神下海、總統踹門通通成為可能

像Photoshop一樣編輯聲音的技術並不是空想，一個叫 Descript 的聲音編輯軟體已經正式推出。將聲音轉化為文字後，你可以通過編輯文本來對聲音進行剪切、複製、粘貼、刪除和插入等操作。當然，可編輯的聲音數量要基於素材的豐富度。

嚇死人的 AI 合成技術：女神下海、總統踹門通通成為可能

Descript 和Project VoCo 一樣，能基於已有聲音素材進行編輯，要重新創造一段話還是很難。想要在色情片中聽到完美的聲音還原，還要考慮語氣、情緒等因素影響，不然做出的影片只能是鬼畜效果。

用Face2Face 製造有面部表情的影片素材，用聲音編輯軟體生成聲音素材，然後用deepfakes 的機器學習系統換臉，並用華盛頓大學研究人員的技術讓聲音和口型對應。這樣，聲音、圖像、表情、口型問題都解決了。