OpenAI 發表 Voice Engine：15 秒語音 AI 生成不同內容，甚至還能口譯翻譯

AI 科技 2年前 (2024) 蘋果哥

6 0 0

OpenAI 近期推出了一項創新的 AI 語音合成技術 Voice Engine。這項技術能夠透過一段 15 秒的聲音樣，創造出接近真人的自然語音並且唸出其他的文字，或是用不同的聲音重新詮釋同一段內容。這意味著，只需一小段語音，Voice Engine 就能生成完全不同且逼真的聲音。

OpenAI 還展示了幾種不同的應用方式，這裡帶大家快速來了解一下。

01. 用 Voice Engine 重新詮釋另外的內容

OpenAI 展示的第一個範例，就是讓一位使用者先唸出一段文字，然後再讓 Voice Engine 利用這個聲音去生成不同的語音內容。

這是使用者親自唸出來的原始聲音內容：

https://cdn.openai.com/previewing-voice-engine/age-of-learning-reference.mp3

下面這是利用這位使用者的聲音搭配 Voice Engine 所生成出來、不同內容的聲音。

生物學內容：

https://cdn.openai.com/previewing-voice-engine/age-of-learning-rainforest.mp3

化學內容：

https://cdn.openai.com/previewing-voice-engine/age-of-learning-chemistry.mp3

數學內容：

https://cdn.openai.com/previewing-voice-engine/age-of-learning-math.mp3

簡單來說就是 Voice Engine 可以用你的聲音去生成其他的語音內容，即便你沒有講過這些話，還是很像你親自講的一樣。

02. 利用 Voice Engine 生成多國語音

也可以讓使用者用英文唸出一段話，然後透過 Voice Engine 用相同的口音唸出不同語言的內容，簡單說就是讓 Voice Engine 當成一位口譯人員。

原始唸出的英文內容：

https://cdn.openai.com/previewing-voice-engine/heygen-reference.mp3

翻譯成普通話（中文）：

https://cdn.openai.com/previewing-voice-engine/heygen-mandarin.mp3

翻譯成西班牙語：

https://cdn.openai.com/previewing-voice-engine/heygen-spanish.mp3

翻譯成德語：

https://cdn.openai.com/previewing-voice-engine/heygen-german.mp3

翻譯成日語：

https://cdn.openai.com/previewing-voice-engine/heygen-japanese.mp3

你可以聽到上面都是同一個人的聲音唸出來的，但是這個人其實只唸了第一版的英文，後面的中文、西班牙語、德語、法語…等，都是 OpenAI 透過 Voice Engine 所產生的。

03. 替語音輔助工具患者產生聲音

Voice Engine 不僅可以辨識一般人說話的口音，就連透過輔助工具來說話（例如說話的聲音會聽起來很機械感）的聲音也可以辨識並且用這個聲音去生成其他內容。

這與上面介紹的第一點有點相同，但是更強調 Voice Engine 不僅在自然口音、自然聲音上可以辨識，利用輔助器具產生的聲音也可以辨識，所以包含發聲需要機械輔助的患者來說也可以使用。

下面這是原始參考的聲音：

https://cdn.openai.com/previewing-voice-engine/livox-reference.mp3

這是透過上面的聲音生成的另一段英文內容：

https://cdn.openai.com/previewing-voice-engine/livox-english.mp3

這是生成的另一段葡萄牙文的內容：

https://cdn.openai.com/previewing-voice-engine/livox-portuguese.mp3

04. 幫助語言障礙者重建聲音

這部分一樣是針對語言障礙患者，如果使用者說話不是那麼流利、口齒清晰度不那麼完整，Voice Engine 依然可以辨識你所說的話，然後透過另外一個人的聲音，幫語言障礙患者重建原本想要表達的內容。

下面這是語言障礙患者所唸出來的內容：

https://cdn.openai.com/previewing-voice-engine/lifespan-current.mp3

這是之後要使用的聲音：

https://cdn.openai.com/previewing-voice-engine/lifespan-reference.mp3

這是重建後的聲音，等於是患者原本唸的內容，但是由另外一個聲音唸出來：

https://cdn.openai.com/previewing-voice-engine/lifespan-talking.mp3

如何不被濫用將會是 OpenAI 下一步要面對的考驗

聽完 Voice Engine 的結果後覺得確實厲害，這樣以後可能就不需要口譯了，你也不用學習英文、德文、日文，你直接說一段話 AI 就能夠馬上幫你翻譯成各國語言。

當一個會議上有各個國家的人出席，就算你不會英文也沒關係，反正 AI 可以幫你翻譯。

但是當技術到位了以後，OpenAI 也表示下一步必須確保 Voice Engine 這項技術或是生成的內容不會被濫用，那要怎麼做呢？

以目前來說，所有測試 Voine Engine 的合作夥伴都同意遵守使用政策，禁止未經同意或法律許可的冒用行為，合作伙伴還必須向聽眾明確表示他們聽到的聲音是人工智慧產生的。

此外，OpenAI 也會實施一系列安全措施，包括加上聲音的浮水印並主動監控使用情況，以確保 Voice Engine 這項技術是被安全地使用。

OpenAI 也沒有提到這項技術什麼時候會開放或是推廣出來，目前應該只是做一個成果的展示。

AI 語音 OpenAI Voice Engine

版權聲明：蘋果哥發表於 2024 年 4 月 1 日 00:00。
轉載請注明：OpenAI 發表 Voice Engine：15 秒語音 AI 生成不同內容，甚至還能口譯翻譯 | 蘋果哥

用 GPT-4 寫程式超快！開發者示範用 GPT-4 直接產生一個電影推薦 App

蘋果哥

11 0

超多指令的 ChatGPT 外掛 AIPRM 怎麼用？這裡完整教你

蘋果哥

11 0

反擊！ Google 版 Bard 亮相後，有一個功能「碾壓」了ChatGPT

蘋果哥

13 0

ChatGPT 官方 App 推出！實際帶你看 5 項重點整理

蘋果哥

15 0

ChatGPT App 是哪個？可以免費下載嗎？這裡告訴你

蘋果哥

7 0

用捷徑把 Siri 和 ChatGPT 結合，讓 iPhone 語音助理變得更高級

蘋果哥

19 0

OpenAI 發表 Voice Engine：15 秒語音 AI 生成不同內容，甚至還能口譯翻譯

01. 用 Voice Engine 重新詮釋另外的內容

02. 利用 Voice Engine 生成多國語音

03. 替語音輔助工具患者產生聲音

04. 幫助語言障礙者重建聲音

如何不被濫用將會是 OpenAI 下一步要面對的考驗

2024 清明連假去哪玩？清明連假活動、兒童節活動一次看

黑貓宅急便清明連假 2024：宅配包裹服務、最後收件日等服務公告

相關文章