OpenAI 發表 Voice Engine:15 秒語音 AI 生成不同內容,甚至還能口譯翻譯

OpenAI 發表 Voice Engine:15 秒語音 AI 生成不同內容,甚至還能口譯翻譯

OpenAI 發表 Voice Engine:15 秒語音 AI 生成不同內容,甚至還能口譯翻譯

OpenAI 近期推出了一項創新的 AI 語音合成技術 Voice Engine。這項技術能夠透過一段 15 秒的聲音樣,創造出接近真人的自然語音並且唸出其他的文字,或是用不同的聲音重新詮釋同一段內容。這意味著,只需一小段語音,Voice Engine 就能生成完全不同且逼真的聲音。

OpenAI 還展示了幾種不同的應用方式,這裡帶大家快速來了解一下。

01. 用 Voice Engine 重新詮釋另外的內容

OpenAI 展示的第一個範例,就是讓一位使用者先唸出一段文字,然後再讓 Voice Engine 利用這個聲音去生成不同的語音內容。

這是使用者親自唸出來的原始聲音內容:


https://cdn.openai.com/previewing-voice-engine/age-of-learning-reference.mp3

下面這是利用這位使用者的聲音搭配 Voice Engine 所生成出來、不同內容的聲音。

生物學內容:

https://cdn.openai.com/previewing-voice-engine/age-of-learning-rainforest.mp3

化學內容:

https://cdn.openai.com/previewing-voice-engine/age-of-learning-chemistry.mp3

數學內容:

https://cdn.openai.com/previewing-voice-engine/age-of-learning-math.mp3

簡單來說就是 Voice Engine 可以用你的聲音去生成其他的語音內容,即便你沒有講過這些話,還是很像你親自講的一樣。

02. 利用 Voice Engine 生成多國語音

也可以讓使用者用英文唸出一段話,然後透過 Voice Engine 用相同的口音唸出不同語言的內容,簡單說就是讓 Voice Engine 當成一位口譯人員。

原始唸出的英文內容:

https://cdn.openai.com/previewing-voice-engine/heygen-reference.mp3

翻譯成普通話(中文):

https://cdn.openai.com/previewing-voice-engine/heygen-mandarin.mp3

翻譯成西班牙語:

https://cdn.openai.com/previewing-voice-engine/heygen-spanish.mp3

翻譯成德語:

https://cdn.openai.com/previewing-voice-engine/heygen-german.mp3

翻譯成日語:

https://cdn.openai.com/previewing-voice-engine/heygen-japanese.mp3

你可以聽到上面都是同一個人的聲音唸出來的,但是這個人其實只唸了第一版的英文,後面的中文、西班牙語、德語、法語…等,都是 OpenAI 透過 Voice Engine 所產生的。

03. 替語音輔助工具患者產生聲音

Voice Engine 不僅可以辨識一般人說話的口音,就連透過輔助工具來說話(例如說話的聲音會聽起來很機械感)的聲音也可以辨識並且用這個聲音去生成其他內容。

這與上面介紹的第一點有點相同,但是更強調 Voice Engine 不僅在自然口音、自然聲音上可以辨識,利用輔助器具產生的聲音也可以辨識,所以包含發聲需要機械輔助的患者來說也可以使用。

下面這是原始參考的聲音:

https://cdn.openai.com/previewing-voice-engine/livox-reference.mp3

這是透過上面的聲音生成的另一段英文內容:

https://cdn.openai.com/previewing-voice-engine/livox-english.mp3

這是生成的另一段葡萄牙文的內容:

https://cdn.openai.com/previewing-voice-engine/livox-portuguese.mp3

04. 幫助語言障礙者重建聲音

這部分一樣是針對語言障礙患者,如果使用者說話不是那麼流利、口齒清晰度不那麼完整,Voice Engine 依然可以辨識你所說的話,然後透過另外一個人的聲音,幫語言障礙患者重建原本想要表達的內容。

下面這是語言障礙患者所唸出來的內容:

https://cdn.openai.com/previewing-voice-engine/lifespan-current.mp3

這是之後要使用的聲音:

https://cdn.openai.com/previewing-voice-engine/lifespan-reference.mp3

這是重建後的聲音,等於是患者原本唸的內容,但是由另外一個聲音唸出來:

https://cdn.openai.com/previewing-voice-engine/lifespan-talking.mp3

如何不被濫用將會是 OpenAI 下一步要面對的考驗

聽完 Voice Engine 的結果後覺得確實厲害,這樣以後可能就不需要口譯了,你也不用學習英文、德文、日文,你直接說一段話 AI 就能夠馬上幫你翻譯成各國語言。

當一個會議上有各個國家的人出席,就算你不會英文也沒關係,反正 AI 可以幫你翻譯。

但是當技術到位了以後,OpenAI 也表示下一步必須確保 Voice Engine 這項技術或是生成的內容不會被濫用,那要怎麼做呢?

以目前來說,所有測試 Voine Engine 的合作夥伴都同意遵守使用政策,禁止未經同意或法律許可的冒 用行為,合作伙伴還必須向聽眾明確表示他們聽到的聲音是人工智慧產生的。

此外,OpenAI 也會實施一系列安全措施,包括加上聲音的浮水印並主動監控使用情況,以確保 Voice Engine 這項技術是被安全地使用。

OpenAI 也沒有提到這項技術什麼時候會開放或是推廣出來,目前應該只是做一個成果的展示。

版權聲明:蘋果哥 發表於 2024 年 4 月 1 日 00:00。
轉載請注明:OpenAI 發表 Voice Engine:15 秒語音 AI 生成不同內容,甚至還能口譯翻譯 | 蘋果哥

相關文章