OpenAI 近期推出了一項創新的 AI 語音合成技術 Voice Engine。這項技術能夠透過一段 15 秒的聲音樣,創造出接近真人的自然語音並且唸出其他的文字,或是用不同的聲音重新詮釋同一段內容。這意味著,只需一小段語音,Voice Engine 就能生成完全不同且逼真的聲音。
OpenAI 還展示了幾種不同的應用方式,這裡帶大家快速來了解一下。
01. 用 Voice Engine 重新詮釋另外的內容
OpenAI 展示的第一個範例,就是讓一位使用者先唸出一段文字,然後再讓 Voice Engine 利用這個聲音去生成不同的語音內容。
這是使用者親自唸出來的原始聲音內容:
https://cdn.openai.com/previewing-voice-engine/age-of-learning-reference.mp3
下面這是利用這位使用者的聲音搭配 Voice Engine 所生成出來、不同內容的聲音。
生物學內容:
https://cdn.openai.com/previewing-voice-engine/age-of-learning-rainforest.mp3
化學內容:
https://cdn.openai.com/previewing-voice-engine/age-of-learning-chemistry.mp3
數學內容:
https://cdn.openai.com/previewing-voice-engine/age-of-learning-math.mp3
簡單來說就是 Voice Engine 可以用你的聲音去生成其他的語音內容,即便你沒有講過這些話,還是很像你親自講的一樣。
02. 利用 Voice Engine 生成多國語音
也可以讓使用者用英文唸出一段話,然後透過 Voice Engine 用相同的口音唸出不同語言的內容,簡單說就是讓 Voice Engine 當成一位口譯人員。
原始唸出的英文內容:
https://cdn.openai.com/previewing-voice-engine/heygen-reference.mp3
翻譯成普通話(中文):
https://cdn.openai.com/previewing-voice-engine/heygen-mandarin.mp3
翻譯成西班牙語:
https://cdn.openai.com/previewing-voice-engine/heygen-spanish.mp3
翻譯成德語:
https://cdn.openai.com/previewing-voice-engine/heygen-german.mp3
翻譯成日語:
https://cdn.openai.com/previewing-voice-engine/heygen-japanese.mp3
你可以聽到上面都是同一個人的聲音唸出來的,但是這個人其實只唸了第一版的英文,後面的中文、西班牙語、德語、法語…等,都是 OpenAI 透過 Voice Engine 所產生的。
03. 替語音輔助工具患者產生聲音
Voice Engine 不僅可以辨識一般人說話的口音,就連透過輔助工具來說話(例如說話的聲音會聽起來很機械感)的聲音也可以辨識並且用這個聲音去生成其他內容。
這與上面介紹的第一點有點相同,但是更強調 Voice Engine 不僅在自然口音、自然聲音上可以辨識,利用輔助器具產生的聲音也可以辨識,所以包含發聲需要機械輔助的患者來說也可以使用。
下面這是原始參考的聲音:
https://cdn.openai.com/previewing-voice-engine/livox-reference.mp3
這是透過上面的聲音生成的另一段英文內容:
https://cdn.openai.com/previewing-voice-engine/livox-english.mp3
這是生成的另一段葡萄牙文的內容:
https://cdn.openai.com/previewing-voice-engine/livox-portuguese.mp3
04. 幫助語言障礙者重建聲音
這部分一樣是針對語言障礙患者,如果使用者說話不是那麼流利、口齒清晰度不那麼完整,Voice Engine 依然可以辨識你所說的話,然後透過另外一個人的聲音,幫語言障礙患者重建原本想要表達的內容。
下面這是語言障礙患者所唸出來的內容:
https://cdn.openai.com/previewing-voice-engine/lifespan-current.mp3
這是之後要使用的聲音:
https://cdn.openai.com/previewing-voice-engine/lifespan-reference.mp3
這是重建後的聲音,等於是患者原本唸的內容,但是由另外一個聲音唸出來:
https://cdn.openai.com/previewing-voice-engine/lifespan-talking.mp3
如何不被濫用將會是 OpenAI 下一步要面對的考驗
聽完 Voice Engine 的結果後覺得確實厲害,這樣以後可能就不需要口譯了,你也不用學習英文、德文、日文,你直接說一段話 AI 就能夠馬上幫你翻譯成各國語言。
當一個會議上有各個國家的人出席,就算你不會英文也沒關係,反正 AI 可以幫你翻譯。
但是當技術到位了以後,OpenAI 也表示下一步必須確保 Voice Engine 這項技術或是生成的內容不會被濫用,那要怎麼做呢?
以目前來說,所有測試 Voine Engine 的合作夥伴都同意遵守使用政策,禁止未經同意或法律許可的冒 用行為,合作伙伴還必須向聽眾明確表示他們聽到的聲音是人工智慧產生的。
此外,OpenAI 也會實施一系列安全措施,包括加上聲音的浮水印並主動監控使用情況,以確保 Voice Engine 這項技術是被安全地使用。
OpenAI 也沒有提到這項技術什麼時候會開放或是推廣出來,目前應該只是做一個成果的展示。