Google 在今天(台灣時間 5/15 凌晨)舉辦的 Google I/O 大會上宣布了最新的 AI 媒體創作引擎 Veo 和 Imagen 3。Veo 能夠生成高品質的 1080p 影片,而 Imagen 3 則是最新的文字生成圖片 AI 工具。這兩項工具看起來就是劍指 OpenAI 的 Sora 影像模型和 Dall-E 3 而來。
Veo:生成超過 1 分鐘的 1080p 影片
Veo 結合了 GQN 神經網路引擎、Phnaki 文字轉影片 AI 引擎、Walt 擴散引擎、Videopoet 影片製作引擎…等技術,具備對自然語言和視覺語義的高度理解能力,提供文字給他就可以生成影片,而且這些 AI 生成的影片可以超過一分鐘,並且具備理解電影和視覺技術的能力,例如縮時攝影就是其中一個,Google 也在發布會上展示了利用 Veo 創建的影片片段。
Google 也表示 Veo 不會取代藝術家的工作,Google 與創意工作室 Gilga 的 Donald Glover 合作展示了 Veo 模型的能力。
Veo 從今天起在 Google 的 VideoFX 工具中對部分創作者開放,並將逐步推向 YouTube Shorts 等產品。不少人認為如果 Veo 最終成為 YouTube Shorts 的內建功能,這將是 Google 相對於 TikTok 的一大優勢,因為用 YouTube 或許就可以生成很多高品質的短影片素材。
Imagen 3:高品質的文字生成圖像模型
Google 表示 Imagen 3 是公司「最高品質、的文字生成圖像模型,具備「驚人的細節」以創建「逼真、生動的圖像」,且更難看出是由 AI 所創作。但是和 OpenAI GPT-4 的 Dall-3 相比是如何、和 Bing 相比又如何,這個可能可以再做更近一步的測試。
他可以判斷使用者下的指令哪些是比較重要的部分,並且增強這部分的細節,所以 Google 才會說這是有史以來細節最多、生成品質最好的 AI 文字轉影像模型。
同樣的,Imagen 3 從今天起可以在 labs.google 的 ImageFX 工具內針對部分使用者開放測試,並逐步開放給更多人使用。
轉載請注明:Google I/O 發布 Veo 與 Imagen 3:生成超過 1 分鐘 1080p 影片、創造驚人的細節圖片 | 蘋果哥