OpenAI 在 5/14 發布了最新的 GPT-4o 模型,是目前 ChatGPT 所使用最智慧的 AI 模型,其中的 o 指的是「全方位」或「無所不在」的意思,而且 OpenAI 也計劃將 GPT-4o 開放給免費 ChatGPT 帳號使用。
如果你對於 ChatGPT 或是新的 GPT-4o 不了解的話,下面幫大家整理一下這個新的 GPT-4o 模型有哪些好用的功能。
即時語音翻譯
GPT-4o 的語音功能相當人性,有時候講到不好意思還會自己不小心笑出來的那種,再加上處理速度相當快,可以翻譯至少 50 種語言,以後出國就可以試試看用 ChatGPT 當作雙向翻譯工具。
因為 GPT-4o 有著很人性化的語音功能,所以 OpenAI 在發表會上示範讓 GPT-4o 當成即時翻譯機,可以用很口語化的方式在英文與義大利文的講者之間做翻譯,而且 GPT-4o 不是死板板的翻譯,他有時候會像是中間人,以第三人稱的方式回應你「對方說…..」。
辨識視訊即時內容
在之前的 GPT-4 其實就可以辨識圖像內容了,但是在 GPT-4o 不僅可以辨識圖像,你甚至還可以跟你視訊,然後解讀你的視訊影像,並給予適當的回答。
例如在下面的影片中,ChatGPT 建議他們可以玩剪刀石頭布,而且還辨識出兩個人出的是什麼,正確判斷出兩次平手,然後第三次是由女生獲勝。
在下面這個影片中,ChatGPT 看出這個人穿了一件 OpenAI LOGO 的衣服,
辨識情緒並以不同的語調回應
在語音功能方面除了即時翻譯以外,GPT-4o 不僅能夠理解和表達多種情緒,還能生成多種情感表達的聲音,讓與 ChatGPT 的互動更加自然流暢。OpenAI 展示了 GPT-4o 聽完一個笑話後也會像是正常人一樣的笑,而且是很自然的那種感覺。
又或是下面這段影片,ChatGPT 在 GPT-4o 模型下,可以判斷視訊者的情緒,甚至在最後知道原來只是在測試他的能力後,覺得有點失望又有點不好意思。
讓 ChatGPT 作曲並演唱出來
透過 GPT-4o,你可以下指令給 ChatGPT,然後要他按照指令唱出旋律,然後中途你還可以調整他的語調、唱歌口氣的輕重,這些在 GPT-4o 模型下的 ChatGPT 的都可以做到。
分享螢幕畫面給 ChatGPT
在電腦版的 ChatGPT 功能裡面,你還可以把螢幕畫面以類似共享的方式分享給 ChatGPT,GPT-4o 有能力直接辨識畫面上的內容,你可以直接利用語音和 ChatGPT 討論你要詢問的事項。
例如像展示的過程中直接問 ChatGPT 這份螢幕圖表上溫度最高的月份是多少,ChatGPT 就會回答出正確的月份。
讓 AI 加入你們的視訊會議
使用電腦版的 ChatGPT 並且在 GPT-4o 模型下,你還可以讓 ChatGPT 參與你與朋友、同事們的視訊會議,看起來 ChatGPT 不只可以幫忙當個助理在最後做總結,還可以變成一位會議主持人呢。
GPT-4o 將以語音、視覺和改善速度為主
最後幫大家總結一下,GPT-4o 的回應速度將是 GPT-4 的兩倍,對於開發者來說,API 的價格是 GPT-4 的 1/2。看完上面的影片後,大家應該對於 GPT-4o 的語音效果印象非常深刻吧,因為很擬真、很自然,甚至你是可以從 ChatGPT 的回應中感受到情緒。
此外,也大幅提高了視覺辨識的能力,無論是靜態圖像或動態視訊畫面,GPT-4o 的辨識能力都可以很快速也很準確,包含人物表情、周遭環境、整體的的活動都可以辨識得出來。
此外,OpenAI 也有推出電腦版 ChatGPT App,而且 GPT-4o 也會針對免費 ChatGPT 帳號開放,當然在額度上會有比較大的限制,如果很常使用的話,每個月 20 美金的 ChatGPT Plus 訂閱費用應該是很值得花的。