Google 的 Bard AI 機器人過去曾使用 LaMDA 系列的語言模型,後來改為 PaLM2,如今正式宣佈推出自家的語言模型 Gemini,使用 TPU v4 和 v5e 晶片進行訓練,強調多模、多樣化的解析能力以及執行效率,甚至在多項測試中贏過 OpenAI 的 GPT-4 模型。
Google 自家原生 AI 模型,多項測試贏過 GPT-4v
Gemini 是 Google 推出的「原生」AI 模型,可以處理包含程式碼、文字、聲音、圖片、影片這些不同形式的內容,而且因為 Google 的資料庫中有著巨量的內容,是訓練 Gemini 很棒的資源。
Google 甚至表示 Gemini 可以直接「看懂」圖片,而不是像過去使用 OCR 的方式掃描圖片然後再辨識上面的文字這種方式來分析圖片。
在 Google 的影片中,拿了兩張圖片做比較,Gemini 可以回答右邊圖片中的汽車會跑的比較快,因為符合空氣力學的關係,但你可以注意到,圖片中並沒有任何的文字,如果使用傳統 OCR 解析圖片的方式,就無法判斷出這些內容。
Google 展示的內容中,甚至還直接畫了一隻鴨子,而 Gemini 也可以很快地理解出使用者話的內容是什麼。
Gemini 也能夠解析程式碼、C++、Java 等常用程式語言,甚至是爬蟲都可以,不只分析,也能夠按照你要的需求、指定的語言生成程式碼。
Gemini 的執行速度也相當快,在一個午休的時間就可以閱讀完 20 萬份的論文,並且從使用者要求的關鍵字、條件去查詢相關的資料,找出 250 份符合資格的論文以及我們要找的資料在哪裡,並且整理成一份清單。
如果拿來和 OpenAI 的 GPT-4v 和 Gemini 做比較,全部 32 項測試中,有 30 項測試是由 Gemini 勝過了 GPT-4v,而且在 MMLU 大規模多任務語言理解的測試中,包含了歷史、法律、醫學、數學….等 57 個科目中,Gemini 都有達到 90% 的水準,甚至超越了人類專家的表現。
Gemini 也有適合手機使用的版本,Pixel 8 Pro 優先體驗
Gemini 共有 3 種不同大小的模型版本,分為 Ultra、Pro、Nano,其中的 Nano 版本最小,甚至可以直接安裝到手機上使用,Google 也表示 Nano 版本就針對行動裝置所打造的,旗下 Pixel 8 Pro 也會優先開放使用。
其中最大型的 Gemini Ultra 也就是上面所說,在 32 項測試中贏過 GPT-4v 其中 30 項的大型版本,預計明年推出,但在此之前將會先提供給部分使用者、開發者以及企業用戶。
而中型的 Pro 版本則是現在就可以使用,部分使用英文語系的使用者在使用 Bard 的時候,就會自動用上 Gemini 模型,12/13 Google Cloud 的 Vertex AI、AI Studio 上也會釋放出相關的 API。