谷歌Gemini新模型！生成AI影片　搜尋引擎.免想「關鍵字」

記者書雨卉報導

2024/05/15 19:36

週一，ChatGPT開發商OpenAI，推出了自家語言模型的升級版本，回應更迅速逼真，還能處理數學題和圖表，驚豔全場；隔一天，谷歌年度開發者大會登場，發表一系列產品升級，和OpenAI較勁意味濃厚，除了推出AI語音助理、AI影片生成模型，還將AI整合進搜尋引擎，用一句話就能搜！

圖／達志影像美聯社

Alphabet執行長皮查伊：「我們的終極目標是，讓AI對每一個人都有幫助。」

一年一度的谷歌開發者大會，在加州矽谷山景城登場，一如外界所料，以生成式AI模型Gemini系列，貫穿全場。

谷歌DeepMind執行長哈薩比斯(Demis Hassabis)：「我們今天要宣布令人振奮，跟未來AI助理有關的新計畫，我們稱它為Project Astra。」

這個叫做Project Astra的原型，是由谷歌旗下AI部門DeepMind打造，它能和使用者即時對話，討論任何在手機裡出現的畫面。

使用者：「當你看到有可以發出聲音的東西，請告訴我。」
聲音來源 Gemini：「我看到一台喇叭，它會發出聲音。」

不只對話，還能隨時插入文字。

使用者：「喇叭的這個地方又叫做什麼？」
聲音來源 Gemini：「那裡叫做高音揚聲器，會產生高頻的聲響。」

甚至分析有形物體上的文字內容。

使用者：「這部分程式碼的作用是什麼？
聲音來源 Gemini：「這些程式定義了加密和解密函數。」

無論環境再怎麼動態或複雜，這個AI語音助理照樣能和使用者在無秒差的狀態下一問一答，被視為是要和競爭對手OpenAI正面PK。

OpenAI研究人員：「首先，你現在可以打斷這個模型講話，不用等它結束輪到你才能開始講。」

前一天，這家ChatGPT的開發商，才搶先發表了全新、更聰明的語言模型GPT-4o，被譽為最強AI助理。

ChatGPT-4o使用者：「國王現在在皇宮嗎？」
聲音來源 ChatGPT-4o：「在，國王看上去是在皇宮裡的，皇家旗正在白金漢宮上方飛揚，表示君主目前在場。」

發表會上，谷歌又搬出第二個壓箱寶。

谷歌DeepMind執行長哈薩比斯：「很高興要宣布我們最新、性能最強大的影片生成模型Veo。」

這個全新Veo，能夠以文字、圖片和影片指令，生成1080p的AI影片，且片長達到1分鐘以上。

Veo示範影片片段：「人人都將成為一名導演。」

從唯美的慢動作鏡頭、空拍大海中的帆船，到縮時攝影等多種視覺效果，通通是對Veo下指令後所生成的高畫質影片。

谷歌DeepMind執行長哈薩比斯：「你還能把Veo用在，我們新的實驗性工具Video FX，我們正在開發的功能像是分鏡，並生成更長的畫面，Veo帶給你前所未有的創意操作。」

在谷歌發表的全新產品和原型中，也對Gemini系列的幾款模型做了更新，包括速度更快、成本更低的Gemini 1.5 Flash，以及只對訂閱用戶推出的Gemini 1.5 Pro。這個更新版本，支援超過35種語言，能幫助使用者在龐大的文件、email或雲端檔案中，整理出摘要。

就連招牌的搜尋引擎，也不必再絞盡腦汁想多個關鍵字，只需以明確的一句話進行提問，無論問題多複雜、資訊量有多大，AI都能生成搜尋結果，且能讓使用者選擇，想要看到完整版或精簡後的回答。

谷歌DeepMind執行長哈薩比斯：「基於我們的Gemini模型打造，讓我們開發出處理資訊速度更快的代理人。」

除此之外，谷歌還會把AI整合進Android裝置，將採用Gemini系列中，模型尺寸最小的Gemini Nano。

谷歌DeepMind執行長哈薩比斯：「長久以來，我們一直想打造出，能真正在生活中發揮用處的AI代理人。」

在這場兩個小時的大會上，共提及AI這個關鍵字120多次。而場外同樣熱鬧，數百名巴勒斯坦支持者，在開發者大會的入口處發起抗議行動，繼續反對谷歌和以色列政府的合作項目。

抗議人士：「我們要求谷歌立刻撤銷"雨雲計畫"合約，並即刻停止和以色列軍方所有商業往來。」

不過這場抗議示威，並沒有造成太大影響，大會參與者改由另一個入口進場，讓這場年度盛事按時登場。

◤日本旅遊必買清單◢

👉超夯日本電器竟然還有額外優惠！

👉日本免稅美妝必買這些！筆記給妳

👉存起來！遊日本免稅最高再折17%

更新時間：2024/05/16 10:51

AI , AI模型 , AI助理 , 搜尋引擎 , 影片生成 , Gemini , Deepmind , 語言模型 , AI影片

延伸閱讀