週一,ChatGPT開發商OpenAI,推出了自家語言模型的升級版本,回應更迅速逼真,還能處理數學題和圖表,驚豔全場;隔一天,谷歌年度開發者大會登場,發表一系列產品升級,和OpenAI較勁意味濃厚,除了推出AI語音助理、AI影片生成模型,還將AI整合進搜尋引擎,用一句話就能搜!
圖/達志影像美聯社
Alphabet執行長 皮查伊:「我們的終極目標是,讓AI對每一個人都有幫助。」
一年一度的谷歌開發者大會,在加州矽谷山景城登場,一如外界所料,以生成式AI模型Gemini系列,貫穿全場。
谷歌DeepMind執行長 哈薩比斯(Demis Hassabis):「我們今天要宣布令人振奮,跟未來AI助理有關的新計畫,我們稱它為Project Astra。」
這個叫做Project Astra的原型,是由谷歌旗下AI部門DeepMind打造,它能和使用者即時對話,討論任何在手機裡出現的畫面。
使用者:「當你看到有可以發出聲音的東西,請告訴我。」
聲音來源 Gemini:「我看到一台喇叭,它會發出聲音。」
不只對話,還能隨時插入文字。
使用者:「喇叭的這個地方又叫做什麼?」
聲音來源 Gemini:「那裡叫做高音揚聲器,會產生高頻的聲響。」
甚至分析有形物體上的文字內容。
使用者:「這部分程式碼的作用是什麼?
聲音來源 Gemini:「這些程式定義了加密和解密函數。」
無論環境再怎麼動態或複雜,這個AI語音助理照樣能和使用者在無秒差的狀態下一問一答,被視為是要和競爭對手OpenAI正面PK。
OpenAI研究人員:「首先,你現在可以打斷這個模型講話,不用等它結束輪到你才能開始講。」
前一天,這家ChatGPT的開發商,才搶先發表了全新、更聰明的語言模型GPT-4o,被譽為最強AI助理。
ChatGPT-4o使用者:「國王現在在皇宮嗎?」
聲音來源 ChatGPT-4o:「在,國王看上去是在皇宮裡的,皇家旗正在白金漢宮上方飛揚,表示君主目前在場。」
發表會上,谷歌又搬出第二個壓箱寶。
谷歌DeepMind執行長 哈薩比斯:「很高興要宣布我們最新、性能最強大的影片生成模型Veo。」
這個全新Veo,能夠以文字、圖片和影片指令,生成1080p的AI影片,且片長達到1分鐘以上。
Veo示範影片片段:「人人都將成為一名導演。」
從唯美的慢動作鏡頭、空拍大海中的帆船,到縮時攝影等多種視覺效果,通通是對Veo下指令後所生成的高畫質影片。
谷歌DeepMind執行長 哈薩比斯:「你還能把Veo用在,我們新的實驗性工具Video FX,我們正在開發的功能像是分鏡,並生成更長的畫面,Veo帶給你前所未有的創意操作。」
在谷歌發表的全新產品和原型中,也對Gemini系列的幾款模型做了更新,包括速度更快、成本更低的Gemini 1.5 Flash,以及只對訂閱用戶推出的Gemini 1.5 Pro。這個更新版本,支援超過35種語言,能幫助使用者在龐大的文件、email或雲端檔案中,整理出摘要。
就連招牌的搜尋引擎,也不必再絞盡腦汁想多個關鍵字,只需以明確的一句話進行提問,無論問題多複雜、資訊量有多大,AI都能生成搜尋結果,且能讓使用者選擇,想要看到完整版或精簡後的回答。
谷歌DeepMind執行長 哈薩比斯:「基於我們的Gemini模型打造,讓我們開發出處理資訊速度更快的代理人。」
除此之外,谷歌還會把AI整合進Android裝置,將採用Gemini系列中,模型尺寸最小的Gemini Nano。
谷歌DeepMind執行長 哈薩比斯:「長久以來,我們一直想打造出,能真正在生活中發揮用處的AI代理人。」
在這場兩個小時的大會上,共提及AI這個關鍵字120多次。而場外同樣熱鬧,數百名巴勒斯坦支持者,在開發者大會的入口處發起抗議行動,繼續反對谷歌和以色列政府的合作項目。
抗議人士:「我們要求谷歌立刻撤銷"雨雲計畫"合約,並即刻停止和以色列軍方所有商業往來。」
不過這場抗議示威,並沒有造成太大影響,大會參與者改由另一個入口進場,讓這場年度盛事按時登場。
◤日本旅遊必買清單◢
更新時間:2024/05/16 10:51