寶傑怎麼說/AI代理時代來臨!Gemini Omni生成影片像聊天般簡單?
Google推出Gemini模型Omni再進階!尤其「彈珠滑軌」的影片,竟能模擬出真實世界的自然物理現象,強大表現讓資深媒體人劉寶傑忍不住大推讚賞。而劉寶傑的黃金搭檔黃世聰則分享,Google進化AI代理人的升級內容,未來AI科技應用可能更加超乎想像,令人期待。
AI高度還原「物理現象」
資深媒體人劉寶傑在主持的節目《寶傑怎麼說》分享,Google發表Gemini Omni新一代技術,只要用「幾行文字」就能生成影片的進階設定,尤其Google此次發表的「彈珠滾動」影片,將「物理現象、物理邏輯」模擬出極為真實的畫面。
AI下指令等於一個電影團隊?
劉寶傑的黃金搭檔、財經專家黃世聰補充,從前要生成上述「彈珠滑軌」影片,需要非常多動畫師,一格一格或是真實拍攝,需要非常多成本,現在只要下達「我要展示一顆彈珠在軌道滑行的狀況」等所需的(文字、語音)指令。
尤其現在畫面強大的地方在於「彈珠還能因應坡道軌道角度不同,出現不同(重力加速度)物理現象的動態模樣」,甚至連「物理光影」也毫無破綻,達到光影與動作高度一致性的效果,模擬出現實世界的物理現象,克服過去AI畫面易「飄移」的痛點。同樣令人期待的是,Omni也可以輸入幾行字,就能做出「手碰平面產生水波紋、運用黏土解說蛋白質運作」的視覺效果,關鍵在於「指令清楚明白」。
AI生成影片像聊天般簡單?
Google表示,Gemini Omni主打「Create anything from any input(從任何輸入創造任何內容)」,讓內容創作變得像「聊天」一樣自然、AI不再只是理解文字,而是能同時處理圖片、影片、聲音與文字,甚至直接生成影片內容,例如:將靜態照片轉成動畫短片、透過語音指令剪輯影片,或將舊影片重新生成不同風格版本,真正實現「任意輸入、任意創作」的多模態AI能力,幫助影片生成更加簡單。
AI代理人再進化
除了影片與畫面外,Google在5月19日舉行的I/O 2026開發者大會,再將Gemini的定位推進一大步。Google推出「Gemini Spark」(自家版龍蝦),底層模型則是運用剛推出的「Gemini 3.5」模型,跟進AI技術從「單純回答問題」蛻變成「行動層面」的AI助理。
黃世聰在《寶傑怎麼說》對此說明,運用「Gemini Spark」下達指令「整合我所有的行事曆」,系統就會抓取所有信箱、行事曆整合所有資訊,幫助用戶處理日常任務、整合行程,甚至還能在購物時自動比價下單,從日常拍過的照片推斷出用戶喜歡的顏色等喜好,直接幫忙下單,這樣類似於管家的功能,讓AI代理人時代技術更加讓人期待。
使用者下達指令才會行動
Google對此表示,Spark朝向深度整合Google的服務,並不會主動讀取用戶信件,所有活動須由使用者下達觸發的指令,因為涉及消費、寄信等高風險(隱私)活動前,Spark會先詢問用戶進行確認。
Google也宣布,AI模式改用的「Gemini 3.5 Flash」,升級其編寫與代理任務的節點速度基準,新搜尋框支援更多提問、以及跨文字、圖片、檔案、影片與Chrome分頁的多模態輸入,用戶看到AI概述摘要後,能直接切進AI模式繼續追問,AI除了可以協助分解問題、資料來源、產生答案,還能依用戶需求提供通知訊息、附上摘要連結,從(單向)搜尋,進階變成「資訊代理人(資訊代理)」的(雙向)功能。
企業導入AI引關注
此外《寶傑怎麼說》也聚焦企業導入AI的實例,包括台灣「四大會計師事務所」之一的「安侯建業」,導入美國人工智慧(AI)新創公司Anthropic(希臘語,意為「人類」),希望透過AI科技的雙向策略聯盟,優化和簡化稅務、法律與私募股權等業務內容。
而全球前三大音效晶片廠、臺灣具代表性的多媒體積體電路(IC)設計公司「驊訊電子」,繼開發出「聽聲辨位」的核心技術後,跟進AI智慧眼鏡市場,希望透過高階音訊演算法,以及AI語音技術、降噪技術,搭上AI以語音做為第一入口的需求,打入指標性科技大廠供應鏈,同樣掀起科技圈與股市金融界關注與重視。
瘦瘦針「一缺點」身體機能老10歲!一族群更危險
Google 「AI功能」 5大升級!搜尋、行程提醒全自動化
