快訊

寶傑怎麼說／AI代理時代來臨！Gemini Omni生成影片像聊天般簡單？

2026-05-22

16:35

造咖

劉寶傑。（圖／東森新聞）

Google推出Gemini模型Omni再進階！尤其「彈珠滑軌」的影片，竟能模擬出真實世界的自然物理現象，強大表現讓資深媒體人劉寶傑忍不住大推讚賞。而劉寶傑的黃金搭檔黃世聰則分享，Google進化AI代理人的升級內容，未來AI科技應用可能更加超乎想像，令人期待。

大家關注的消息都在這兒，快來加入東森新聞LINE

AI高度還原「物理現象」

資深媒體人劉寶傑在主持的節目《寶傑怎麼說》分享，Google發表Gemini Omni新一代技術，只要用「幾行文字」就能生成影片的進階設定，尤其Google此次發表的「彈珠滾動」影片，將「物理現象、物理邏輯」模擬出極為真實的畫面。

AI下指令等於一個電影團隊？

劉寶傑的黃金搭檔、財經專家黃世聰補充，從前要生成上述「彈珠滑軌」影片，需要非常多動畫師，一格一格或是真實拍攝，需要非常多成本，現在只要下達「我要展示一顆彈珠在軌道滑行的狀況」等所需的（文字、語音）指令。

尤其現在畫面強大的地方在於「彈珠還能因應坡道軌道角度不同，出現不同（重力加速度）物理現象的動態模樣」，甚至連「物理光影」也毫無破綻，達到光影與動作高度一致性的效果，模擬出現實世界的物理現象，克服過去AI畫面易「飄移」的痛點。同樣令人期待的是，Omni也可以輸入幾行字，就能做出「手碰平面產生水波紋、運用黏土解說蛋白質運作」的視覺效果，關鍵在於「指令清楚明白」。

圖片來源：YT@東森新聞 CH51、YT@寶傑點兵／寶傑怎麼說

AI生成影片像聊天般簡單？

Google表示，Gemini Omni主打「Create anything from any input（從任何輸入創造任何內容）」，讓內容創作變得像「聊天」一樣自然、AI不再只是理解文字，而是能同時處理圖片、影片、聲音與文字，甚至直接生成影片內容，例如：將靜態照片轉成動畫短片、透過語音指令剪輯影片，或將舊影片重新生成不同風格版本，真正實現「任意輸入、任意創作」的多模態AI能力，幫助影片生成更加簡單。

AI代理人再進化

除了影片與畫面外，Google在5月19日舉行的I/O 2026開發者大會，再將Gemini的定位推進一大步。Google推出「Gemini Spark」（自家版龍蝦），底層模型則是運用剛推出的「Gemini 3.5」模型，跟進AI技術從「單純回答問題」蛻變成「行動層面」的AI助理。

黃世聰在《寶傑怎麼說》對此說明，運用「Gemini Spark」下達指令「整合我所有的行事曆」，系統就會抓取所有信箱、行事曆整合所有資訊，幫助用戶處理日常任務、整合行程，甚至還能在購物時自動比價下單，從日常拍過的照片推斷出用戶喜歡的顏色等喜好，直接幫忙下單，這樣類似於管家的功能，讓AI代理人時代技術更加讓人期待。

圖片來源：YT@東森新聞 CH51、YT@寶傑點兵／寶傑怎麼說

使用者下達指令才會行動

Google對此表示，Spark朝向深度整合Google的服務，並不會主動讀取用戶信件，所有活動須由使用者下達觸發的指令，因為涉及消費、寄信等高風險（隱私）活動前，Spark會先詢問用戶進行確認。

Google也宣布，AI模式改用的「Gemini 3.5 Flash」，升級其編寫與代理任務的節點速度基準，新搜尋框支援更多提問、以及跨文字、圖片、檔案、影片與Chrome分頁的多模態輸入，用戶看到AI概述摘要後，能直接切進AI模式繼續追問，AI除了可以協助分解問題、資料來源、產生答案，還能依用戶需求提供通知訊息、附上摘要連結，從（單向）搜尋，進階變成「資訊代理人（資訊代理）」的（雙向）功能。