2025 年 4 月 9 日,在全球科技界引頸期盼的 Google Cloud NEXT 2025 發表會上,一場為期三天的創新盛宴正式拉開帷幕。Google 在本次大會上隆重宣布了一系列針對企業導入 AI 的關鍵升級,涵蓋了底層基礎設施、創新的生成式媒體平台、強大的多模態模型 Gemini,以及更智慧的資料分析工具。旗下 Vertex AI 現已成為唯一一個涵蓋四大媒體形式(影片、圖片、語音、音樂)的生成式 AI 平台。這代表企業只需一段文字提示,就能從靜態圖像延伸至完整影片,並結合音樂與語音,打造出可直接上線的創意資產。

這次更新不只加入音樂生成模型「Lyria」,也為既有的 Veo 2(影片)、Chirp 3(語音)、Imagen 3(圖片)帶來全新功能,全面升級內容創作體驗。

Lyria:文字轉音樂模型,打造品牌專屬配樂

Lyria 是 Google 最新的文字轉音樂生成模型,現在已在 Vertex AI 上開放預覽(需申請白名單)。Lyria 能夠生成高音質、細節豐富的音樂,涵蓋多種風格,協助企業:

  • 打造聲音品牌體驗:為行銷活動、產品發表、實體空間創造專屬音樂,強化品牌識別與情感連結。
  • 加速影音製作流程:製作影片、Podcast 等數位內容時,不再耗費時間找免版稅音樂,Lyria 可快速生成符合情境與節奏的專屬配樂。

範例應用:輸入提示可生成高張力的 Bebop 爵士樂,強調即興演奏與快節奏對話,完美呈現深夜爵士酒吧的氛圍。https://www.youtube.com/shorts/Ch1YayxDrbc

Veo 2:從影片生成到完整後製,All-in-One 平台誕生

Veo 2 是 Google 領先的影片生成模型,這次在 Vertex AI 上加入更多強大編輯功能,讓使用者不只能生成影片,還能進行後製與特效調整:

  • 局部編修(Inpainting):移除影片中的背景雜物、Logo 等干擾項目,自然不留痕。如下圖所示,可以自然地移除演員的鋼絲。

  • 畫面延伸(Outpainting):將橫幅影片延展為直式短片,快速適應不同社群平台。

  • 攝影導演功能:控制分鏡、鏡頭移動、時間流速等,無需專業技術即可呈現電影級畫面。

  • 畫面補間(Interpolation):讓兩段影片間自然過渡,提升整體流暢度與專業感。

Chirp 3:只需 10 秒音檔,打造專屬語音角色

Chirp 3 是 Google 的語音生成與理解模型,這次加入兩項新功能:

  • Instant Custom Voice:上傳 10 秒音檔,就能生成專屬語音,適用於客服中心、自媒體、品牌聲音塑造等場景。此功能內建安全驗證,確保合法使用。
  • 語者分離轉錄(Diarization):可區分錄音中不同講者的語句,大幅提升會議記錄、Podcast 分析的實用性與清晰度。

Imagen 3:更高畫質的文字轉圖與圖片修補能力

Imagen 3 是 Google 最先進的文字轉圖模型,這次強化了圖片「修補與物件移除」功能:

  • 高品質修補(Inpainting):快速補全遺失或損壞區域。
  • 自然物件移除:可移除照片中的雜物、路人,畫面自然不留痕跡。

安全性與責任治理:企業級 AI 的基本盤

Google 在所有生成模型中都落實負責任 AI 原則,提供企業安心使用的保障:

  • 數位浮水印(SynthID):在所有生成的圖片、影片與音檔中嵌入不可見水印,防止錯誤引用與誤用。
  • 安全過濾機制:防止生成有害內容,並持續提升模型安全性。
  • 資料治理與隱私保護:客戶資料不會用來訓練模型,資料處理全依照企業指示。
  • 著作權保障(Indemnification):Google 承諾在合理條件下為生成內容提供第三方智慧財產權保障。

產業實例:全球品牌如何運用 Vertex AI 生成媒體模型

越來越多企業已將 Vertex AI 應用於實際營運,例如:Kraft Heinz:導入 Veo 2 與 Imagen 3 後,將內容開發流程從 8 週壓縮為 8 小時,顯著降低成本並提升創意產出速度。

 

Vertex AI 透過整合影音圖聲四大生成模型,已不僅僅是 AI 平台,更是企業轉型創意生產力的關鍵工具。隨著功能持續進化,Google Cloud 將協助更多品牌在創意流程中加速前進,實現更具影響力的數位體驗。無論你想了解最新雲端知識,或是想了解最新活動、產業應用,歡迎聯繫宏庭科技。我們將帶來更多 AI 雲端新知,請密切關注我們的活動訊息,期待在活動中與您相見!

延伸閱讀