如先前的文章寫到,在 Google Cloud NEXT 2025 宣布 Gemini 2.5 Pro 有重大型升級,Gemini 2.5 Pro 持續受到開發者的喜愛,被譽為程式碼撰寫的最佳模型,2.5 Flash 也透過新的更新變得更加出色。Google 也為模型帶來了新功能,包括 Deep Think,一個針對 2.5 Pro 實驗性強化推理模式。

在今年 2025 年的 Google I/O 大會上,Google 發布了 Gemini 2.5 Pro,這是迄今為止最智能的模型。宏庭科技也將分享更多關於 Gemini 2.5 模型系列的更新:

  • 2.5 Pro 現在是 WebDev ArenaLMArena 排行榜上世界領先的模型,並在協助人們學習方面表現出色。
  • Google 為 2.5 Pro 和 2.5 Flash 帶來了新功能:原生音訊輸出以實現更自然的對話體驗、進階安全防護,以及 Project Mariner 的電腦使用能力。2.5 Pro 將透過 Deep Think 進一步提升,這是一個用於高度複雜數學和程式碼的實驗性強化推理模式。
  • 在 Gemini API 和 Vertex AI 中引入思維摘要以提高透明度:將思維預算擴展到 2.5 Pro 以提供更多控制,並在 Gemini API 和 SDK 中增加對 MCP 工具的支援,以便存取更多開源工具。
  • 2.5 Flash 現已向 Gemini 應用程式中的所有人開放:Google 將在六月初於開發者專用的 Google AI Studio 和企業專用的 Vertex AI 中普遍提供更新版本,2.5 Pro 隨後也會推出。

2.5 Pro 效能更勝以往

Google 最近更新了 2.5 Pro,以協助開發者建立更豐富、互動式的網路應用程式。很高興看到用戶和開發者的積極反應,Google 也持續根據用戶回饋進行改進。

除了在學術基準測試上的出色表現外,新的 2.5 Pro 現在以 1415 的 ELO 分數領先熱門程式碼排行榜 WebDev Arena。它也在評估各種維度人類偏好的 LMArena 的所有排行榜上領先。此外,憑藉其 100 萬tokens的上下文視窗,2.5 Pro 具備最先進的長上下文和影片理解能力

自從引入 LearnLM(Google 與教育專家共同建立的模型家族)以來,2.5 Pro 現在也是學習領域的領先模型。在評估其教學法和有效性的面對面比較中,教育工作者和專家在各種情況下都傾向於選擇 Gemini 2.5 Pro 而非其他模型。並且,它在用於建立學習 AI 系統的五項學習科學原則中的每一項都超越了頂尖模型

請在Google 更新的 Gemini 2.5 Pro 模型卡片Gemini 技術頁面上閱讀更多內容。

Deep Think

透過探索 Gemini 思維能力的邊界,Google 開始測試一種名為 Deep Think 的強化推理模式,它使用新的研究技術,使模型在回應之前能夠考慮多種假設。

2.5 Pro Deep Think 在 2025 年美國數學奧林匹亞 (USAMO) 上獲得了令人印象深刻的分數,這是目前最難的數學基準之一。它還在針對競賽級程式碼的困難基準 LiveCodeBench 上領先,並在測試多模態推理的 MMMU 上獲得 84.0% 的分數。

由於Google 正在透過 2.5 Pro DeepThink 定義技術前沿,Google 將額外花時間進行更多的前沿安全評估,並聽取安全專家的進一步意見。作為其中一部分,Google 將透過 Gemini API 向受信任的測試人員提供此功能,以獲取他們的回饋,然後再廣泛推出。

2.5 Flash 更上一層樓

2.5 Flash 是 Google 最有效率的主力模型,專為速度和低成本而設計——它現在在許多方面都表現得更好。它在推理、多模態、程式碼和長上下文的關鍵基準方面都有所改進,同時變得更加高效,在 Google 的評估中減少了 20-30% 的 tokens 使用量。

新的 2.5 Flash 現在可供開發者在 Google AI Studio、企業在 Vertex AI 以及所有人都在 Gemini 應用程式中預覽。

Gemini 2.5 新功能

原生音訊輸出和 Live API 改進,正在推出音視訊輸入和原生音訊輸出對話的預覽版本,因此您可以直接建立對話體驗,並使用更自然、富有表現力的 Gemini。還允許用戶控制語氣、口音和說話風格。例如,您可以讓模型在講故事時使用戲劇性的聲音。它還支援工具使用,能夠代表您進行搜尋。

您可以嘗試一系列早期功能,包括:

  • 情感對話 (Affective Dialogue),模型會檢測用戶聲音中的情感並適當地回應。
  • 主動音訊 (Proactive Audio),模型會忽略背景對話並知道何時回應。
  • Live API 中的思考 (Thinking in the Live API),模型利用 Gemini 的思考能力來支援更複雜的任務。

Google  還在 2.5 Pro 和 2.5 Flash 中發布了新的文字轉語音預覽。這些功能首次支援多個說話者,透過原生音訊輸出實現兩種聲音的文字轉語音。像原生音訊對話一樣,文字轉語音具有表現力,可以捕捉非常細微的差別,例如輕聲說話。它支援超過 24 種語言,並可在它們之間無縫切換。這種文字轉語音功能將於今天晚些時候在 Gemini API 中提供。

Google 將 Project Mariner 的電腦使用能力引入到 Gemini APIVertex AI 中。Automation Anywhere、UiPath、Browserbase、Autotab、The Interaction Company 和 Cartwheel 等公司正在探索其潛力,Google 很高興能在今年夏天更廣泛地推出它,供開發者實驗。

Google Cloud 還顯著增加了對安全威脅的保護,例如間接提示注入。當惡意指令嵌入到 AI 模型檢索的數據中時,就會發生這種情況。Google Cloud 新的安全方法顯著提高了 Gemini 在工具使用期間抵禦間接提示注入攻擊的保護率,使 Gemini 2.5 成為Google 迄今為止最安全的模型家族。

2.5 Pro 和 Flash 現在將在 Gemini APIVertex AI 中包含思維摘要。思維摘要將模型的原始思維組織成清晰的格式,包括標題、關鍵細節以及有關模型操作的資訊,例如它們何時使用工具。

Google 希望透過更結構化、更簡化的模型思維過程格式,開發者和用戶能更容易理解和偵錯與 Gemini 模型的互動。

Google 推出了帶有思維預算的 2.5 Flash,讓開發者透過平衡延遲和品質來更好地控制成本。Google 也將此功能擴展到 2.5 Pro。這讓您可以控制模型在回應之前用於思考的tokens數量,甚至可以關閉其思考能力。

帶有預算的 Gemini 2.5 Pro 將在未來幾週內與Google 普遍可用的模型一起普遍用於穩定的生產。

MCP 支援

Google 在 Gemini API 中增加了對模型上下文協定 (MCP) 定義的原生 SDK 支援,以便更輕鬆地與開源工具整合。Google 還在探索部署 MCP 伺服器和其他託管工具的方法,讓您更輕鬆地建立代理應用程式。

Google 始終致力於創新新的方法來改進Google 的模型和開發者體驗,包括使其更高效、效能更高,並持續回應開發者回饋,因此請繼續提供意見!Google 也持續加倍努力擴大和深化Google 的基礎研究——推動 Gemini 能力的前沿。更多內容即將推出。

本文內容翻譯並改寫自 Google Cloud 官方部落格,深入探討了 Google 在 Gemini 2.5 系列模型上的最新進展,特別是 2.5 Pro 和 2.5 Flash 在推論效能、效率與新功能方面的顯著提升。從 Deep Think 模式帶來的強化推理能力,到 Live API 的原生音訊輸出,以及在安全性上的加強,都展現了 Google 致力於提供更智能、更安全且更易於使用的 AI 解決方案。

這些創新不僅在學術基準測試上取得了卓越成果,更在實際應用中為開發者和企業帶來了實質的價值。例如,Gemini 2.5 Pro 在程式碼撰寫和學習領域的領先地位,以及 2.5 Flash 在效率上的優化,都證明了 Google 在推動 AI 技術發展方面的承諾。透過整合 Pathways、vLLM 和對 MCP 工具的支援,Google 持續優化開發者體驗,讓 AI 應用的建構與部署變得更加高效。

若您對 Gemini 2.5 系列模型及其廣泛應用有任何疑問或需求,歡迎持續關注宏庭科技最新動態。我們期待與您一同探索 AI 的無限可能!若您對 Google Cloud 的多元應用有興趣,請密切關注Google 的活動訊息,期待在活動中與您相見!