宏庭科技:聚焦客戶痛點,以概念驗證驅動 AI 實質效益

在宏庭科技,我們深知 AI 已從充滿潛力的實驗階段,逐步轉變為能對企業核心業務產生實際影響的關鍵驅動力。因此,當我們協助客戶進行 概念驗證(POC, Proof of Concept) 時,我們的思考點不僅僅是「AI 能做什麼?」,更著重於「AI 能做得有多好?」—— 因為這直接關係到客戶的 AI 導入能否帶來實質的商業轉化效益。

針對企業導入 AI 的迫切需求,宏庭科技透過一整套嚴謹的評估服務,深度聚焦客戶的實際痛點。我們不僅提供專業的 POC 概念驗證,更會透過詳盡的訪談與問答,充分理解您的獨特挑戰與期望。這一切都旨在確保您的 AI 應用程式兼具高品質、高可靠性與絕佳安全性,因為這是當前數位轉型中勢在必行的策略。

要引導您邁向成功,一套完善的「評估」機制就必須是您的指南方針。它就像一盞在整個開發生命週期中,不斷驗證方向的明燈。從精心設計提示、選擇最合適的模型,到判斷是否值得微調,乃至於評估複雜的 AI 代理程式,這套強健的評估服務將為您提供所有關鍵解答。

除了由宏庭科技協助導入 POC 外,也可以依照 Google Cloud 推出的 生成式 AI 評估服務 (Gen AI evaluation service),進行初步的評估。這項服務具備評估多元模型的能力,涵蓋了 Google 的基礎模型、開源模型、專有基礎模型,乃至於客製化模型。它提供了具備逐點 (pointwise) 和成對 (pairwise) 準則的線上評估模式,並採用了高效的運算與自動評分器 (Autorater) 方法。這篇文期望能深入探討生成式 AI 評估服務的新功能,這些功能旨在幫助您擴展評估規模、評估您的自動評分器、使用評分標準 (rubrics) 客製化您的自動評分器,以及評估您在生產環境中的代理程式。

評估生成式 AI 的框架

1. 透過生成式 AI 批次評估擴展您的評估規模

對於 AI 開發者來說,最迫切的問題之一是:「我該如何大規模執行評估?」過去,大規模評估可能耗費大量工程資源、難以維護且成本高昂。您必須自行建構批次評估流程,並結合多個 Google Cloud 服務。

全新的批次評估功能簡化了這個過程,為大型資料集提供單一 API。這表示您可以高效地評估大量資料,支援 Vertex AI 中生成式 AI 評估服務的所有方法和指標。它旨在比以前的方法更便宜、更高效。

您可以透過此教學課程深入了解如何在 Vertex AI 中使用 Gemini API 執行批次評估。

2. 仔細檢視您的自動評分器並建立信任

常常從開發人員那裡聽到的一個常見且關鍵的顧慮是:「我該如何客製化並真正評估我的自動評分器?」雖然使用大型語言模型 (LLM) 來評估基於 LLM 的應用程式能提供規模和效率,但它也帶來了關於其限制、穩健性與潛在偏見的合理疑問。最根本的挑戰在於建立對其結果的信任。

我們相信信任不是憑空而來,而是透過透明度和控制來建立的。我們的功能旨在讓您能夠嚴格審查和完善您的自動評分器。這透過兩個關鍵功能實現:

首先,您可以評估您的自動評分器的品質。透過建立人類評分範例的基準資料集,您可以直接將自動評分器的判斷與您的「真實來源」進行比較。這使您能夠校準其性能、衡量其與您的對齊程度,並清楚了解需要改進的領域。

其次,您可以積極改善其對齊程度。我們提供了幾種方法來客製化自動評分器的行為。您可以透過特定的標準、思維鏈推理 (chain-of-thought reasoning) 和詳細的評分指南來完善自動評分器的提示。此外,進階設定以及使用您自己的參考資料來導入和微調自動評分器的能力,確保它滿足您的特定需求,並能夠捕捉獨特的用例。

這是您可以使用新的自動評分器客製化功能建構分析的一個範例。

 

請查看官方文件中的 進階評判模型客製化系列,以了解更多關於如何評估和配置評判模型。對於實際範例,這裡有關於如何使用 Vertex AI 生成式 AI 評估服務客製化評估的教學課程。

3. 基於評分標準的評估 (Rubrics-driven evaluation)

評估複雜的 AI 應用程式有時會帶來令人沮喪的挑戰:當每個輸入都不同時,您如何使用一組固定的標準?一概而論的評估標準通常無法捕捉複雜多模態用例(例如圖像理解)的細微差別。

為了解決這個問題,我們的基於評分標準的評估功能將評估體驗分解為兩步驟方法。

步驟 1 – 評分標準生成:首先,系統不再要求使用者提供靜態的標準清單,而是像一個量身定制的測試出題者。對於評估集中的每個獨立資料點,它會自動生成一組獨特的評分標準 — 針對該條目內容調整的具體、可衡量的標準。如果需要,您可以審查和客製化這些測試。

步驟 2 – 目標自動評分:接著,自動評分器會使用這些客製化生成的評分標準來評估 AI 的回應。這就像一位老師根據每個學生的論文主題,為其撰寫獨特的考題,而不是為全班使用相同的通用考題。

這個過程確保了每次評估都具有上下文相關性並富有洞察力。它透過將每個分數與直接與特定任務相關的標準聯繫起來,增強了可解釋性,使您能夠更準確地衡量模型的真實性能。

在這裡,您可以看到一個基於評分標準的成對評估範例,您將能夠透過 Vertex AI 上的生成式 AI 評估服務來產生。

4. Agent 評估

我們正處於 Agent 時代的開端,Agent 能夠推理、規劃並使用工具來完成複雜任務。然而,評估這些Agent 帶來了獨特的挑戰。僅僅評估最終回應已不再足夠;我們需要驗證整個決策過程。「代理程式選擇了正確的工具嗎?」、「它是否遵循了邏輯的步驟序列?」、「它是否有效地儲存和使用了資訊來提供個性化的答案?」這些是決定代理程式可靠性的一些關鍵問題。

為了解決其中一些挑戰,Vertex AI 中的生成式 AI 評估服務引入了專門用於代理程式評估的功能。您不僅可以評估 Agent 的最終輸出,還可以深入了解其「軌跡」— 即它所採取的一系列行動和工具呼叫。透過專門用於軌跡的指標,您可以評估 Agent 的推理路徑。無論您是使用 Agent Development Kit、LangGraph、CrewAI 或其他框架進行建構,並將其託管在本地或 Vertex AI Agent Engine 上,您都可以分析代理程式的行動是否合乎邏輯,以及是否在正確的時間使用了正確的工具。所有結果都與 Vertex AI Experiments 整合,提供一個強大的系統來追蹤、比較和視覺化性能,使您能夠建構更可靠、更有效的 AI 代理程式。

Google Cloud 也在去年推出強大的 Agent2Agent 平台,串接不同內部應用搜尋,讓企業打破數據孤島。查看更多什麼是 Google Agentspace?打破數據孤島,釋放企業內部智慧

本篇文章改寫至 Google Blog,身為 Google Cloud Premier Partner 宏庭科技,將繼續協助將前瞻性 AI 能力有效落地,協助企業客戶無縫導入並利用 Google 的最新 AI 技術,共同邁向智慧化的未來。若有任何問題及需求,歡迎聯繫宏庭科技。若您對 Google Cloud 的多元應用有興趣,請密切關注Google 的活動訊息,期待在活動中與您相見!