您是否將數據儲存在 BigQuery 中,並且希望透過這些數據來訓練和部署機器學習模型?或者,您是否已經在 Vertex AI 中建構了 ML 工作流程,但希望對模型的預測進行更複雜的分析?在本文中,我們將向您展示 Vertex AI 和 BigQuery 之間的五種整合方式,以便您儲存與提取數據;建構、訓練和部署您的機器學習模型;並使用內建的 MLOps 大規模管理模型。更重要的是,這些流程都將在單一一個平台內完成!

 

方法一:將 BigQuery 數據匯入 Vertex AI

如果您正在使用 Google Cloud,您可能會將一些數據儲存在 BigQuery 中。當您準備使用這些數據來訓練機器學習模型時,您可以輕鬆透過控制台(console)中的幾個步驟將 BigQuery 數據直接上傳至 Vertex AI:

1 Import BigQuery data into Vertex AI.gif

藉由這種整合方式,您不需要先匯出 BigQuery 數據再重新匯入 Vertex AI,而是可以將 BigQuery 數據無縫連結至 Vertex AI。

 

方法二:存取 BigQuery 公開數據集

Vertex AI 和 BigQuery 之間的這種數據集整合意味著,除了能將您公司的 BigQuery 數據集連結到 Vertex AI 之外,還可以利用 BigQuery 中的200 多個公開數據集來訓練您的 ML 模型。BigQuery 的公開數據集涵蓋了非常多元的主題,包含地理、人口調查、天氣、體育、程式設計、醫療保健、新聞等。

您可以單獨使用這些數據來試驗 Vertex AI 中的訓練模型或擴充您的現有數據。舉例來說,假設您正在構建一個需求預測模型,並且發現天氣會影響您的產品需求;您可以將 BigQuery 的公開天氣數據集與您組織的銷售數據相結合,以在 Vertex AI 中訓練您的預測模型。

 

以下圖為例,這是透過導入去年的公開天氣數據,訓練氣象預報模型:

2 Access BigQuery public datasets .gif

 

方法三:透過 Vertex AI Workbench 筆記本存取 BigQuery 數據

資料科學家經常在筆記本環境中工作,以進行探索式資料分析(EDA)、創造資料視覺化並執行特徵工程(Feature Engineering)。在 Vertex AI 的託管式 Workbench 筆記本實例(instance)中,您可以透過 SQL 查詢直接存取BigQuery 數據,或下載為 Pandas Dataframe,並在 Python 中進行分析。

 

如下圖所示,您可以看到如何在公開的 London Bikeshare 數據集上運行 SQL 查詢,然後將該查詢的結果下載為 Pandas Dataframe,以在筆記本中使用:

3 Accessing BigQuery.gif

 

方法四:在 BigQuery 中分析測試版預測數據

這涵蓋了如何使用 BigQuery 數據在 Vertex AI 中訓練模型。 接下來,我們將研究用於匯出模型預測的 Vertex AI 和 BigQuery 之間的整合。

 

使用 AutoML 在 Vertex AI 中訓練模型時,Vertex AI 會將數據分割為訓練集、測試集和驗證集,並評估您的模型在測試數據上的表現。您也可以選擇將模型的測試版預測匯出到 BigQuery ,以進行更仔細地分析:

4 Analyze test prediction data in BigQuery.gif

在訓練完成後,您可以檢查測試的數據,並對測試版預測執行查詢。這可以幫助確定您的模型在哪些方面表現不佳,讓您可以即時採取應變措施,在下次訓練模型時優化數據。

 

方法五:匯出 Vertex AI 批次預測結果

當您有一個經過訓練的模型,準備在產品生產中使用時,以下選項可以透過 Vertex AI 對該模型進行預測:

  • 將模型部署到端點以進行線上預測
  • 匯出模型資源以進行終端裝置預測(on-device prediction)
  • 在模型上執行批次處理預測工作

 

在有大量範例要發送到模型進行預測、且延遲問題較少的情况下,批次預測對您來說將會是個好選擇。在 Vertex AI 中建立批次預測時,您可以指定一個 BigQuery 表格作為預測工作的來源和目標:這意味著您將擁有一個包含了要進行預測之數據的 BigQuery 表格,而 Vertex AI 會將您的預測結果保存至獨立的 BigQuery 表格中。

5 Analyze test prediction data in BigQuery.gif

透過這些整合,您可以存取 BigQuery 數據、建構和訓練模型。而 Vertex AI 可以幫助您做到以下:

  • 將這些模型投入到生產工作
  • 通過管理 pipeline 自動化模型的可重複性
  • 管理您模型的性能和可靠性
  • 應用可解釋性(explainability)來評估特徵屬性(feature attributions)

 

本文章翻譯並改寫自 Google Cloud 官方部落格Google Cloud 說明文件

宏庭科技為 Google Cloud 菁英合作夥伴,協助多間知名企業建構 BigQuery ETL解決方案Vertex AI 解決方案,客戶遍及媒體業、電商業、零售業與遊戲業。想了解更多數據分析/ML模型部署解方嗎?歡迎填寫連絡表單,讓宏庭科技專屬顧問為您將繁雜數據點石成金!