監控模型服務端點普羅米修斯和Datadog

本文展示了如何使用標準出口API來設置端點度量收集和監測普羅米修斯Datadog

需求

  • 讀訪問到所需的端點和個人訪問令牌(PAT),可以在生成用戶設置磚的機器學習界麵訪問端點。

  • 現有的模型服務端點。你可以驗證通過檢查項目的端點健康用以下:

    curl - n - x - h“授權:無記名(PAT)”https://(DATABRICKS_HOST]. . / api / 2.0 / serving-endpoints /(ENDPOINT_NAME]
  • 出口指標驗證API:

    curl - n - x - h“授權:無記名(PAT)”https://(DATABRICKS_HOST]. . / api / 2.0 / serving-endpoints /(ENDPOINT_NAME]/指標

普羅米修斯集成

請注意

無論哪種類型的部署在生產環境中,刮的配置應該是相似的。

本節講述了普羅米修斯的指導文檔開始普羅米修斯服務本地使用碼頭工人。

  1. 寫一個yaml配置文件和名稱prometheus.yml。下麵是一個例子:

    全球:scrape_interval:1米scrape_timeout:十年代scrape_configs:- - - - - -job_name:“普羅米修斯”metrics_path:“. . / api / 2.0 / serving-endpoints / ENDPOINT_NAME /指標”計劃:“https”授權:類型:“持票人”憑證:“[PAT_TOKEN]”static_configs:- - - - - -目標:(“dbc - 741 - cfa95 - 12 - d1.dev.m.eheci.com”]
  2. 開始普羅米修斯在本地使用下麵的命令:

    碼頭工人運行\- p9090年:9090\- v /路徑/ / prometheus.yml: / etc /普羅米修斯/ prometheus.yml\舞會/普羅米修斯
  3. 導航到http://localhost: 9090檢查如果你當地的普羅米修斯服務是啟動和運行。

  4. 檢查的普羅米修斯刮刀狀態和調試錯誤:搜索= http://localhost: 9090 /目標嗎?

  5. 一旦目標是全麵啟動和運行,您可以查詢所提供的指標,cpu_usage_percentagemem_usage_percentage在UI中。

Datadog集成

請注意

初步建立了對於這個示例是基於免費版。

Datadog各種各樣的代理,可以在不同環境中進行部署。出於演示的目的,以下啟動一個Mac OS代理本地擦傷你磚的指標端點主機。使用其他代理的配置應該是在一個類似的模式。

  1. 注冊一個datadog帳戶。

  2. 在你安裝OpenMetrics集成賬戶指示板,所以Datadog可以接受和處理OpenMetrics數據。

  3. 遵循Datadog文檔讓你Datadog代理啟動並運行。對於這個示例,使用DMG包安裝了一切包括選項launchctldatadog-agent

  4. 定位您的OpenMetrics配置。對於這個示例,配置在~ / .datadog-agent / conf.d / openmetrics.d / conf.yaml.default。下麵是一個示例配置yaml文件。

    實例:- - - - - -openmetrics_endpoint:https:// [DATABRICKS_HOST] . . / api / 2.0 / serving-endpoints / [ENDPOINT_NAME] /指標指標:- - - - - -cpu_usage_percentage:的名字:cpu_usage_percentage類型:- - - - - -mem_usage_percentage:的名字:mem_usage_percentage類型:- - - - - -provisioned_concurrent_requests_total:的名字:provisioned_concurrent_requests_total類型:- - - - - -request_4xx_count_total:的名字:request_4xx_count_total類型:- - - - - -request_5xx_count_total:的名字:request_5xx_count_total類型:- - - - - -request_count_total:的名字:request_count_total類型:- - - - - -request_latency_ms:的名字:request_latency_ms類型:柱狀圖tag_by_endpoint:send_distribution_buckets:真正的:授權:無記名(PAT)內容類型:應用程序/ openmetrics-text
  5. 開始datadog劑使用launchctl開始com.datadoghq.agent

  6. 每次你需要改變你的配置,您需要重新啟動代理拿起變化。

    launchctl com.datadoghq停止。代理launchctl開始com.datadoghq.agent
  7. 檢查代理健康datadog-agent健康

  8. 檢查代理狀態與datadog-agent狀態。您應該能夠看到一個響應如下。如果不是,調試和錯誤消息。潛在的問題可能是由於過期拍牌,或一個不正確的URL。

    openmetrics(2.2.2)- - - - - - - - - - - - - - - - - - -實例ID: openmetrics: xxxxxxxxxxxxxxxx(好吧]配置來源:文件:/ opt / datadog-agent / etc / conf.d / openmetrics.d / conf.yaml.default總運行:1標準樣品:最後的運行:2總:2事件:最後的運行:0總:0服務檢查:最後的運行:1總:1平均執行時間:274 ms最後一次執行日期:2022年09-2123:00:41 PDT /2022年09-2206:00:41 UTC(xxxxxxxx)最後成功執行日期:2022年09-2123:00:41 PDT /2022年09-2206:00:41 UTC(xxxxxxx)
  9. 代理從UI狀態也可以看出:http://127.0.0.1:5002

    如果你的代理完全啟動和運行,你可以回到你的導航Datadog儀表板查詢指標。您還可以創建一個監視器或警報基於指標數據:https://app.datadoghq.com/monitors/create/metric