不只是監控,拆解 AI 技術棧:深入理解 AI 運作機制,掌握每一次決策與行為
- 20小时前
- 讀畢需時 4 分鐘
文章撰寫:Jacky Cheng / 奧登產品經理
當企業開始大規模導入生成式 AI、AI Agent 與自動化流程時,IT 團隊面臨的挑戰已不再只是系統效能或伺服器運作是否正常。過去,企業透過監控日誌、追蹤應用程式效能以及分析系統事件,快速找出問題並維持服務穩定運作。然而,隨著 AI 開始參與企業決策與業務流程,企業需要觀察的對象也發生了根本性的改變。
Datadog 在近期分享的文章中指出,AI 正在重新定義可觀測性的價值,十年前,Datadog 專注於打破 Dev 與 Ops 的孤島;隨著雲端轉型,打造了全方位「可觀測性 (Observability)平台」,協助企業在安全、高效且符合成本的前提下規模化擴展。
如今,AI 浪潮引發了軟體運行思維的二度轉變。AI 不僅帶來全新型態的監控風險,更顛覆了數據處理與自動化運行的效率。為此,Datadog 從兩大維度全面佈局:一是在平台中導入 AI 驅動功能,二是構建量身定制的監控工具,通盤掌握 AI 技術棧 (AI Stack)。 同時也正大力投資研發AI 代理 (Agentic AI),推動整個產業邁向完全自動化的故障修復 (Autonomous Remediation)。
貫穿我們整個平台的「代理與嵌入式 AI」
Datadog 已經發展成為一個全面的解決方案,為每一層技術棧提供透明度:從網路、運算、儲存,到平台架構、應用邏輯以及用戶體驗 (UX)。現在,正進一步向前推進,幫助 DevOps 工程師滿足 AI 時代的需求。
全棧透明度與龐大數據庫:Datadog 已具備從網路、運算到用戶體驗 (UX) 的全技術棧透明度。利用每日數十億個數據點與現實世界的故障處理經驗,作為訓練與微調平台內嵌 AI 智慧體的獨特優勢。
核心產品Bits AI Agents 落地應用:推出三款 AI Agent – Bits AI SRE、Bits AI Dev Agent、Bits AI Security Analyst。能讀取環境中的遙測數據 (Telemetry) 驅動自主行動,扮演團隊夥伴角色,進行告警調查、程式碼掃描,並提供自動化修復流程。
Datadog MCP Server 工作流整合:支援模型上下文協定 (Model Context Protocol, MCP) 與編碼代理 (Coding Agents)。開發者可在使用 Codex、Claude Code、Cursor 等 AI 工具時,直接調用 Datadog 的遙測數據,加速自動化程式碼修改與除錯日誌分析。
時間序列基礎模型「Toto (Time Series Optimized Transformer for Observability)」底層技術:致力縮小非結構化數據 (文字、圖影) 與結構化數據 (時間序列指標) 的差距。推出頂尖的時間序列基礎模型 Toto,用以優化平台既有的 AI/ML、異常檢測與預測算法,並強力支援 Watchdog 與 Bits AI。

Datadog AI 可觀測性與安全性核心重點
應對 AI 系統的動態挑戰 (為什麼需要)
技術背景:AI 應用程式運行於動態的分布式系統中,其代理(Agents)與模型會不斷進行學習、演進與漂移 (Drift)。
團隊需求:團隊在開發、測試與生產環境中,皆需要生產環境規模的細粒度遙測數據,來確保系統的監控、保護與精煉。
五大客製化產品矩陣 (如何解決)
Datadog 基於傳統 APM、日誌、基礎設施與安全的優勢,推出覆蓋「基礎 GPU 優化」至「前端情緒評估」的端到端套件:
LLM Observability & LLM Experiments:支援實驗性評估、微調,以及提示詞(Prompts)與應用邏輯的快速迭代。
GPU Monitoring:優化底層基礎設施的效能與成本。
Sensitive Data Scanner & AI Guard:提供多層防護,抵禦越獄 (Jailbreaks)、工具濫用、數據外洩等 AI 安全威脅,確保合規性。
大規模運行 Agentic AI 的四大核心聚焦
工作流排查:解決生產環境中,涉及模型、提示詞評估及應用程式錯誤的複雜代理工作流程 (Agentic Workflows)。
快速迭代:透過實驗優化提示詞與邏輯。
成本優化:精準控管基礎設施的效能與花費。
主動防禦:建立防故障的保護機制,抵禦主要的 AI 安全風險。
市場領先地位與未來「自主修復」遠景
生態圈飛輪:客戶群涵蓋數十家高速發展的新創,以及 AI 領域 10 大巨頭中的 8 家,這讓 Datadog 擁有最前沿的規模與市場洞察。
終極戰略轉型:Datadog 的遠景是將 AI 可觀測性套件從「被動提供洞察的來源」,升級為「處理複雜事件的積極協作者」,最終邁向能自主執行修復、獨自運行業務的閉環系統。
Datadog 助力解決 AI 時代的複雜性
隨著我們邁向 AI 普及的時代,目前尚無法確定我們的數位世代很快會有多少部分將被自主管理。Datadog 正在擴展我們的平台以因應這一正規劃時代的轉變 (Paradigm Shift),並朝向一個由主動式維運和安全管理來協助系統保持流暢且安全運行的未來邁進。為構建這些創新需要龐大的投資,這也是為什麼Datadog將營收的 29% 投入於研發(R&D)計畫中 (例如產出 Toto 模型的 AI 研究實驗室)。
透過這種方式,Datadog 能夠兌現在過去十年領先可觀測性領域中,所獲得的無與倫比的數據、上下文和專業知識所帶來的承諾:
成為 AI 原生企業快速創新和規模化擴展的首選解決方案。
推動整個軟體產業邁向「零安全事件」(Zero-incident) 的未來。





留言