在 2025 年亞馬遜云科技中國峰會上,觀測云技術總監(jiān)黃小龍帶來了主題為《下一代智能可觀測性平臺技術實踐》的重磅分享。會后,我們邀請他就平臺背后的理念、技術演進路徑及產(chǎn)品規(guī)劃進行了深入交流。
Q1:您在演講中提到“煙囪式”監(jiān)控體系的問題,能具體談談行業(yè)目前面臨的主要挑戰(zhàn)嗎?
黃小龍:在過去幾年中,很多企業(yè)在構建監(jiān)控體系時采取了“煙囪式”方法,也就是一個系統(tǒng)一個工具、一個團隊一套方案。短期內(nèi)看似靈活高效,長期卻帶來了巨大的協(xié)同成本和數(shù)據(jù)割裂問題。比如同一個告警事件可能要在多個平臺之間跳轉,日志、指標、鏈路、事件之間無法關聯(lián),定位問題效率極低。
我們認為,這種割裂式的技術體系已經(jīng)無法支撐 AI 時代對實時性、智能性和協(xié)同能力的更高要求。于是我們提出了“智能一體化可觀測性平臺”的方向,用統(tǒng)一的數(shù)據(jù)基礎、統(tǒng)一的查詢語言、統(tǒng)一的分析入口,去替代冗余工具堆疊,讓工程師關注問題本身,而不是工具之間的鴻溝。
Q2:這次演講提到了很多“平臺底層”的演進,比如 GuanceDB 3.0,能否展開說說背后的技術邏輯?
黃小龍:可觀測性平臺的核心其實是“數(shù)據(jù)系統(tǒng)”。為了支撐多源異構、超大規(guī)模的監(jiān)控數(shù)據(jù)分析,我們打造了 GuanceDB 3.0,整個數(shù)據(jù)庫底層基于 S3 架構,采用存儲與計算分離的設計。這帶來了更好的性能,也更適配公有云環(huán)境。
與此同時,我們也推出了“流式聚合引擎”,它可以在數(shù)據(jù)寫入時根據(jù)用戶歷史查詢行為自動預聚合數(shù)據(jù),極大地加速儀表板與查詢響應。你可以理解為:用戶看到圖表的時候,不是再從原始數(shù)據(jù)“現(xiàn)拉”,而是從系統(tǒng)提前準備好的“熱數(shù)據(jù)倉”中直接讀取。
Q3:AI 能力是大家非常關注的話題,觀測云在這方面有哪些新進展?
黃小龍:AI 不應該只是“炫技”,而是深入產(chǎn)品的每個操作細節(jié)。我們構建了智能體 Obsy AI,有幾大亮點:
· AI 智能助手:以自然語言交互的方式,幫助用戶更輕松理解數(shù)據(jù)。
· AI 智能分析:用于儀表板中的趨勢識別、異常推理。
· AI 告警分析:將告警背后的上下文(鏈路、日志、變更等)自動關聯(lián),給出定位建議。
我們的目標不是簡單回答“發(fā)生了什么”,而是幫助用戶回答“為什么發(fā)生”“影響了什么”“接下來該怎么處理”。
Q4:除了常規(guī)的監(jiān)控能力,你們還提到了 SIEM 安全事件分析,這屬于擴展方向嗎?
黃小龍:對,但也是我們認為“可觀測性平臺的自然邊界”。我們在平臺中引入了安全事件分析能力,并構建了專用引擎 Arbiter,它具備三個特點:
· 可編程(用戶可自定義規(guī)則);
· 可引用全量觀測數(shù)據(jù)(包括指標、日志、鏈路等);
· 與常規(guī)監(jiān)控解耦,不影響主業(yè)務性能。
我們的目標是讓同一個平臺,不僅能看清系統(tǒng)穩(wěn)定性,也能快速洞察潛在的安全風險,實現(xiàn)監(jiān)控與安全的融合。未來還將提供更多的內(nèi)置檢測模板與外部事件接入能力。
Q5:最后,能否簡單總結一下觀測云在亞馬遜云科技生態(tài)里的技術定位?
黃小龍:我們從 Day One 就基于亞馬遜云科技生態(tài)構建產(chǎn)品架構。包括:
· 存儲層完全托管在 Amazon S3;
· 彈性計算資源調(diào)度基于 EKS;
· 智能體由 Amazon Bedrock 提供大模型能力;
· 全球客戶可通過亞馬遜云科技 Marketplace 快速使用觀測云。
這意味著客戶能在全球范圍內(nèi)更輕松使用我們的平臺,同時享受云原生帶來的高可用、低運維、強彈性等優(yōu)勢。未來我們也會繼續(xù)與亞馬遜云科技深度合作,構建智能時代的監(jiān)控觀測平臺。
智能一體化、全棧可觀測、安全分析能力,正在觀測云平臺上逐一落地。正如黃小龍所說,“讓數(shù)據(jù)‘看見’,也讓決策變得可見”,可觀測性不僅是運維的工具,更是企業(yè)智能化的根基。
關鍵詞: