作者:千山

跟着云原生架构开端落地实践,运用架构从单系统统逐渐转变为微服务,越来越多企业意识到可观测才能现已成为云原生的根底设施与必备才能。

那么,最近被一再提及的可观测性,相比监控、APM 等名词,差异在哪里?日前,51CTO 特邀阿里云资深技能专家周小帆,环绕可观测技能的演进等议题进行了采访。

为什么需求可观测性?它是云原生年代的必定产品吗?

可观测性不是一个新鲜的名词,云原生年代被再次提及是一个必定的结果。云原生架构所倡议的微服务、DevOps 形式,一起带来了功率、可用性的提高与复杂度的增加,而增强可观测性成了下降复杂度的仅有手段。传统监控手段仅仅能够做到问题被迫发现,而可观测性则要求不仅发现问题,更关于问题现象背面本质给出明晰说明。可观测性背面目标、日志、事件、链路数据,以及诊断东西的结合运用,为事前防备、事中处理、事后复盘供给了重要决策根据。可观测性是根底设施自动化的基石,优秀的可观测性是确保云原生红利高效释放的前提条件。

职业中经常会有“APM 已死,可观测已来”的论调,我不太认同。相反,我以为 APM 的产品形态现已是在传统监控根底之上做到了”第一波进化“,首次完成了可观测三大支柱(目标、链路、日志)在运用层彼此交融的最佳实践。

云原生年代的可观测,是将 APM 产品中的一些经典技能与理念,晋级、延伸、泛化至整个云的技能架构和组织,促进更严密的协同、掩盖更多场景、发挥更大价值。企业数字化转型让事务胜败与 IT 根底设施稳定性相关益发严密,事务在线化凸显了用户体会的重要性。正如其开展历史,可观测性不是一个新鲜概念,它原本就无处不在。而在云年代,跟着散落在遍地的可观测数据被不断联接,小到问题定位发现,安全危险辨认,大到大局本钱办理、稳定性办理甚至是事务增加,都依赖于可观测技能和数据,可观测性成为了度量企业 IT 办理水平的重要目标。

咱们今日希望能够得到的“可观测产品”,实际上大部分是在上一代 APM 产品根底之上的“第二波进化”,他们需求具有海量可观测数据的存算才能,以运用为中心,向上相关事务胜败与用户体会,向下掩盖根底设施与云服务监控,一站式满意除了 IT 稳定性以外的多种中心诉求。

关于可观测能力,阿里云的思考与实践

微服务下可观测面对的应战

微服务下的可观测才能建造有哪些难点?

系统的可观测与毛病根因剖析作为重要的运维场景,跟着系统架构、资源单位、资源获取方法、通信方法演进过程,遭遇巨大应战。而这些应战,也在倒逼着可观测相关技能开展,接下来咱们以微服务举例:

跟着 Spring Cloud 和 Dubbo 等常见微服务结构被广泛运用,微服务架构承受程度不断提高,由最初以机器为中心的云服务器 ECS 上云,到以容器为中心的容器化云原生部署;为了更加灵敏,开端以运用为中心的微服务化。在云原生下的微服务可观测首要面对三个应战:

  • 发现难:从云服务器 ECS 到容器 Kubernetes,微服务架构复杂度提高,观测对象复杂度提高,监测数据掩盖不全。
  • 定位难:跟着多种办理才能深入,可观测要求高,服务结构复杂度增加,技能门槛提高,数据本身复杂度提高,数据相关性差。
  • 协作差:跟着组织人物变化,可观测不只是运维工作。

除此之外,还有微服务配置混乱,不好整理;微服务运用上 Kubernetes 之后,出现线程池满,却找不到原因等一系列问题。因此,微服务可观测要处理在客户端输入恳求后,能感知其在各服务间进行收集、传输、处理、存储的状况,从而猜测、定位、处理系统运转过程中出现毛病的问题。而这些问题,阿里巴巴在本身建造可观测系统的过程中也都遭遇过。

阿里巴巴可观测技能探索之路

阿里内部是根据什么诉求开端构建可观测才能?经历过哪几次重要的迭代?

周小帆:作为最早进行云原生改造的互联网企业,阿里巴巴探索与实践可观测技能由来已久,并经历过以下几个阶段:

  • 第一代 – 一站式:脱胎于阿里巴巴「鹰眼」产品的运用实时监控服务 ARMS 诞生,为企业供给运用功能办理(APM)才能与前端监控、云拨测等数字化体会(DEM)才能;
  • 第二代 – 联接运用:与运用保管与办理产品无缝集成,掩盖观测、安全、事务稳定性等多个刚需场景。
  • 第三代 – 逾越一站式:1+1+1>3,让阿里云堆集的可观测技能、开源可观测事实规范、客户存量与自研的可观测数据财物做无缝交融,全面拥抱 Prometheus、Grafana、Opentelemetry 等开源规范,打造云原生年代完好可观测数据生态与产品套件—阿里云可观测套件。

第一代:脱胎于阿里巴巴「鹰眼」产品的运用实时监控服务 ARMS 诞生

要害词:从单体走向微服务,自下而上的爆发式增加

2013 年,跟着阿里巴巴事务快速开展,运用从单体走向微服务,微服务系统催生出去中心化组织架构,发生自下而上的爆发式增加,并快速向 DevOps 形式演进,工程师们以自助形式向根底软件寻找更多答案。也是从这个阶段开端,监控走向“可观测”的畅想已初备雏形。一致 PaaS 层快速催生一致可观测根底设施,但微服务下的可观测才能建造初期遇到以下两个难点:目标基数发散、微服务拆分过细、埋点精度不断上升等因素带来的“单笔买卖可观测本钱”的急剧上升;三代探针技能与管控系统演进带来的可观测数据来源质量问题,以及大规模探针管控与稳定性确保。

要害词:事务中台背面的数字化运营,引领自上而下的稳定性办理系统

与此一起,跟着事务中台诞生,为了更好的应对季节性电商大促、多变的事务形态,服务办理、混沌工程等产品诞生出来,碎片化的可观测才能逐渐被整合在一起,引领自上而下的稳定性办理系统,构建以事务 SLO 为中心的稳定性办理系统。

经过日志链路目标和诊断东西的整合,阿里巴巴内部 APM 产品的实用性得到大幅提高,被咱们所熟知的「鹰眼」雏形初现。观测才能和管控才能相交融:全链路灰度包括像全链路、灰度、全链路压测、混沌工程这样的复杂办理手段,包括像容量评价,微服务之间的强弱依赖评价这样的剖析场景,都充沛集成到现有可观测才能中。并在此阶段以运用为中心,以管控集成、范畴常识堆集为主,让数据在一些封闭场景内能够完成价值最大化。

2017 年,阿里巴巴将内部锻炼多年的监控东西对外服务,运用实时监控服务 ARMS 正式商业化。作为云原生一体化可观测性渠道,ARMS 供给全栈式功能监控和端到端全链路追寻诊断才能。一起,结合阿里云日志服务 SLS 的日志数据剖析才能以及云监控丰富的云服务与根底设施监控才能,用户能够轻松完成用户体会、运用服务、云产品、容器的一站式监控。

第二代:与运用保管与办理产品无缝集成,掩盖观测、安全、事务稳定性等多个刚需场景

伴跟着企业加速数字化转型步伐,导致 IT 系统更新频频,运用复杂度急剧升高。微服务、容器化等技能也逐渐在传统企业中鼓起,而云服务也成为企业大规模运营数字事务所必备的技能服务。以用户体会为中心的运用功能办理(APM)遭到广泛关注,并在协助企业完成数字化转型及智能化运维的道路上表现出巨大的价值。体会为王年代催生向上掩盖事务接连性,向下联接根底设施稳定性的一体化可观测产品形态。

为了进一步供给更加完善的产品才能,继 2017 年发布前端监控,2021 年阿里云推出云拨测产品。从用户端视点来观测系统可用性,为云上用户供给开箱即用的企业级被迫式及主动拨测式运用监测处理计划,为用户体会优化供给坚实、牢靠的可观测剖析东西。

第三代:让阿里云堆集的可观测技能、开源可观测事实规范、客户存量与自研的可观测数据财物做无缝交融

可观测需求在云原生年代的爆发式增加,以及根底设施的规范化,使得可观测开源、商业化项目不断涌现,国内可观测市场心智逐渐构成,Prometheus、Grafana、Opentelemetry 等可观测规范也逐渐构成。

也正根据此,阿里云接连推出 Prometheus 监控服务、Grafana 服务等可观测产品,并于 6 月推出阿里云可观测套件 ACOS,进一步整合阿里云相关可观测产品与场景,协助企业供给更丰富、更完好的可观测才能,搭档大幅节约树立可观测系统的资源和运维开支。

关于可观测能力,阿里云的思考与实践

目前运用阿里云可观测产品套件的详细落地场景有哪些?

周小帆:得益于云原生开源生态蓬勃开展,工程师能够轻而易举地建造一套监控系统,比方运用 Prometheus+Grafana 树立根底监控,或运用 SkyWalking 或 Jaeger 树立追寻系统,亦或运用 ELK 或 Loki 树立日志系统。可观测技能百花齐放,导致目前面对最大问题不在于功能缺失,而在于数据的分裂。对运维团队而言,不同类型可观测数据涣散存储在不同后端,排查问题仍需在多系统之间跳转,功率得不到确保。

今日的客户,不得不在商业化可观测产品、开源自建与存量的可观测财物之间做出艰难挑选。

处理这种分裂的方法有两种,一种方法是打造全自研的一站式可观测产品,替换客户现有计划。但历史实践告诉咱们,一站式的计划往往会构成另一座数据孤岛。

因此,咱们走了另一条道路:向下,供给规范化数据接口,整合阿里云上碎片化的可观测产品,并做到能够联接客户存量的可观测数据财物;向上,供给可自在定制的产品界面,协助客户构成自己独有的、1+1+1>3、无厂商确定的可观测处理计划。阿里云可观测套件,从可观测系统设计视角,全面满意企业不同观测场景:

  • 针关于根底设施层

Prometheus监控服务对包括云服务器ECS、容器Kubernetes、VPC在内的各类云服务以及消息队列等三方中间件进行观测。并与各种云服务快速联动,敏捷进行扩缩容或负载均衡,从而更快的处理问题。

  • 针对运用层

根据阿里云自研Java探针的运用监控全面满意运用监控需求。相较于开源东西,在数据质量、探针功能、剖析才能等方面具有大幅强化。即使运用开源SDK或探针,也能够经过Opentelemetry将数据上报到运用监控渠道。

  • 针对用户体会层

经过移动监控、前端监控、云拨测等模块,全面掩盖用户在不同终端上的体会与功能。

  • 一致告警与办理

关于各层收集的数据、告警信息进行一致告警以及根因剖析,直接经过Insight出现发现结果。并集成钉钉、企业微信等协作渠道更加高效地进行问题发现并处理跟踪。

  • 一致界面

不管是运用实时监控服务ARMS、Prometheus监控的上报数据,仍是日志服务、Elasticsearch、MongoDB等各种数据源,都能够经过全保管Grafana服务进行一致的数据可观测数据出现,树立一致的监控大盘。

阿里云对可观测的考虑

阿里云可观测产品相较市场上的同类产品,创始性和差异化优势在哪里?

Gartner 曾猜测,2023 年全球可观测市场规模估计将到达 164.94 亿美元。2024 年将有 30% 企业会经过可观测技能来提高数字化事务运转功能。热潮之下,不管是老牌厂商、初创公司都在可观测范畴迸发出微弱的产品才能。相较市场上的同类产品,阿里云也有着自己考虑与差异化优势。与众多第三方服务或开源自建计划不同,阿里云可观测套件完成多层次联接,全面打破数据孤岛,发掘数据背面的事务价值。

第一,向上构成兼容开源规范的一致观测界面

与运用实时监控服务 ARMS 的运用层监控(APM)、前端体会监控(RUM)、根据 eBPF 技能的 K8s 监控、云监控等阿里云自研可观测产品双向联接,将可观测数据与剖析才能以开放规范(PromQL)、一致开放界面(Grafana)的形式供给给用户,便于用户的再集成与二次加工。ARMS 也全面支持 OpenTelemetry SDK 进行自定义埋点的增强。

第二,向下联接阿里云可观测数据存储类产品

一致比如日志服务 SLS、Elasticsearch 服务等可观测数据存储,以及散落在异构数据存储设施中(如 Clickhouse、Lindorm、RDS)的可观测数据,完成可观测数据源办理与异构数据间无缝探索。

第三,横向联接阿里云一切运用管控产品与中间件产品

阿里云一切运用管控(Serverless 运用引擎 SAE、容器服务 ACK、函数核算 FC、企业级分布式运用服务 EDAS 等)与中间件产品全面拥抱开源可观测规范,并与可观测套件进行联接。目前,已有超越 50 款阿里如此服务经过 Prometheus 规范进行观测。

第四、全面拥抱开源

阿里云作为国内可观测范畴的引领者,活跃拥抱开源生态,供给 Prometheus 监控服务、Grafana 服务、兼容 OpenTelemetry、Skywalking 等干流开源协议的链路追寻服务,共同构成新一代阿里云可观测套件。运用规范化技能向下联接存量、碎片化可观测数据,向上协助客户构成自己独有、无厂商确定的可观测处理计划,完成真正的客户成功。

第五、打造可观测数据生态

自 2017 年与 Elastic 公司协作打造 Elasticserach 服务后,阿里云先后与 Grafana Labs、博睿数据、谐云、袋鼠云等企业达到战略协作,与阿里云自研可观测系统无缝集成,把引领业界规范的优秀产品与技能服务带给阿里云的海量客户,供给更丰富、优质、低门槛的可观测服务与才能。

能否结合详细用户案例关于阿里云可观测产品的部署和实践作用予以阐明

以 2022 年北京冬奥会举例,作为历史上第一届中心系统全面上云的奥运会。依托阿里云的政务云与公有云的 40 多款产品与服务,完成冬奥会官方 App 冬奥通、新闻发布会系统、竞赛记时记分系统、运动员谈论系统等 30+运用全面上云。为了对云上资源进行多维度收集与观测,满意北京冬奥会赛事期间现场值班人员对云上资源全体运转危险的提早预知,以及毛病时快速定位、诊断问题需求。阿里云根据冬奥组委事务特色,从三个层次对观测目标进行选取:

  • 运用层监控

服务每秒接纳的恳求数、每个恳求的耗时、失败的恳求数等运用层技能参数。

  • 根底资源监控

云服务器 ECS CPU 利用率、内存利用率、磁盘空间,POD CPU 利用率、内存利用率、磁盘空间,RDS CPU 运用率、内存运用率、IOPS 运用率、磁盘空间,Redis CPU 运用率、内存运用率, CSG 前端读写速率、同享缓存运用率、用户态空间运用率、Trottling 状况。

  • 网络层监控

带宽状况、活跃联接数、限速丢包率、专线健康检查丢包率等中心网络参数。

根据以上需求,冬奥组委挑选阿里云可观测套件来构建整个可观测系统。北京冬奥组委事务系统分为出产环境和测验环境,要点对出产环境进行监控。在构建信息系统全体监控大盘时,首要根据 Tag 编写 PromSQL 语法提取出出产环境的资源;一起考虑到 ECS、RDS、Redis、SLB 等资源数量许多,再要点对 TOP 10 资源运用状况进行观测以便更好的发现危险,提高服务的可用性。一起,关于北京冬奥会赛事运转期间重要的事务系统,像成绩系统、谈论员说明系统等每个要害信息系统都构建独自 Grafana 监控大盘。对 SLB 流量、QPS 运用率、HTTP 恳求不同返回状况码要点监控。

由于冬奥通后台运用为 Java 系微服务架构,且包括近千个 Kubernetes Deployment 运用实例,为了更好对容器服务集群及其上面运转的运用进行一体化监控,冬奥组委根据运用实时监控服务 ARMS 的 Prometheus 构建容器集群监控大盘。在同一张大盘上看到多个数据源,包括集群事件日志、根据 eBPF 无侵入式的运用目标、网络目标等。冬奥组委经过一张大盘的相关剖析逻辑,从总览到细节,经过多数据源、多视点的可观测才能进行不同维度的排查。

关于可观测能力,阿里云的思考与实践

根据阿里云可观测套件,冬奥组委在最短时间内快速树立一套完好的可观测系统,为奥林匹克世界官网、奥林匹克频道 OCS、奥林匹克播送服务公司 OBS 等,涵盖竞赛场馆票务、新闻发布会系统、冬奥会官方 App 冬奥通、播送数据推送、自动化媒体标注、世界实时信号转播、数据仓库、人员抵离 ADS、网约车出行 RHP 等众多事务场景保驾护航,确保北京冬奥会顺利举办。

在历经全球级项目大考之外,阿里云可观测产品矩阵凭仗其完备的功能、良好的生态集成才能以及超卓的本钱优势,收获了职业的认可。阿里云运用实时监控服务 ARMS 在今年获得了中国信通院的可观测产品先进级认证,阿里云接连两年进入 Gartner APM 与可观测魔力象限,今年更是成为了仅有当选的中国企业。在 Forrester 的容器、Serverless 产品才能评测中,可观测相关的产品才能分数也得到了满分认证。

可观测范畴七大技能与运用趋势

可观测才能将来有规范化的或许吗?从监控到可观测性,运维转型的全体趋向出现什么样的态势?

在可预见的未来,可观测范畴将构成必定意义的规范化。各大厂商、开源项目都在推动规范的一致。首要是目标,Prometheus 作为云原生年代目标数据规范现已构成共识;链路规范也跟着 OpenTracing 和 OpenTelemetry 的推广而逐渐占有干流;在日志范畴,虽然其数据结构化程度较低难以构成数据规范,但收集存储剖析侧涌现出 Fluentd、Loki 等开源新秀;另一方面,Grafana 作为可观测数据展示规范也更加明亮。但规范虽然一致,但咱们也要看到根据一致规范的开源撕裂程度比想象得更为惨烈。

一起,在规范化之外,咱们看到可观测范畴可预见的七大技能与运用趋势:

  • 构建以运用为中心的观测视角:以运用为单位相关目标、链路与日志。利用逐渐老练的 eBPF 探针技能快速完成大局运用可观测,无侵入运用探针为主 + OpenTelemetry 为辅完成代码级可观测才能。

  • 聚焦事务胜败与用户体会:精准度量用户体会,相关事务胜败。前后端可观测数据打通,完成事务全链路快速问题定位。

  • 联接运用管控链路:与运维改变管控系统严密联接,完成监-管-控一体化才能。交融安全办理与可观测技能,全面下降 IT 危险。集成混沌工程、功能测验,数据驱动稳定性办理常态化。

  • 打破部门墙,树立高效协同机制:建造以 SLO 驱动的应急响应系统,引入 ChatOps 机制,完成去中心化协同。凭借数据标签系统快速构建团队及个人可观测视图。

  • 规范化目标监测系统建造:环绕 Prometheus 生态构建新一代可观测根底设施,拥抱分布式云架构,建造大局目标监控系统。聚焦目标质量而非数量,继续办理监控系统的有效性。

  • 一致可观测界面:“Unify your data, not your database”,借力 Grafana 可视化系统完成异构存储的一致出现。

展望未来,阿里云以为“观测力”将成为云核算年代每个工程师的中心竞争力。阿里云上越来越多云服务经过干流开源规范将本身运转状况充沛白盒化,更好地被云服务运用者集成。工程师们将逐渐采纳 Monitoring as code 的方法,完成可观测左移。相比以往,可观测才能构建将成为编写事务逻辑与施行运维自动化的要害环节。

作为办理者,经过可观测技能辅佐研发运维的效能办理、IT 本钱剖析将逐渐成为必备技能;一起办理者也会逐渐借力可观测数据,数字化驱动团队成员之间的协作与交流,以及用于辨认企业安全危险。

万物皆可云的年代,可观测性让云变得更易用。可观测的巨大价值正在逐渐兑现,咱们从监控走进可观测,但不仅仅止步于观测,剖析、洞悉并完成高质量的决策与事务立异才是观测的终究意图,阿里云也将不断供给这个范畴优质的产品与服务。

嘉宾介绍:阿里云资深技能专家,目前上任于阿里如此原生运用渠道,负责阿里集团 APM 系统鹰眼(EagleEye)与阿里云运用实时监控服务(ARMS)等技能产品。在可观测相关范畴有超越九年的实战经历,在分布式链路追寻、日志处理渠道和监控告警系统的建造与运用有丰富经历。其他技能相关的经历包括微服务办理、分布式数据处理、运用 PaaS 等。