作者:来自 ElasticFelix Roessel
办理和相关 Elastic Observability 中的信号和警报
随着组织选用日益复杂和互连的 IT 体系,各种监控东西生成的很多警报带来了严峻的应战 – 咱们怎么有效地筛选噪音以辨认和呼应最要害的问题?
事情办理和相关是 IT 服务办理领域两个不可或缺的支柱。 本技能博客深化探讨了为什么这些实践在保护数字基础设施和服务的健康、安全和功用方面不只是可取的,而且是至关重要的。 它还剖析了生成式人工智能怎么支撑这一学科。
驾御警报海洋:现代 IT 监控的应战
现代 IT 生态体系会生成源源不断的警报,每个警报都标明体系内存在潜在问题或异常情况。 从功用目标到安全事情,这些警报的多样性乃至或许让最熟练的 IT 团队不知所措。 因而,要害问题或许会被淹没在噪音中,导致呼应推迟、停机时刻增加,并对整个基础设施发生潜在的多米诺骨牌效应。
事情办理:让混乱变得有序
事情办理作为第一道防线介入。 此实践触及对来自各种监控源的警报进行体系收集、剖析和分类。 IT 专业人员能够获得警报环境的结构化视图,而不是淹没在一望无垠的通知海洋中。 这使他们能够从噪音中区分出要害信号,并将注意力会集在更高价值的活动上。
事情相关:揭示更大的图景
可是,当看似不同的事情实际上是一个更大的谜题的各个部分时,会发生什么呢? 这便是相关性占据中心舞台的当地。 相关性经过辨认不同事情之间的联络和依靠联络,供给对底子问题的全体了解。 这不只仅是对个别警报做出反应; 这是关于了解它们怎么互连并影响整个体系。
主动优势:经过事情办理和相关进行猜测洞察
除了单纯的事情呼应之外,事情办理和相关还供给了主动优势。 剖析历史数据的形式和趋势使 IT 团队能够在潜在问题升级为要害问题之前对其进行猜测。 这种猜测才能能够最大极限地减少停机时刻并进步体系的全体可靠性。
主动化:加快和增强呼应
在咱们了解事情办理和相关的复杂性的过程中,咱们将探究主动化的要害作用。 Elastic 等智能东西能够主动剖析、相关事情并确认事情优先级,然后缩短均匀处理时刻 (MTTR),并释放宝贵的人力资源来履行更具战略性的使命。
加入咱们,咱们将了解事情办理和相关的各个层次,检查它们的技能细微差别和实际运用。 从高效的事情检测到全面的问题处理,这些实践不只仅是办理警报,还在于增强 IT 基础设施面对现代应战的弹性和功用。
事情办理的层次
为了处理事情办理的复杂性,了解数据在整个过程中怎么演化及其在办理和相关事情中的作用至关重要。
首先,咱们从多个来历收集数据,Elastic 凭借其集成新数据流的强壮功用擅长处理这项使命。 抱负情况下,这些数据集之间应该存在一些共性,例如,一个事情(例如 CPU 运用率过高)怎么与另一个数据集相关(或许是经过推迟呼应时刻)。 这种重叠使咱们能够建立因果联络 —— 高 CPU 运用率或许是运用程序功用下降的元凶巨恶。
接下来,咱们运用 Elastic 将这种精密的监控数据转换为可操作的警报,例如针对特定运用程序呼应时刻异常长或特定容器或虚拟机中 CPU 负载过高的通知。 最初,每个警报都是独立运行的。
事情办理和相关的下一阶段是为这些孤立的警报供给额定的上下文,企图发现它们之间的任何互连。 方针是使体系能够对或许源自类似来历的警报进行分组。 这项要害使命是在事情层处理的,咱们选用弹性事例办理将相关警报兼并到单个事例中,然后阐明潜在的相关性。
最后,在事情层,咱们界说事情升级为事情状况的条件。 这触及到考虑各种因素,例如方案的保护周期。 例如,假如警报对应于方案体系停机的时刻段,咱们或许会忽略该事情。 这种洞察力确保将资源有效分配给真正值得关注的事情。
Elastic 是一款全面的处理方案,擅长办理每一层警报办理,并具有一套专为支撑整个范围而定制的功用。 在无缝操作中,某些功用使流程完全主动化。
以 Elastic 为例,它能够生成与特定服务或目标相关的一切或许的警报。 毫无疑问,这是一个强壮的功用。 此外,凭借其分布式盯梢功用,Elastic 能够了解 APM 监控的服务之间的互连情况。
有关服务依靠联络的知识十分宝贵,Elastic 充分运用了它。 它运用这些数据,运用其图形功用将其与其他相关信息相结合,以实现复杂的相关性剖析。此外,Elastic 能够生成警报,并在事情或 Kibana 事例级别有效监控和办理这些警报。 这确保了警报的简化处理,将它们与更广泛的事情形式和整体事例办理框架联络起来,然后促进对整个事情办理管道的全面监督。
这一切是怎么一起发挥作用的?
然而,根据依靠性数据有效地将相关警报与其各自的事例进行匹配和更新需求一层主动化逻辑。 在 Elastic Stack 中,这种主动化是由 Watcher 精心组织的。 作为中心控制器,Watcher 和谐信息的整理,使其与咱们预界说的标准坚持共同。 当然,这项作业也能够经过在 Elastic 旁边运行并运用其 API 的 Python 脚本来完结。
图形(graph)API 在可视化衔接方面的强壮功用在其表示依靠联络的方式中清楚明了。 例如,考虑一个封装 APM 服务之间依靠联络的可视化图表。 GraphAPI 汇集这些数据,将每个警报与其所属的服务相相关,并直观地反映这些联络。 在图中,与特定服务相关的警报被链接起来,构成一个集群。 假如元素之间没有视觉联络,则意味着受监控生态体系内的警报之间缺乏依靠性。
当 Elastic 不只监控单个运用程序或服务,而且监控很多运用程序或服务时,这一点变得越来越重要。 直观地解析和了解这些依靠联络的才能使团队能够洞察在体系范围内办理和呼应警报,确保在整个运用程序环境中选用共同的办法进行警报办理。
这种集成终究将相关警报聚合到 Kibana 事例办理体系中的单个事例中。 由于这些警报与事例相相关,因而咱们经过封装每个警报的主要具体信息的注释来增强事例。 此评论充当概要,供给对事例框架内警报核心信息的具体而简洁的了解。
根据人工智能的主动办理事例的生成剖析
一旦将一切相关警报兼并到事例中,咱们就具有了丰厚的数据集,能够进行更深化的剖析。 该事例或许包括各种警报,每个警报看似不同。 此时此刻的要害使命是确认这些警报的底子原因 – 查明其他警报发生的主要问题。 凭直觉,人们或许会尝试确认第一个警报。 鉴于警报规则按不同的时刻表运行并以不同的时刻间隔触发,这种办法或许并不总是能发生准确的成果。
因而,咱们需求的是一种精炼的情报形式,能够区分哪个警报最有或许代表问题的本源。 这种才能能够辨认形式和概率,以便进行更直接的剖析。
这便是生成式人工智能成为强壮盟友的当地。 它代表了这种场景的典型处理方案,凭借 Elastic 的可观察性 AI 帮手,咱们具有了一个可供运用的高档东西。 该帮手选用生成式人工智能来筛选警报群,评价复杂性,并高精度地推断出底子原因,将一项艰巨的使命转变为易于办理的使命。 这能够协助用户更快地将信息置于上下文中,协助他们找到底子原因、处理问题并继续处理下一组警报。
让咱们揭开人工智能帮手怎么简化问题处理的神秘面纱。 将其幻想为一名数字侦察,具有 Elasticsearch 数据库中每个房间的钥匙,能够拜访任何数据。 可是,出于安全原因,能够经过 Elastic 的不同数据拜访级别来定制其拜访权限。
除了单纯的数据检索之外,帮手还具有一个知识库,其中能够包括手册或参考攻略或仅包括有关观察到的服务的文档。 该知识库指导帮手的呼应,协助其确认处理用户查询的最佳办法。 它评价是否存在能够为其剖析供给信息的现有攻略或值得纪念的办法。
该知识库不只仅是一个静态存储库;它是动态的。 它能够手动更新,也能够经过典型的 Elasticsearch 数据源(例如 Wiki、GitHub 或事情办理体系)主动更新。
一方面,帮手随时准备自主地搜索 Elasticsearch 内的全部可观测数据。 另一方面,咱们有一个充满高档问题数据巴望剖析的事例。 将数据和帮手这两者整合到一个单一的作业流程中,使可观测性工程师能够更快地追寻问题的底子原因,并尽力有效地最小化 MTTR。 那么,让咱们把这个方案付诸举动吧!
检查事例中的片段,你会注意到帮手怎么主动掌握事例的当时状况并生成发现概要。 在这种情况下,这种才能对于剖析警报十分有协助。 虽然警报或许模糊地标明过错日志激增,但帮手供给了要害的上下文。 这种丰厚的洞察力敏捷引导咱们更接近底子原因,或为咱们供给足够的信息来敏捷确认处理案件的后续步骤。
超越噪音:战胜警觉疲劳
为了归纳本博客关于警报办理艺术的概念,让咱们回忆一下该过程中的要害步骤。 这一切都始于 Kibana 生成警报,每个警报都固有地与特定服务、主机或其他基础设施相相关。 经过剖析错综复杂的数据衔接网络,咱们发现了依靠联络,进而协助咱们拟定全面的事例。 随着每个警报生命周期的开展(无论是已处理还是正在进行),此状况会反映在其相关事例中。 一旦一切相关的警报都被清除,事例乃至或许会主动封闭。
当活动事例包括特定标签(例如 NeedAIAssistance、NeedTeam 或 NeedSeverity)时,咱们的帮手会采纳举动来推进定制举动。 根据存在的标签,Assistant 会动态地与 Elastic 内的数据进行交互,查阅知识库并根据需求运用不同的提示来为其剖析供给信息。
经过选用这种模型,咱们在毛病办理实践中实现了高度主动化和可重复性,并为用户坚持了显着的灵活性。
让咱们在一张幻灯片上画出整个想法。 咱们现已了解了什么是事情办理和相关,而且 Elastic 能够经过其内置功用协助遍历各层中或许呈现的问题。 咱们还了解到,帮手能够总结单个事例的信息,并在无需人工交互的情况下供给深化的见解。 乃至能够运用 LLMs 的整体知识来分配事例并确认正确的严峻程度。
综上所述,咱们能够看到,Elastic 能够充分准备事情工单,以尽或许减少 MTTR。 随着人工智能帮手的开展,咱们乃至能够在任何人发现问题之前履行补救步骤。
要在警报办理例程中体验这种创新办法,请探究 Kibana 和 Elastic AI Assistant for Observability 怎么彻底改变你的作业流程。 与咱们联络,引导你的运营走向更智能、高效、无疲劳的毛病办理。
运用 Elastic AI Assistant for Observability 检查生成式 AI 的用例。
本文中描述的任何特性或功用的发布和时刻组织均由 Elastic 自行决定。 当时不可用的任何特性或功用或许无法按时交付或底子无法交付。
在这篇博文中,咱们或许运用或引用了第三方生成人工智能东西,这些东西由其各自一切者具有和运营。 Elastic 对第三方东西没有任何控制权,咱们对其内容、操作或运用不承当任何责任,也不对你运用此类东西或许发生的任何丢失或损害负责。 运用人工智能东西处理个人、灵敏或机密信息时请必须谨慎。 你提交的任何数据都或许用于人工智能培训或其他目的。 无法确保你供给的信息将得到安全或保密。 在运用之前,你应该了解任何生成式人工智能东西的隐私常规和运用条款。
Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标记是 Elasticsearch N.V. 在美国和其他国家/区域的商标、徽标或注册商标。 一切其他公司和产品名称均为其各自一切者的商标、徽标或注册商标。