现代软件系统会产生海量的运营数据,包括日志、追踪、指标及事件,这些数据跨越多个应用程序层、平台层和基础设施层。AIOps(智能运维)旨在将这一持续的数据转化为业务洞察,助力团队更快检测、修复问题,减少停机时间,保障系统平稳运行。

但有一个基本问题往往被忽视:我们真的了解自己输入到这些系统中的数据吗?

在许多情况下,AIOps效果不佳甚至失灵,根源并非AI本身,而是底层数据不可靠、不完整或难以被准确理解。这时,数据可观测性就显得非常重要了。

图片

一、AIOps中,数据可观测性是什么?

广义上,数据可观测性指的是了解数据在系统传输过程中的状态和行为。落地到AIOps场景,它能解答关于数据的一系列实际问题:

  • 数据是否按时抵达系统?
  • 是否存在数据缺失情况?
  • 数据结构是否发生变化?
  • 数据能否真实反映系统实际运行状态?

需要注意的是,数据可观测性极易与传统可观测性混淆。传统可观测性侧重通过延迟、错误率、可用性等指标来衡量系统性能,而数据可观测性则聚焦描述这些系统的数据本身。它把数据视作一种需要持续监控的数据资产,而不仅仅是在发生问题时才进行存储和查询的数据。

二、为什么数据的可靠性至关重要?

AIOps是通过分析历史数据模式来运作的。一旦数据不准确或不完整,那么这些模式就会失去参考价值,进而导致警报、异常检测以及自动化建议的可靠性下降。久而久之,团队会逐渐失去对AIOps的信任。

举个典型场景:某服务在部署完成后就不再输出某些日志。仅从数据来看,系统仍处于健康状态,但用于支持AIOps的数据已无法反映完整业务链路,最终引发告警杂乱、错过重要警告、根因分析延迟等问题。

出现这类问题时,各团队往往会把责任归咎于人工智能,实则问题根源早在数据层面就已埋下。

三、数据需重点观测的核心维度

落地数据可观测性无需搭建过于复杂的框架,建议从数据的四大基础特征入手。

  • 时效性:延迟抵达的数据会干扰实时分析,且在系统快速变化的情况下,即使是微小的延迟也会产生影响。
  • 结构:数据的格式会随着应用程序的发展而演变。开发人员会新增、重命名或删减数据字段。若这类结构变更未被及时感知,会导致下游监控故障。
  • 数量和独特性:日志、指标数量骤降或异常激增往往是工具问题,而非系统真实运行状态变化。若团队只关注性能指标,就很容易忽略这些信号。
  • 数据的分布情况:数据通常会呈现稳定的分布规律,一旦规律突变,需深入溯源:是系统的运行方式发生了变化?还是数据采集的方式有了改变?当数据的分布发生变化,需重新训练现有的机器学习模型,避免出现模型偏差。

四、提升AIOps数据可观测性的最佳实践

提升数据可观测性并不需要彻底的改革,通过落地精细化、常态化的基础规范,即可大幅提升数据的可解读性与可信度,为AIOps高效运转提供保障。

图片

  • 统一数据规范。对服务、运行环境、组件采用清晰统一的命名方式,便于更轻松地理解各种数据。让日志、指标、追踪使用相同的标识符,各种数据之间的关联关系也就更易于理解。
  • 监控处理流程。及时发现数据接入失败、数据在传输过程中丢失等问题,避免将数据异常误判为系统故障。
  • 设定基准标准。明确正常运行状态下数据的基准,当数据出现偏离基准的异常时,可快速识别、溯源问题根源,及时完成优化调整。
  • 重视数据变化。即便未收到用户故障反馈,数据发生变动也需重点关注。随着推理技术的不断发展,通过理解这些信号背后的上下文,可精准识别系统中出现的语义变化。

综上,AIOps的高效落地,离不开高质量数据的支撑,唯有将数据视作核心资产,实现数据可观测性,AIOps才能发挥最佳效果。

对于企业而言,若想高效落地AIOps数据可观测性,可借助专业解决方案实现。我们依托自身技术积累,结合前文提到的四大观测维度与最佳实践,为企业提供数据全维度监测、专业化治理服务,助力AIOps高效稳定落地,真正将技术价值转化为实际业务价值。欢迎私信!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐