智能运维与自动化运维的区别是什么?

AI 技术在各个应用领域的落地及实践,IT 运维也将迎来一个智能化运维的新时代。算法的效率提升了 AIOps 的价值,通过持续学习,智能运维将把运维人员从纷繁复杂的告警和噪音中解放出来。

 

在现阶段,运维中的哪些痛点适合引入人工智能技术?如何加速落地?解决智能运维普世化的问题在数据、算法、算力、人才四方面。

 

如果成功的将机器学习应用到运维之中,还需要以下三个方面的支持:

数据。互联网应用本身具有海量的日志。需要做优化存储。 数据不够还需要自主生成。 标注的数据。日常运维工作会产生标注的数据。 比如出了一次事件后,运维工程师会记录下过程, 这个过程会反馈到系统之中, 反过来提升运维水平。运维工程师是智能运维系统的用户。 用户使用过程发现的问题可以对智能系统的优化起正向反馈作用。而我们的Opmanager可以自定义各种不同的报表,从而提供大量的基础数据。

 

我们大家都知道,在运维发展的过程中,最早出现的是手工运维;在大量的自动化脚本产生后,就有了自动化的运维;后来又出现了 DevOps 和智能运维。

 

在运维的过程中,涉及到的步骤可以概括为:产生海量的监测日志,进行分析决策,并通过自动化的脚本进行控制。

 

运维的发展过程,主要是分析决策步骤发生了变化:起初,由人工决策分析;后来,在采集数据的基础上,使用自动化的脚本进行决策分析;最后,用机器学习方法做决策分析。根据 Gartner Report,智能运维相关的技术产业处于上升期。OpManager作为其中的佼佼者,提供全面的网络监控功能,可帮助您监控网络性能,实时检测网络故障,及时排除故障以防止停机。作为一个功能强大的网络监视器,它支持多供应商IT环境,并且可以扩展以适应您的网络。OpManager全面可视化监控您的设备和网络,让您获得对整个网络基础架构的完全可见性和性能控制。

 

如果 AIOps 普遍部署之后会是什么样的呢?现在做运维的同学们会变成怎样?

 

从机器的角度,基础性、重复性的运维工作都交给计算机来做了;同时,机器通过机器学习算法为复杂的问题提供决策的建议,然后向运维专家学习解决复杂问题的思路。

 

从运维专家的角度,运维专家主要处理运维过程中的难题,同时基于机器建议给出决策和训练机器徒弟。

 

运维工程师将逐渐转型为大数据工程师,主要负责开发数据采集程序以及自动化执行脚本,负责搭建大数据基础架构,同时高效实现基于机器学习的算法。

 

机器学习科学家主要负责 AI 的落地应用,智能运维领域相对于其他 AI 应用领域的优势在于,我们不仅有大量的应用数据,而且有实际的应用场景和部署环境。

 

因此,人工智能在计算机视觉、自然语言理解、语音识别之外,又多了一个落地应用——这是一座尚未开采的金矿。

 

因为智能运维需要三方面的知识:

我们要熟悉应用的行业,比如互联网、电信或者相对传统的行业,如金融、电力等等。 我们要熟悉运维相关的场景,包括异常检测、故障预测、瓶颈分析、容量预测等。 虽然工业界熟悉运维行业和场景,熟悉生产实践中的挑战,也有数据。但是,工业界并不熟悉整个智能运维中最重要的部分——如何把实际问题转化为算法问题。因此,智能运维是一个需要三方面领域知识结合的高门槛领域。