AIops中的AI是什么?

在过去十年中,IT环境变得更加复杂,其中包括自动扩展公共云和私有云,支持IoT(物联网)的边缘计算基础架构,大规模数据库上的机器学习实验,新集成,频繁的应用程序部署,关键任务遗留系统以及高杠杆率的微服务。IT控制之外还存在许多变量,例如安全事件,不同的最终用户计算配置以及易变的应用程序使用模式。

如果您的工作是响应事件,解决应用程序问题,执行根本原因分析,诊断复杂的用户问题,验证操作风险,确定安全漏洞或预测计算成本,那么这是一个充满挑战的环境。

这就是AIops解决方案旨在提供帮助的地方。但是我仍然想更多地了解不同的解决方案如何实现数据清理,分析,机器学习和自动化,以简化IT并带来业务影响。

六家AIops解决方案提供商分享了一些答案,大致描绘了AIops为业务和IT解决的问题,解决方案中使用了哪种类型的机器学习算法以及它们的产品如何支持自动化。   

Devo提供实时操作和安全可见性

Devo的IT运营和可发现性高级总监Paco Huerta说,AIops应该帮助IT领先于最终用户问题。“ Devo中的AI在大规模的混合环境中提供了自动的,全面的上下文洞察,使操作员能够在最终用户受到影响之前查明问题的确切原因。”

IT部门承受着不断的压力,德沃(Dev)有助于筛查噪声,迅速找到问题的根本原因并评估风险。在Devo内部,各种各样的开源和专有ML算法都在工作,包括时间序列异常检测和用于开发和部署模型的ML工作台。Devo中的模型基于流,因此它们可以连续学习并快速适应。

Micro Focus旨在查找并修复IT操作问题

Micro Focus的AIops产品营销经理Michael Procopio表示,全栈式AIops可以帮助IT筛选庞大的数据集以查找和解决问题。“当今的IT环境所产生的数据量超出了人类的处理能力,而机器学习可以减少数百种警报或数百万个日志文件,从而减少了一些人类可以轻松处理的怀疑。数据减少使发现问题更快,而自动化是更快解决问题的关键。当将两者链接在一起时,我们可以将其称为全栈式AIop,从而可以在几乎没有人为干预的情况下提供从头到尾的解决方案。”

Micro Focus的AIops解决方案包括Operations Bridge,它收集了所有事件,指标和日志,包括来自200多种第三方工具和技术的系统补丁程序级别和合规性数据。然后,它与服务图,拓扑和依赖项数据相关联,以建立准确的业务服务模型。

该平台利用无监督的ML,包括聚类,回归,推理统计,自定义逻辑和季节性​​算法。它还利用操作员反馈来提高系统准确性并指导将来的操作。

Moogsoft增强了IT操作人员的认知能力

Moogsoft的首席技术官Will Cappelli强调,IT运营需要AI来跟上由开发人员驱动的变更的快速步伐。“现代IT系统表现出复杂的行为,并且它们的组件和连接拓扑在CI / CD [持续集成/持续开发]频繁部署的变化压力下不断变化。需要AI来理解自我描述性数据,包括日志,事件记录和现代IT系统生成的指标;预测问题和中断;并支持对AI技术所解释的信号所揭示问题的响应的执行。”

Moogsoft的AI依次执行多项功能。它从日志文件和其他操作系统聚集的噪声背景中选择高信息数据集。然后,它在那些高信息数据集中发现相关模式,并确定哪些相关是因果关系。最后,它有助于自动执行响应。

Moogsoft指出,AIops可以直接影响收入和品牌声誉。当智能响应是机器人时,它会缩短影响客户和员工的事件的MTTR(平均恢复时间)。

OpsRamp协助IT部门达到服务水平目标

OpsRamp事件管理和自动化的首席产品经理Neil Pearson指出,AIops中的自动化可以帮助IT更好地执行工作,这对业务有利。“ AIOps是包括ML,深度学习和机器人流程自动化(RPA)在内的各种AI技术的应用,可自动执行复杂,手动密集的重复性任务。它通常涉及从不同来源和不同格式提取大量数据。我们专注于检测异常,预测和防止从最初发现资源到解决问题的重复警报和事件。这是要使人们的工作水平明显提高,并帮助公司的业务发展得更好。”

OpsRamp从多个来源(如指标,日志,网络数据包和跟踪)中提取并处理大量数据集,以识别大海捞针中的问题所在。它使用深度学习和自然语言处理算法来消除杂音,并通过提出解决问题的建议并确保其不再重复来协助操作。OpsRamp帮助IT设计自动响应策略,从而减少手动干预,并根据业务影响确定问题的优先级。

解决方案助力敏捷的自主IT运营

Resolve首席执行官Vijay Kurkal相信,使用AI和自动化技术来解决问题与解决方案之间的循环,“自我修复的IT”可以成为现实。“ Aiops工具可以快速识别现有或潜在的性能问题,发现异常,查明问题的根本原因,甚至预测未来的问题以在业务受到影响之前触发主动修复。通过将AI的见解与自动化相结合,组织可以最大限度地利用这些技术的价值和潜力,并创建发现,分析,检测,预测和自动化的闭环,从而使组织更接近难以捉摸的自我修复IT。”

Resolve还可以自动发现应用程序和基础结构,生成丰富的拓扑图,并识别关键业务应用程序和基础结构之间的依赖关系。了解这些关系将使故障排除变得更加容易,并促进整体IT管理,从而为复杂的跨域环境提供一个统一的平台。可以将这些数据几乎实时地自动推送到CMDB(配置管理数据库),从而确保准确的库存信息并创建强大的ITSM(IT服务管理)基础。

Resolve Insights利用许多ML算法,包括异常检测,事件模式识别和预测算法。目标是通过改善关键应用程序和基础架构的性能,最大程度地延长正常运行时间并提供有助于优化工作的见解,从而提高总体客户和员工体验。

Splunk帮助IT管理复杂的操作环境

Splunk的首席技术倡导者安迪·曼恩(Andi Mann)还是一位备受推崇的开发者领袖,也是有关创新和IT运营的书籍的作者。他建议IT人员必须超越为支持单片应用程序而设计的传统操作模型,而应侧重于数据驱动,拥抱自动化以及致力于服务交付实践的模型。

“随着现代方法加速技术在全球24/7全天候电子市场中的采用和参与,现代系统的复杂性太高,人们无法有效地进行管理,而为遗留的整体而设计的’老式’IT运营技术也无法保持向上。只有采用数据驱动的方法,应用高级算法处理,机器学习,人工智能,响应自动化和工作流程编排(也称为AIops),服务交付团队才能应对这些新的复杂性。Splunk通过AIops解决了这些挑战,为ITops,可观察性和安全性提供了一种数据驱动的方法,以确保其业务以及客户的性能,可用性,功能,稳定性和影响力。”

Splunk采用“白盒”方法进行机器学习,并预先填充了30种算法,用于异常检测,分类,聚类,交叉验证,特征提取,预处理,回归和时间序列分析。它还具有来自scikit-learn,pandas,statsmodels,NumPy和SciPy库的300多种开源Python算法。

AIop对于所有IT团队而言都是一大进步

曼恩让我想起了我过去与IT运营团队合作维护Web应用程序的高可用性和性能的日子。当客户和员工的问题升级时,我们知道必须安装适当的系统和应用程序监视器。当出现重复事件类型时,我们开发了剧本和标准操作程序来解决它们。在可能的情况下,我们构建了脚本来重新启动Web服务器,清理数据库表空间以及从主存储系统归档旧文件。

当今的规模,复杂性和服务期望都要求IT部门加快这些学科的发展,而这正是AIops解决方案所要解决的问题。AIops平台可集中和清理操作数据,利用机器学习来查明不同的问题,并提供自动解决问题的框架。最终目标是提供更好的体验,减少工作量,并释放IT来从事影响业务的项目和创新。 

作者:艾萨克·萨科利克(InfoWorld)

本文为作者 大咖说 独立观点,并不代表 我是CIO 立场。

发表评论

登录后才能评论