聊聊D-SMARTV2.2新功能

D-SMART V2.2近期发布了,社区版目前已经可以下载全量包,21号晚上,需要增量升级的用户可以下载增量包,将手头的V2.1.8版本升级为2.2。
在讲D-SMART V2.2新功能的时候,我先要聊聊昨晚的卡塔尔世界杯首场比赛。这场比赛我看了半场就睡觉了,卡塔尔与厄瓜多尔根本不是一个档次的球队,而且厄瓜多尔水平也不怎么样,熬夜看这场球有点不划算。虽然第一场比赛乏善可陈,不过感觉卡塔尔世界杯会在世界杯历史上留下浓重的一笔,那就是开启了足球运动数字化的时代。在足球中植入智能芯片,2毫秒发送一组监控数据,以此配合VAR,可以让VAR的能力提升到一个新的高度,我想下一步就会在每个运动员身上带传感器手环了。不过也幸亏是这个新的变革,让厄瓜多尔被吹掉的那粒进球引发的阴谋论变得毫无市场了。在严格的数据面前,一切都变得那么简单。
事实上,自动化,智能化的基础就是数据。因此D-SMART的每一次迭代,都是对数据的不断打磨。在不断提升指标质量的基础上,D-SMART才能不断的衍生出新的功能。
聊聊D-SMARTV2.2新功能
上面是D-SMART V2.2的发布说明,在D-SMART V2.2中,终于可以彻底放弃基线模板了。因为智能基线功能正式上线。当指标个维度的数据得以完善之后,对于指标是否异常的判断不再局限于某个指标区间,而是根据以往的历史运行情况,自动生成动态基线,用于基线检测。
在实现智能化基线之外,运维对象的关键指标异常分析也实现了指标化。指标化之后,我们不仅能够对某个指标进行异常检测分析,也能够利用这些指标构建某个指标异常的故障模型。这样就实现了故障模型的智能化。比起以前只能通过阈值来判别某个故障模型是否被触发,通过某个指标异常情况(比如异常上升)来触发某个异常告警,在实际应用中更加灵活。
告警时序分析是一个供专家使用的工具,当有些问题的根因不太容易定位,很多问题之间存在千丝万缕的关系的时候,告警时序分析可以给专家列出一个各类指标异常与运维经验告警发生的前后时序关系。从而可以让我们在一些复杂问题的因果关系获得比较直观的数据。因为这些关系之间十分复杂,因此我们还无法从时序分析中直接给出十分明确的结论。虽然直接给出结论是我们一直追求的目标,但是对待特别复杂的场景,智能化算法的能力局限还是十分明显的。在这个功能上我们只能给予专家一些帮助,而暂时无法做的更多。
获益于V2.2 SQL方面的监控指标更为精细化,关键SQL管理、监控、告警功能更为完善了。关键SQL的管理可以和TOP SQL关联,从TOP SQL中发现关键SQL,也可以直接由开发人员直接确定。在V2.2的12月升级包中,我们会在Holadata工具中提供自动采集某个数据库的关键SQL的工具。实际上自动采集关键SQL对于十分关键的系统来说并不合适,就像世界杯上,在没有每个球员的实时数据采集之前,VAR还是需要人去看的,数据只能起到辅助分析,自动定位时间轴的作用,而不能直接替裁判做出决策。关键SQL跟踪也是如此,当自动化运维系统还无法理解业务系统之前,自动生成的关键SQL清单,也可能并不那么关键。
另外一个受益于指标升级的功能是巡检报告的升级。随着指标数据的日益精准与完善,巡检报告自动发现问题的能力也就越来越强大了。V2.2对Oracle、PostgreSQL(含兼容的国产数据库)、MySQL、达梦、SQL SERVER的巡检报告都做了升级。利用巡检报告,三线服务的专家可以很清晰的了解到系统中存在的问题,远程服务与线上服务能力得到了加强。
在V2.2中还有一个十分重要的升级就是提供了钉钉告警的接口。因为腾讯调整了企业微信告警接口规范,如果我们想通过企业微信发送告警信息,则必须将一部分D-SMART组件部署到腾讯云上,我想这也许是腾讯对这个功能收费的前兆吧。让用户把一部分D-SMART功能模块部署到腾讯公有云上,让很多企业都望而却步,因此从V2.2开始,我们只能把钉钉告警作为默认的IM告警方式。

聊聊D-SMARTV2.2新功能



聊聊D-SMARTV2.2新功能》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:https://www.hashtobe.com/157.html