利用OPENGAUSS的可观测性接口我们能看到些什么

今天是openGauss Submit,有兴趣的朋友可以去官网看在线直播
https://opengauss.org/zh/summit.html
。在下午的生态工具分论坛,我会分享一些针对openGauss可观测性功能的介绍,以及针对可观测性方面的优化对社区提出一些建议,在分享得最后一部分,我还会展示一些利用openGauss可观测性的能力对数据库进行分析的例子。大家有兴趣可以在下午的分会场来听一下。
因为手机弹窗,原本期待已久的和openGauss的开发者与使用者的线下交流无缘参与了,确实令人遗憾。作为一个DBA,只有不断的与最终用户和上游的研发团队交流,才能不断提升自己的能力。
最近和好几个朋友交流的时候都谈到数据库的可观测性的问题,对于可观测性,实际上每个人的脑子里的想法都会不太一样,这其中也充满了各种误解。就像上回我吐槽国产数据库的文档太差的时候就有朋友留言说写了你们也不看,写那么全干嘛用。数据库的可观测性接口也是如此,可能大多数数据库运维人员并没有充分的使用数据库提供的可观测性能力,不过这并不妨碍我们向数据库厂商索取更多的可观测性能力。
利用OPENGAUSS的可观测性接口我们能看到些什么
早期的数据库监控系统的目标是尽可能把数据库的运行状态展现给运维人员,实际上普通的DBA根本看不懂这些花里胡哨的图表和数据,这些数据背后内在的关系,以及能够暴露出数据库运行状态的信息才是运维的关键。我们来看看上图,数据库可观测性的各类数据,都是被右侧的运维工作综合使用的,某个运维工作都必须使用各种各样的可观测性接口才能够达到自动分析,智能分析的效果。比如我们要做监控预警,那么除了数据库的运行状态之外,数据库对象上的统计数据,监控指标,等待事件,TOP SQL,日志信息等方面发现的异常,都是必须纳入监控预警范围的。如果要做高可用切换,我们必须知道系统的详细的配置信息,一个日志异常可能也会触发紧急切换,当然系统运行状态,监控指标、等待事件一方面可以作为故障切换实施策略的分析数据,也可以作为切换过程的实时监控数据。
从上面的分析,我们肯定要期望数据库能够提供的可观测性数据越多越好,那么通过这些可观测性数据我们能做些什么呢,通过D-SMART FOR OPENGAUSS的功能我们来看看,我们团队是如何使用这些可观测性数据的。希望今天的分享能够给大家带来一些启发。
利用OPENGAUSS的可观测性接口我们能看到些什么
综合信息展示是给DBA了解数据库的综合状态的,通过健康、性能、负载三个模型让用户随时对数据库的总体状态有个直观的了解。如果DBA发现系统的健康状态不太好,那么中间的关键指标对于略有经验的DBA或者专家就很有用了。下面中间的文件系统容量可以直观展示数据库中的关键目录的容量状态。而右侧的日志高级和运维经验告警则直接给出一些系统中存在问题的指示。

健康模型是充分利用openGauss中的一些关键指标,利用运维专家的经验构建的一个指示性模型,可以十分直观的反映出高斯数据库的运行状态,哪怕对高斯数据库了解不深的DBA也可以通过这个雷达图快速的发现系统中存在的问题。

有了丰富的可观测性接口,运维专家可以设计出问题自动分析工具,针对出现问题的时间窗口中的可观测性数据自动进行综合分析,并给出十分精准的分析结论。

利用智能分析算法,依托运维知识图谱,我们还可以设计出更为深入诊断分析的智能化分析工具。实现问题的初步定位。这对于帮助现场DBA快速定位故障,解决性能问题十分有效。

openGauss提供的等待事件接口比社区版的PG要丰富的多,利用这个红利,我们可以实现对等待事件的自动化分析。

通过等待事件的汇总分析,可以发现系统中存在的主要问题,协助运维人员快速定位故障,发现系统隐患。

并可以通过自动诊断发现的问题,推荐相关的分析工具,帮助DBA进行下钻分析。

在性能优化方面,高斯的可观测性接口也可以让我们实现自动化的问题诊断,通过诊断智能化推荐分析工具,从而让优化工程师大大减少分析的工作量,更快速的定位问题。在一个具体实践中,我们曾经尝试过让一个中级工程师在一个月内对20多套数据库进行优化分析,他在一个月时间里完成了这个工作,除了发现了130多项性能问题外,还完成了对这些问题的优化建议编制工作。
openGauss的可观测性接口虽然还存在很多不足,今天下午的演讲中,我也会对社区提出一些相关的优化建议。不过从目前openGauss提供的可观测性接口来看,我们已经能够完成很多高质量的监控、预警与分析了。这些接口如果能够充分利用,可以大大减轻DBA的工作。

利用OPENGAUSS的可观测性接口我们能看到些什么》来自互联网,仅为收藏学习,如侵权请联系删除。本文URL:https://www.hashtobe.com/62.html