你所在的位置: 首页 > 正文

华为云立体运维解决方案——云上一站运维平台

2019-09-04 点击:647

随着越来越多的企业在云上,云的规模和复杂性不断增加,云的运营和维护也面临新的挑战。华为云在实践中不断发展,为云应用构建了完整的三维运维系统。它将华为云的应用运营和服务(AOM)和应用性能管理服务(APM)集成到虚拟机中。多维实时监控存储,网络,数据库和应用,并通过应用和资源报警关联,日志分析,智能门限,分布式呼叫跟踪,移动APP异常分析等技术实现分钟的快速诊断和修复 - 级别问题,确保云应用程序运行稳定。下面以典型的云应用架构为例,分享华为云立体声运维解决方案。

在云应用的早期阶段,构建了大多数云服务I层资源(主要是计算资源,如基础设施)。各种操作和维护人员构建了集群。操作和维护人员主要操作和维护主机监控,并构建自己的应用程序和数据库。监控系统执行应用层和业务层的操作和维护。随着容器技术的普及,越来越多的企业正在通过微服务框架进行开发,而业务的实现也更多地使用云服务,如分布式中间件,功能服务,AI服务等,同时运营和维护也转向云。运营和维护服务。以下是典型的现代云应用程序架构:

img_pic_1562746682_0.png

在域名解析阶段之后,静态资源在命中CDN后直接返回。当没有命中时,它将返回到源拉。动态请求直接访问WEB服务。在请求到达四层和七层ELB之前,大多数企业应用程序也将选择WAF。清理异常流量。

在ELB之后,请求到达业务应用程序服务器。业务实例主要是分布式体系结构,而微服务则相互调用。一般而言,企业运维人员的重点是应用实例层,主要由企业开发。服务。

持久层当前具有由每个CSP提供的不同中间件。华为云上的用户使用更多,如分布式缓存和分布式数据库。由于提供了动态容量扩展和更高级别的SLA,越来越多的企业不再需要专业的DBA,而是在云上使用服务,开发更加灵活。

由于云服务和各种资源如此之多,任何一个环节中的问题都会导致KPI异常,用户体验下降,影响企业运营。如果每个使用云服务的企业投入大量人力来构建自己。操作和维护系统以及整个请求的关联,成本将非常高。因此,华为云通过实践建立了一套三维运维系统,帮助企业更好地进行一站式运维。以下将向您介绍三维操作和维护定位,架构和功能。

三维操作和维护主要是监控应用程序,完成一站式基础设施层,应用层和用户体验层的监控。

参考上面典型的云应用程序体系结构,通过服务请求路径的不同资源是分层的,分层如下:

img_pic_1562746682_1.png

围绕层设计不同的专业操作维护服务子系统,将不同子系统上的不同数据串联组合,进行相关分析,在云上构建运维平台,最大限度地实现数据价值,为操作维护人员提供一个。统一的运维中心达到一站式三维运维的目的。集成的立体声操作和维护以及典型的云应用分层,三维操作和维护结合了华为的应用运维服务(AOM)和应用性能管理服务(APM),以及虚拟机,存储,网络,数据库等多个维度。应用。实时监控,通过应用和资源报警关联,日志分析,智能门限,分布式呼叫跟踪,移动APP异常分析等技术,实现分级问题的快速诊断和修复,确保长期应用云应用程序。

img_pic_1562746682_2.png

AOM专注于深入监控云主机,存储,网络,WEB容器,Docker,Kubernetes等应用运行环境和应用状态,应用和资源关联,以及集中统一的可视化管理。架构如下:p>

img_pic_1562746682_3.png

APM专注于分布式应用程序性能分析,具有强大的分析工具,可通过拓扑图,调用链和事务分析来可视化应用程序状态,调用进程,用户到应用程序操作,快速定位问题并改善性能瓶颈。架构如下:

img_pic_1562746682_4.png

三维操作和维护的一站式操作完成了对基础设施层,应用层和用户体验层的监控。它具有以下特点:

目深入查找问题的根本原因。

img_pic_1562746682_5.png

收集虚拟机上的应用程序,开源组件和系统日志,并通过清理,实时分析和智能群集对日志执行高性能搜索和业务分析。同时,它支持常用功能,如自定义采集路径,实时刷新,上下文视图,二级搜索,日志下载和转储,以满足日常需求。

img_pic_1562746682_6.png

应用程序,服务,实例和资源相关联,您可以直接查看异常的范围。对于应用程序异常,您可以直接查看其指标并通过指标查找原因。对于资源异常,您可以查看资源对象拓扑图和警报状态以查找原因。

img_pic_1562746682_7.png

应用程序拓扑是应用程序之间调用关系和依赖关系的可视化显示,包括应用程序状态,延迟,错误,负载,依赖关系等,支持数据库,缓存,消息中间件,NOSQL和其他开源组件。同时,您可以按时间,服务,交易,顶级和其他维度进行过滤。在应用程序拓扑中,您还可以向下钻取以查看异常的调用关系,并找到异常的根本原因。

img_pic_1562746682_8.png

呼叫链跟踪,记录业务的呼叫过程,恢复分布式系统中业务请求的执行轨迹和状态,并在几分钟内确定异常的原因。调用业务方法时,将自动捕获方法的调用方,详细堆栈和各种参数,以帮助开发人员快速锁定问题站点。

img_pic_1562746682_9.png

从运营角度来看,了解每个业务的健康状况,包括交易数量,延迟,错误率,并通过调用链查找异常代码,同时帮助运营商了解事件期间的交易体验。

img_pic_1562746682_10.png

数据库SQL语句异常,可能导致业务超时等问题。在日常操作和维护中,可以通过关键指标(例如错误时间消耗和响应时间)监视数据库,并且定位和分析和优化耗时,低效和调用错误的SQL语句。

img_pic_1562746682_11.png

通过操作和维护数据,包括数百个指标监控,KPI数据和呼叫跟踪数据,自动完成根本原因分析。具体原则可分为单维异常识别,复合事件异常识别和业务根本原因分析。

单维异常识别:根据历史指标数据动态生成指标基线,无需手动配置警报阈值。

复合事件异常识别:多维护异常指标的因果关联分析,识别根本原因警报。

业务根本原因分析:提取正常和异常业务的上下文数据特征,如资源,参数和调用结构,通过聚类分析找出问题的根本原因。

img_pic_1562746682_12.png

在5G时代,华为强大而可靠的运营和维护能力将帮助互联网公司担心云计算,他们将能够抓住5G红利,拥抱数字和智能时代。 7月2日至8月31日,华为云推出“华为云特别月”活动,重点关注降低四川和西南地区客户的门槛,推出西南节点ECS S3云主机,提供60%的折扣。活动。三种主要互联网应用中的视频,游戏和移动应用程序应用程序的特别优惠,包括免费视频加速体验,独家全球云移动电话优先购买权以及免费的高频云服务体验。华为云也真诚为新老客户,生态合作伙伴和开发商设计优惠政策:对于老客户,华为云可以回报高达50%;对于新客户,它有机会获得高达20,000元的测试券。开发人员还可以获得微认证50%的折扣,并返回100元;生态伙伴享受第一笔订单50%的折扣。

img_pic_1562746682_13.gif

深圳新闻网 版权所有© www.sucdutedu.org 技术支持:深圳新闻网 | 网站地图