随着信息技术和互联网的发展,终端设备从 PC 端扩展到移动端,应用的架构从单体架构演进为分布式的微服务架构,软件系统服务层之间的交互日益复杂,给系统的运维管理带来了巨大的挑战,应运而生的可观测性技术,带来了问题的答案。
近日,上海道客网络科技有限公司(简称:「DaoCloud道客」)携手北京基调网络股份有限公司(简称:基调听云)推出云原生智能可观测性平台联合解决方案。
双方基于 DaoCloud Enterprise 云操作系统与基调听云智能可观测性平台的产品兼容性互认证,在异构环境下,为企业提供覆盖应用计算、服务编排、多云纳管等方面的端到端一体化监控解决方案。
随着 Kubernetes 得到越来越广泛的采用,企业软件系统正在向复杂的云原生架构进行革命性转变。应用的架构从单体架构演进为微服务架构,应用形式呈现有 Web、APP、小程序等多种形式,访问的网络有 4G、5G、Wi-Fi 等。企业用云也从单一云时代,逐渐来到混合多云时代。
在这些庞大复杂的多云环境中,各种模块、各种语言开发的应用程序或服务的数量与日俱增,如何追踪它们运行在何处、性能如何、故障定位、请求的完整端到端流程等,并持续检查海量高速数据流以识别系统中的已知和未知问题,显得至关重要。
云原生智能可观测性平台联合解决方案,以 DaoCloud Enterprise 云操作系统为底座,结合基调听云智能可观测性平台,提供云原生计算、网络、存储的能力,屏蔽底层基础设施复杂性,支持多云、多集群全生命周期统一纳管,同时为不同的角色提供不同的监控视角,全面覆盖了最终用户体验、应用性能、业务性能、基础架构、云平台等客户 IT 环境,具有全量的数据采集、全链路数据事务追踪、代码级根源分析、调用链日志溯源、健康度和智能告警能力,帮助企业了解用户体验及应用性能,构建业务系统的云原生智能可观测性平台。
如上所说,庞大复杂的多云异构环境,以及日益增长的应用程序和服务数量,使排查定位系统问题的难度呈指数级上升,面对这些挑战,该方案具备三个关键优势:
DaoCloudEnterprise支持 x86、 ARM 架构的异构服务器的接入,快速构建高性能云原生应用集群。依托于云原生容器封装技术,屏蔽操作系统之间的差异性,为业务应用构建统一的管理平台,并提供“一次构建,随处运行”的能力。
方案以云原生技术为底座,支持业务和可观测组件的弹性扩展,减少动态 IT 环境中的人工维护工作,能够动态适应业务需求,实现随业务高峰而弹性扩张计算,随低谷而释放资源,降低 IT 运营成本。
在此基础上,方案构建了完善的指标体系,横跨基础组件层、应用层、业务层、用户体验层,为故障感知提供质量标准:
基础组件层:包含了企业常用的主机、数据库、容器等常规指标;
应用层:除了包含应用健康度、响应时间、吞吐率、错误率等通用指标外,还包含服务或数据库组件的实例、执行时间等指标,错误分析的开始时间、最后发生时间、异常名称、错误次数等指标,以及事务追踪的追踪 ID、事务名称、业务标识等指标;
业务层:包含业务可用性、活跃用户数、业务流、执行周期等通用业务指标外,还支持自定义监控指标。 如:交易金额、订单总数、Top10 销售排名等;
用户体验层:包含 PC 端、小程序端的 PV、白屏时间、首屏时间、慢页面占比等指标,以及移动端的页面完整度、页面流畅度、冷启动时间、次数等指标。
该方案有效结合了云原生与可观测性的技术优势,在通过分析系统生成的数据,理解推演出系统内部的状态,实现快速排障的同时,也能利用云原生技术实现降本增效,在各种应用场景中都得到了验证,如:
复杂的多云异构环境加海量客户端设备的情况下,大量的服务端运行情况、日志、应用性能数据等监控数据通常由多个第三方监控平台提供支持,众多采集 agent、异构的数据存储库、定制化的数据模型和查询语句、分散监控大屏等导致企业需要大量人员对监控进行管理,例如研发适配、存储策略、告警策略、大屏展示图表以及各个平台的权限控制等事务。海量监测数据如何统一采集、上传、存储、分析和应用成为企业降本增效的关键因素。
该方案构建从基础设施到应用层全方位立体化监控。以 APM 为核心,调用链追踪技术为手段,将业务监控、应用监控、日志监控、Kubernetes平台监控、容器监控等有机关联在一起,实现端到端一体化监控,提高根因定位效率。
DevOps 流程中,一次质量测试需要多方协作共同完成:运维协调测试资源和压测环境、测试执行测试用例、研发使用监控平台和测试平台获取测试结果和事务分析结果。但基于传统的 CI/CD 流程,功能和性能测试往往是和 CI 流程分开进行,先执行 CI,然后到性能测试环境部署监控探针,通过各种监控平台观察信息,效率相对较低。
该方案实现在测试阶段一键创建测试环境,CI 阶段引入 APM 工具、集成探针,通过 API 即可获取检测数据和结果,自动生成报告并发送,提高测试效率,结合事务分析和追踪功能快速发现性能瓶颈,优化应用质量。
云原生已是业界公认的数字化转型最佳路径。以云原生为核心的云操作系统,对微服务架构和容器化技术的应用,提供天然的支持,新的技术架构使得平台上应用的监控从稳态的方式向敏态的方向转变,这种转变带来便利的同时,也带来了一些新的挑战:容器易于创建和销毁的特性,以及应用采用微服务架构的方式,使得应用的调用链变得繁杂,单个服务故障会引发多个服务告警,被动采集监控指标数据的方式难以精准定位故障。
该方案的 APM 能够实现 100% 真全量的性能追踪和业务数据采集,保证了调用链数据的完整性,可以实现深度代码级性能诊断和优化,配合分层展示的拓扑图,友好的展现微服务间的依赖和调用关系,帮助运维团队快速定位问题根因,降低 MTTR。
移动端作为互联网新时代的流量入口的重要性不言而喻,移动端 APP 开发后难以在海量设备上进行测试,在发布后可能遇到在某些设备上出现启动崩溃、首次启动加载时间过长、页面渲染异常等问题,企业往往难以及时获取有效的反馈,对用户体验产生了极大的影响。
方案通过 APP SDK 字节码技术和运行时 hook 技术,能够实时采集 APP性能数据,并且不影响业务代码逻辑,当 APP 切换到后台或者退出时,SDK 会自动停止采集和上报,减少不必要的流量消耗。
服务端依托云操作系统的容器编排技术,结合自动弹性扩缩功能,针对移动端弹性的流量,自动适配服务器资源,利用自动化编排技术提供高性能高可靠的可观测服务,保障平台高可用的同时,为企业降低监控运营成本。
云原生时代,以运维的视角、被动解决故障为目标的监控正在逐渐退出舞台,而适配 IT 架构变革和云原生技术实践、协同开发和业务视角、具备更广泛和主动能力的可观测性,正在冉冉升起。未来,基调听云将携手DaoCoud道客结合双方技术优势,为企业数字化转型提供与时俱进的云原生可观测性解决方案。