作者:当贝技能团队
跟着事务飞速开展,当贝的传统 IT 财物也渐显臃肿,为了防止限制开展的瓶颈,痛定思痛,技能团队果断变革:中心事务云原生化之后,运维功率、全体稳定性和研制功率均得到了全面提高。 本文首要简述当贝技能团队云原生之路的背景诉求、落地办法和收获效果。
前语
当贝成立于 2013 年 8 月,中国闻名的智能大屏增值服务供给商之一,中国大屏应用软件分会会长单位,是一家横跨软件、硬件和操作系统全生态的大屏端互联网平台型公司,致力于成为亿万家庭 AIoT 的中心入口和日子娱乐中心,接连多年入选未来独角兽榜单,国家级专精特新“小巨人”企业。
当贝云原生架构实践历程
传统运维系统的三大痛点
跟着当贝的事务规划飞速开展,背后的 IT 技能也在不断更新迭代,IT 财物规划也在高速上升,不可防止地迎来一些挑战。其中,以运维系统的挑战最为明显,经团队总结,有以下三个较为杰出的痛点。
人工运维功率低,危险大,本钱高,财物办理困难
传统运维系统下,有很多人工参加。从各环境代码发布,到高峰低谷的扩容缩容,再到各类证书、云服务器等云财物办理,这些环节,人工参加度越高,危险越大,即便运维人员有着超高水平,也很难确保长久状况下不呈现任何失误或忽略。
一起,人工参加度越高,功率也就越低,协作本钱越高。为确保稳定性,每一次线上系统改变,都需求协调很多跨部门配合,常常需求研制、运维、测验等多个岗位的同学深夜参加。
跟着当贝 OS、当贝音乐、当贝商场等事务开展多点开花,IT 规划也急剧扩张,云财物办理也成为了较为杰出的痛点。
稳定性挑战大,反常排查及恢复本钱过高
当贝对系统稳定性、事务接连性有着极高要求。跟着流量快速增加,特别是在一些如春节联欢晚会这种状况下,流量往往以十倍甚至数十倍激增,对稳定性和容量规划构成极大压力。
一起,当出产环境发生反常,在传统的运维系统下,有着依靠链路杂乱、排查难度大、定位时间久、牵扯人员广等中心痛点。
对此,整个服务端部门定下了 1-5-10 快恢及 99.95%可用性两大要求,精准洞察问题中心,一起辅导了处理思路。
在当贝各项事务高速开展的状况下,执行这两大要求,是整个服务端团队迫在眉睫且有必要打赢的攻坚战。
自建可观测系统落地杂乱,易用性和稳定性差,运维本钱高
任何成规划的 IT 系统,可观测系统都是极其重要的底层柱石,它使 IT 架构的全体设计如依靠拓扑、调用链路追寻、技能标准、运行状况、稳定性等许多信息清晰呈现,除了定位排查以外,更有助于提前发现前史的架构设计缺陷、系统瓶颈并及时处理,在确保事务接连的一起,高效支撑事务开展与迭代。
在早期阶段,为确保各项系统快速上线、事务高速迭代,存在一些技能架构考虑不周、设计缺乏的状况,具体表现为选型纷歧、事务高度耦合、调用链路过长、云资源挑选不合理、办理不清晰等。这些要素组合在一起,构成巨大的前史包袱,在曩昔传统的运维系统下,曾自建一些可观测组件或结构,但却面对着稳定性差、运维本钱高难度大、易用性差、系统不一致等各方面问题,以至于未能彻底发挥其应有的价值。
如今,在当贝事务规划持续加速成长的背景下,亟需落地一套全面易用、安全稳定、性价比高的可观测系统,以支撑公司行稳致远。
云原生架构的建设
面对传统运维系统非常杰出的三大中心痛点,为防止其在未来对当贝可持续开展的战略构成限制,当贝技能团队进行了广泛研讨、深化分析、活跃调研,终究将目光瞄准在了云原生架构上。
正如阿里云在《云原生架构白皮书》中所言:云核算的下一站,是云原生;IT 架构的下一站,是云原生架构。
当贝技能团队极为认同这个观点,云原生是一个确认的技能开展趋势,越来越多的公司拥抱云原生,利用云原生完结更高功率的开展及创新。
经大局视角下的充分评价,当贝技能团队在研制总监张子枭的领导下,提出云原生化、中台化、微服务化、数字化四大技能战略方针,决定全面转型云原生架构。
只有利用云原生架构,彻底处理传统运维系统危险高、功率低下的痛点,才干具有对部分积弊已久、陈疾顽疴的老系统进行中台化和微服务化改造。
而在云厂商的挑选上,考虑到阿里云是国内云核算的布道师与发扬者,实力全球领先,对云原生技能开展的奉献有目共睹,一起其汇聚了业界最顶尖的人才、最丰厚的经历事例、最牢靠的成熟度,以及其“客户第一”的价值观,当贝技能团队终究挑选借力阿里云落地云原生架构转型。
容器化上云
在云原生架构基础设施范畴,Kubernetes 是当之无愧的领头羊。
比较于依靠虚机自建集群而言,由阿里云供给的 ACK 服务,有着更优弹性、更优耐性、免运维、更高效的资源办理等优点,一起无缝集成了很多阿里云产品。
依靠 ACK 及其集成的很多产品,当贝技能团队极快地完结了中心服务的容器化改造,并顺利完结灰度发布、全面切流等工作。值得一提的是,在新架构落地过程中,当贝技能团队不可防止地会遇到疑难杂症困扰,但正因为有阿里云很多的经历事例支撑、最佳实践辅导,包括容量规划、可观测、安全防护、稳定性等许多方面,使整个上云进程一直处于牢靠状态。
完结上云后,这些中心服务从开发态测验态,改变与运行态,贯穿服务整个生命周期,功率都得到了极大提高。
利用云原生 Devops,项目发布与协同功率提高 300%,彻底防止人工运维干涉的高危险性;利用 ACK 服务与服务器资源天然解耦的特性,彻底摆脱了基础设施运维的低效困扰;利用 HPA+CronHPA,从容应对流量高峰低谷……
不只如此,这些中心服务全体资源利用率提高了 20%,运维功率更是提高了 500% 以上,使更大规划的 IT 资源办理成为可能。
在深度参加上云改造的过程中,当贝技能团队沉积了很多的知识与经历,为公司技能储备添砖加瓦,一起仍在活跃探索云原生技能。
云原生网关
在引入 ACK 作为云原生的基础设施的一起,当贝技能团队也引入了 MSE 云原生网关作为流量办理组件。
在云原生网关将流量网关、微服务网关、安全网关三合一之后,不只链路削减、性能提高,服务管理的杂乱度也大幅下降,稳定性大幅提高。
借助于云原生网关的高集成性,上云后的中心服务毫无侵入地就获得服务管理、安全防护、监控告警等才能,比较于当贝在曩昔传统运维系统下自建网关而言,云原生网关更具有着高可用、高性能、弹性弹性、更易用等优势,做到了网关层面彻底免运维,削减人工干涉的一起,大大提高了 IT 系统的全体稳定性。
正是借助 ACK+MSE 云原生网关的组合,当贝技能团队在几乎无需运维本钱的状况下,完结了 1-5-10 和 99.95%的两大方针。
跟着当贝 OS、当贝音乐等中心服务上云后的稳定性、事务接连性、研制效能大幅提高,用户体会也得到了极大提高,为当贝事务长时间开展,奠定了杰出的技能基础。
至今,当贝技能团队仍在活跃推进剩余各项事务系统上云,竭尽全力地完结全面转型云原生架构的方针,充分挖掘云的价值。
可观测系统
建立全面易用、安全稳定的可观测系统同样是完结 1-5-10 和 99.95% 方针的重要手段,更是达成中台化、微服务化的关键支撑。
在确认全面转型云原生架构之前的评价环节,当贝技能团队就现已深化调研了阿里云的可观测系统处理方案。
在对比了曩昔运维团队自建的可观测组件,如日志服务、链路追寻等后,发现其存在易用性差、稳定性差,且运维本钱高昂、版本老旧等许多问题,且对 ACK、MSE 云原生网关等云原生组件的支撑存在适配本钱。
可观测组件的初衷是为了提高稳定性、保障事务持续性、呈现链路拓扑等信息,以终究完结提高研制效能,让每个人都可以做到心中有数。
如果在该组件本身投入很多运维本钱、研制本钱,终究只会本末倒置,南辕北辙。
因此,当贝团队终究决定采用阿里云的可观测处理方案,首要以 ARMS、SLS、Grafana、Prometheus 、云监控等产品,依靠它们与 ACK、MSE 等云原生组件高度集成的才能,构建了当贝在云原生下的可观测系统。
建设效果
在面对传统运维系统的功率低下、危险大、本钱高、稳定性差等杰出问题上,为防止其成为当贝事务开展的长时间限制,当贝技能团队果断采取了全面上云的架构转型,在中心服务上云后,极大地处理了传统运维系统所带来的痛点,全体运维本钱下降 80%,提效 500%,研制功率和稳定性都有极大提高。
最关键的效果,运维功率和危险两大限制的解除,基于此,当贝极快地推动了中台化、微服务化的落地,至今已基本完结。
未来展望
当贝在云原生技能上的转型与探索,不只释放了内部出产力,更大大提高了用户体会,为公司长时间可持续开展的战略打下了结实的技能基础。
但这只是当贝技能团队在云原生道路上的起点,跟着事务开展及微服务化的深化,未来还会面对更多的挑战。当贝希望逢山开路,遇水搭桥,丰厚更多家庭的客厅日子,为更多家庭带来乐趣。
点击此处进入云原生社区,了解相关资讯