关于咱们
更多关于云原生的事例和常识,可重视同名【腾讯云原生】大众号~
福利:
①大众号后台回复【手册】,可获得《腾讯云原生路线图手册》&《腾讯云原生最佳实践》~
②大众号后台回复【系列】,可获得《15个系列100+篇超实用云原生原创干货合集》,包括Kubernetes 降本增效、K8s 功能优化实践、最佳实践等系列。
③大众号后台回复【白皮书】,可获得《腾讯云容器安全白皮书》&《降本之源-云原生本钱办理白皮书v1.0》
④大众号后台回复【光速入门】,可获得腾讯云专家5万字精华教程,光速入门Prometheus和Grafana。
作者
吕朋钊,腾讯事务运维高级工程师,曾担任 QQ 相册、小国际事务的存储接入层运维,现担任 AI 事务的运维。
布景
QQ 相册是 QQ 产品中为用户供给图片存储,分享等功能的老练产品,自上线以来,一直为用户供给安稳快速的图片上传和下载服务。作为交际事务组内第一个上 TKE 的渠道,相册在过去一年多时间里总结出了一套适合自身的 TKE 上云实践计划。
服务场景
自相册全面改造上云之后,新的架构如下:
问题
跟着相册各模块已基本完成容器化,也暴露出了不少运用上的问题。
资源利用率提高与 CICD 优化
1. 资源利用率提高
复用集群、独立集群搬迁到同享集群
复用集群由于是运用老旧机器搭建的 K8s 集群,在运用上会有比较多的损耗,并且经常会有资源抢占严峻的状况。而独立集群由于母机标准不够高,会造成必定程度的资源浪费。根据这两点,把复用集群和独立集群的系统搬迁到复用集群是较好的挑选。会发现,搬迁后的资源利用率和错误码次数都得到了显着的改进。
同时运用 HPA 弹性扩缩容,根据 CPU 利用率,让资源在事务低峰期得到释放,高峰期主动扩容,能够更好地节省本钱。
2. 布置战略优化
由于当前根据一个可用区的命名空间建立一个 workload 的计划没有考虑到单可用区的容灾,所以咱们在一个集群的多个可用区都建立了 workload,同时在其他地域也建立了容灾的 workload,当有机房或许地域等级的故障产生时,能够主动切换到其他机房或许地域。
3. 七彩石配置
每个应用都运用七彩石作为配置办理,在 TKE场景中,配置改变会更改 workload yaml 中的 annotations 字段,而 downward api 会把 annotations 的值作为 volumn 注入到容器的七彩石目录,智研之后还会调用容器内部的configuration-reload.sh然后完成配置改变。此过程由于只触及修正 annotations,并不会令pod和容器重建,一个 pod 的整个配置改变过程只需求几秒。
4. ClickHouse 日志查询
跟着相册事务日志量的增加,日志存储本钱也在升高,因此咱们把日志搬迁到了 ClickHouse。在可接受的影响范围内,ClickHouse 所需资源只需求 ES 的30%-50%。
5. Tget 拨测
事务监控方面结合 Tget 拨测,对 oc 域名和源站域名都做了拨测告警,进步针对 vip 被封禁或许网络导致问题的响应速度。
6. 智研一站式接入
相册正在接入智研一站式开发,运用智研供给的从需求-开发-测试-发布上线-线上运营的研制全生命周期办理服务,让相册 CICD 能够更好地进步功率。
运营开发才能
1. 告警剖析手机端自助除掉
结合智研的告警剖析回调接口,能够手动在企业微信界面上除掉某台机器在北极星的绑定。
2. 质量分剖析
针对往常监控不到的新错误码引起的反常失败率升高,质量分剖析工具能够让运维人员快速知道当前是由哪个错误码引起的质量下降。
云原生老练度提分
1. 事务安稳是第一位
在云原生提分实践过程中,发现许多模块的瓶颈并不是 CPU,而是流量或许内存,但是目前云原生的计算方法只计算 CPU,所以拟定 HPA 扩缩容战略时需求综合各维度去考虑。
2. 下降 request 值
对于某些流量型的模块如 http、preupload和 prxoy,能够把 workoad 的 request 的值适当下降,这样能够让 CPU 利用率的提高有马到成功的效果,需求结合压力测试来确认 request 下降后 CPU 不会成为瓶颈。
小结
跟着相册的 TKE 事务从其他渠道转到同享集群,结合布置优化战略和运营开发才能,总结如下:
-
云原生老练度有了显著的提高。
-
相册渠道累计运用 TKE 规划达5万+核。
3.打通智研 CICD 流程,显著提高日常开发和运维功率。