作者:阿里云容器服务
近来,阿里云容器服务 ACK 与达摩院数据决议计划团队合作的论文《AHPA: Adaptive Horizontal Pod Autoscaling Systems on Alibaba Cloud Container Service for Kubernetes》获 AAAI 2023 IAAI 人工智能创新使用奖 [ 1] 。AAAI 是人工智能范畴的尖端会议之一,入选中国计算机学会(CCF)引荐 A 类世界会议列表。AAAI/IAAI 主要录入人工智能在工业界成功使用的案例,备受工业界关注,每年仅有 10 项左右工作被评选为 IAAI 人工智能创新使用奖,本年 AHPA 也有幸获此殊荣。
AHPA 论文截图
团队介绍
阿里云容器服务 ACK 办理着海量的 Kubernetes 集群,在集群办理、集群运维等范畴积累了丰富的经历,并构建了智能运维渠道 CIS(Container Intelligence Service),旨在经过智能化手段解决运维难题。达摩院数据决议计划团队在时刻序列剖析/猜测/异常监测/AIOps 方向深耕多年 [ 2] ,数十篇文章发表在 NeurIPS, ICML, AAAI, KDD, SIGMOD, ICDE 等顶会和多篇中美专利,获得 2022 ICASSP AIOps Challenge(故障定位)冠军等多个世界奖项。
AHPA
“极致弹性”吸引着众多企业拥抱云原生。企业的事务流量往往呈现出显着的波峰、波谷形态,如果选用固定实例数的方法则会形成较大的资源糟蹋。为此,Kubernetes 供给了 HPA、CronHPA 等弹性弹性战略。CronHPA 支撑在固定时刻进行实例数弹性,可是设定定时规则较为杂乱,也会存在资源糟蹋;HPA 战略依据使用实时负载设置实例数量,可是存在弹性触发滞后的问题,导致使用的服务质量下降。为此,容器服务 ACK 联合达摩院时序智能团队共同打造了 AHPA,能够依据前史时序数据进行主动猜测,避免弹性滞后。同时会依据实时数据动态调整主动猜测成果,兼容周期改变、数据丢掉等场景。
图2 AHPA 结构
AHPA 全体架构如图 1 所示,分为数据收集、猜测及弹性弹性三大部分。AHPA 中心算法全体结构如图 2 所示,主要由目标猜测及性能模型两个中心模块组成。目前 AHPA 已支撑 CPU、Memory、GPU、RT、QPS 等常见目标,在阿里表里众多事务中得到使用。AHPA 算法能够帮助客户辨认事务是否存在周期性。当数据存在周期性时,AHPA 对数据缺失、毛刺以及事务变更引发的数据周期改变等有很强的鲁棒性。即便数据不存在周期性,AHPA 也因具备一定的猜测才能,能够提早感知数据趋势改变;对数据丢掉、噪音等也有很强的鲁棒性。此外,AHPA 相关算法 RobustScaler 也被数据库范畴尖端会议 ICDE2022(CCF A 类)的长文论用,详细内容请参考论文《RobustScaler: QoS-Aware Autoscaling for Complex Workloads》 [ 3] 。
图2 AHPA 算法结构图
在 ACK 集群中使用 AHPA 请参考文档 [ 4] ,欢迎我们试用并供给宝贵意见。
相关链接
[1] Zhiqiang Zhou, Chaoli Zhang, Lingna Ma, Jing Gu, Huajie Qian, Qingsong Wen, Liang Sun, Peng Li, Zhimin Tang, “AHPA: Adaptive Horizontal Pod Autoscaling Systems on Alibaba Cloud Container Service for Kubernetes”, in Proc. AAAI Conference on Artificial Intelligence and 35th Annual Conference on Innovative Applications of Artificial Intelligence (AAAI/IAAI 2023) , Washington DC, Feb. 2023. (AAAI/IAAI 2023 Innovative Application Award)
[2] Qingsong Wen, Linxiao Yang, Tian Zhou, Liang Sun, “Robust Time Series Analysis and Applications: An Industrial Perspective,” in the 28th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD 2022 Tutorial.
qingsongedu.github.io/timeseries-…
[3] Huajie Qian, Qingsong Wen, Liang Sun, Jing Gu, Qiulin Niu, Zhimin Tang, “RobustScaler: QoS-Aware Autoscaling for Complex Workloads,” in Proc. IEEE 38th International Conference on Data Engineering (ICDE 2022), Kuala Lumpur, Malaysia, May 2022
[4] 文档
help.aliyun.com/document_de…
点击此处查看阿里云容器服务 AHPA 弹性猜测产品文档概况。