重视阿里巴巴中间件公众号,后台回复关键词【FC】查看 ACM SoCC 选用论文!
近来,阿里云函数核算产品团队编撰的关于 Serverless 调度的立异性论文被 ACM SoCC 国际会议长文选用。
去年阿里云函数核算团队首个提出在 FaaS 场景下的去中心化快速镜像分发技能,团队所作论文被核算机体系范畴的顶级会议 USENIX ATC’21 选用,当选我国核算机协会(CCF)引荐 A 类国际会议列表(概况点击阅览);今年阿里云函数核算不断突破:发布根据函数画像的调度算法论文并被国际云核算的首要会议 ACM SoCC 选用,真正做到可以确保提升函数资源利用率的一起,到达功能高稳定性。
ACM Symposium on Cloud Computing(以下简称 SoCC)是由美国核算机协会主办、集合云核算技能的一项学术会议,是云核算的首要会议。它汇集了对云核算感爱好的研究人员、开发人员、用户和实践者,是仅有由 SIGMOD(数据管理特别爱好组)和 SIGOPS(操作体系特别爱好组)联合主办的会议, 这个会议在近些年蓬勃发展,旨在集合数据库和核算机体系两大范畴的学者,共同推动云核算技能在工业界的研究与发展。
此次被选用的论文为《Owl: Performance-Aware Scheduling for Resource-Efficient Function-as-a-Service Cloud》。
此论文创意诞生于阿里云 Serverless 产品函数核算,函数核算是阿里云的函数即服务(Function-As-A-Service)产品。阿里云函数核算是事情驱动的全托管核算服务。经过函数核算,您无需管理服务器等基础设施,只需编写代码并上传。函数核算会为您准备好核算资源,以弹性、牢靠的方法运转您的代码,并提供日志查询、功能监控、报警等功能。现阶段现已覆盖了事情驱动、音视频处理、游戏、物联网、新零售、AI 等实践业务场景,并服务于阿里云、高德、支付宝、淘宝、CBU 等多个业务或项目中。
上图是一个经典的 FaaS 调度体系的架构,调度器负载将不同的函数实例调度到集群中的节点上运转。由于 FaaS 产品函数数量多、函数粒度小、履行时间短的特点,节点的资源利用率较低。简单地将更多的实例调度到同一个节点上虽然可以必定程度地提升资源利用率,可是也带来了资源争抢和功能下降。
论文针对这个问题立异地提出了根据函数画像的调度算法,在提高资源利用率的一起到达了较好的功能稳定性:
- 关于高频调用的函数,调度器会辨认不同函数实例在同一个节点共置时的功能体现,以此辅导函数实例的调度;
- 关于低频调用的函数,调度器会核算其履行过程中的实践资源消耗,以此来辅导函数实例的调度,一起调度器会监控函数的履行延时,当出现延时上升时经过阻隔的手段进行缓解;
- 调度器还针对搁置的实例进行搬迁,将它们从利用率低的节点搬迁到利用率高的节点以开释搁置节点。
为了评估算法的效果,论文根据生产环境典型的函数负载,抽象了 10 个函数,它们覆盖了不同的编程语言、资源消耗、履行时长、外部依靠。列表如下:
试验结果表明,在 100 个节点规划下,OWL 调度算法可以节省 43.8% 的资源,一起函数履行延时没有明显的增加:
调度延时也没有明显增加:
目前 OWL 的函数画像能力也现已应用在函数核算线上环境,并取得了不错的效果。此次论文当选 ACM SoCC,是阿里云在 Serverless 调度范畴的又一次立异。
附论文信息
选用论文题目:
Owl: Performance-Aware Scheduling for Resource-Efficient Function-as-a-Service Cloud
作者:田黄石,李苏毅,王骜,王威,吴天龙,杨皓然
论文概述:在云核算中,FaaS 是一种非常盛行的产品形态,主流的云产商都提供了对应的平台。作为平台构建者我们观察到大部分的函数实例的 CPU 和内存利用率都不高,造成集群节点的利用率也不高。一个简单的做法是在节点上超量放置更多的函数实例,可是这或许会带来资源争抢和功能下降。另外,函数的外部依靠也或许导致函数的功能下降。在本文中,我们规划了 OWL 调度体系来解决这些问题,到达高资源利用率和功能稳定性。关于低频调用的函数,调度器会核算其履行过程中的实践资源消耗,以此来辅导函数实例的调度,一起调度器会监控函数的履行延时,当出现延时上升时经过阻隔的手段进行缓解;关于高频调用的函数,调度器会辨认不同函数实例在同一个节点共置时的功能体现,以此辅导函数实例的调度。一起调度器还针对搁置的实例进行搬迁,将它们从利用率低的节点搬迁到利用率高的节点以开释搁置节点。我们完成了 OWL 原型体系并根据生产环境的负载构造了一组测验集。试验结果表明,OWL 调度体系可以削减 43.8% 的资源消耗并有用缓解功能下降。