项目背景
数字金融是数字经济的重要支撑和驱动力。近年来,我国针对数字金融的展开政策频频出台,《金融科技展开规划 (2022-2025年)》、《“十四五”数字经济展开规划》、《关于银职业保险业数字化转型的指导定见》、《金融标准化“十 四五”展开规划》等相继发布,顶层规划逐步完善。
2024年,政府作业报告也提出要大力展开科技金融、绿色金融、 普惠金融、养老金融、数字金融,未来数字金融是我国金融展开要点之一。
我国金融业正在步入数字化转型的关键阶段,一起在展开中面临着许多应战与难点,如数字基础设施建造缺乏、数字安全保障机制不健全等。
某国有银行地区性分行(以下简称“银行”)主动融入数字经济新浪潮,抢抓机遇、乘势而上,不断深化数字化转型晋级,积极加速金融产品交融创新,但是在展开中仍面临显著困难。
痛点与应战
具体到事务上,银行需求对总行分发的数据进行加载和转换,每日使命约 3000。随着新事务不断添加,使命总量在 1 万左右。银行的事务场景触及到接收上游体系供给的文件数据,并将数据导入到 GreenPlum 等剖析数据库中进行数据剖析。此前,银行运用自研的调度体系来进行使命的调度,但随着数据量急剧增加和全新事务场景的出现,这个调度体系陈旧、功用不行的缺陷暴露出来。
总的来说,银行在数据调度上面临着以下痛点问题:
- 前期自研体系体系灵敏性较差,体系保护作业量巨大,跑批出现问题时对事务正常展开产生影响的风险较大,且关于新支撑新增事务的需求,需求投入研制人员定制开发;
- 不支撑分布式体系,扩展功用差,面对急剧增加的数据量无法快速完结扩容;
- 事务方触及不同部分,对程序理解不同,运用习气也不同,难以满意所有事务部分的运用需求;
- 上游文件数量多,来历广,而且抵达时刻不定,需求随时监控数据抵达状况,并在产生异常状况时及时宣布告警;
- 跨部分运用场景多,需求跨项目依靠和准确的影响剖析查询,便于追溯完好的上下游关系;
- 多事务部分运用调度时,无法高效复用已有调度,并限制相关权限;
- 银行关于信创环境支撑的需求越来越急迫,但苦于原体系无法进行改造以支撑信创操作体系、信创服务器、信创数据库等信创环境。
项目需求
银行将紧跟总行的企架各批次分行特色体系建规划划,推动信创化建造,并发挥科技赋能效果。方针是满意公司数据体系建造中数据处理使命的一致调度和监控需求,一起推动建造信创下的一致调度办理渠道。
为了完成这一方针,银行将树立每日流水线使命的集中界说和集中操控机制,答运用户灵敏地装备多种类型的作业使命,并一致调度和监控运维。这个一致调度办理渠道需求具有高功用、高可靠性,一起易于扩展的特色,以满意银行在多样化功用上的开发需求。
最重要的是,流水线使命一致调度办理渠道使银行可以全面监控和盯梢办理各数据加工节点的处理过程,协助银行更有效地办理数据处理使命,完成对使命的全面掌控。
针对这些需求,调度体系需求满意以下要求:
-
支撑分布式的架构及资源操控等方法,完成高可靠性,高处理功用。
-
支撑多种丰厚的使命类型,包含Shell、MR、Spark等。
-
具有良好的办理接口,易于办理,到达简单易用,使得用户有流畅的产品体会。
-
供给强壮的使命履行功用,支撑指定使命的运转、空跑测验功用等才能。
-
供给参数办理和数据源的一致保护才能及日历办理才能和作业流装备办理才能。
-
供给完善的监控和告警才能,支撑作业流和使命的运转状况计算和监控、使命日志在线查看、服务器资源监控、数据质量检测和告警。
-
供给监控和计算以及权限办理功用,支撑一致的数据监控、运维服务需求等。
除此之外,调度体系还需求支撑用户的个性化需求,比如经过产品的多样化结构装备,满意对接银行行内登录、权限组件、短信接口、行信接口、个性化展现页面,以及20条存量作业流迁移等作业需求。
WhaleScheduler解决方案
白鲸开源自主研制的WhaleScheduler国产信创化调度渠道可支撑银行在数据体系建造中不同场景的使命调度需求,满意金融职业企业级用户对体系的稳定性、可靠性、合规性、高功用、支撑信创环境等要求。WhaleScheduler为银行批处理使命制定一致的开发标准、运维方法,对各体系的批量使命进行一致办理、调度和监控,契合银行不同事务运用环境的功用需求,并供给了私有化布置和开发支撑。
01 无中心化架构规划
白鲸开源WhaleScheduler选用先进的无中心架构的规划思维,经过注册中心发现服务,服务之间可以互为备份,确保了体系的高可靠性的一起,也可以做到水平扩展服务数量,以坚持银行事务的稳定性,很好地支撑千万等级的使命数量。 WhaleScheduler 架构图
02 分布式布置
WhaleScheduler为银行供给的所有服务均选用分布式布置,支撑高稳定性、高功用和高容错性,确保供给可继续运用的服务。
集群布置架构图
03 多种使命类型
WhaleScheduler支撑包含Shell、MR、Spark、SQL(MySQL、PostgreSQL、Hive、SparkSQL)、Python、Sub_Process、Procedure等使命类型,一起具有跨项目依靠和补数功用。
04 全形式DAG开发才能
体系选用全“所见即所得”规划形式,用户可以经过拖拽,快速生成杂乱的DAG使命作业流,而无需掌握大量代码和大数据底层常识。
05 强壮的使命履行功用
支撑指定使命的运转、空跑测验功用,支撑日期参数的输入,支撑多个前置使命状态的逻辑判别或前置使命的输出参数判别,支撑SSH远程登录方针服务器并在其上履行使命等才能。
06 丰厚的作业流装备办理才能
支撑作业流Excel文件的导入导出、模板与实例别离、多种环境运转使命、灵敏的参数界说和传参功用,以及作业流概况展现和多种运转策略。
07 监控本地/远程服务器文件
体系经过Trigger使命类型支撑监控本地/远程服务器文件抵达事情、数据库条件成立事情,并供给大局Dashboard,项目Dashboard,支撑作业流和使命的运转状况计算和监控、使命日志在线查看、服务器资源监控,数据质量检测,以及邮件、钉钉、企业微信、HTTP、脚本等十余种告警方法,自界说告警类型也可以轻松做到。
08 多样化的日历功用
WhaleScheduler供给强壮的日历办理功用,支撑不同项目装备独立的日历。可视化日历装备和模板导入导出的保护方法关于银行作业人员的用户体会来说也是非常友爱的,创建、修改、删去、导入导出等操作方法一目了然。假如有需求,用户还可以按日历进行调度,也可以基于日历或翻牌使命获取日期数据。
09 使命级血缘剖析
银行跨部分的运用场景需求跨项目依靠和准确的影响剖析查询,这一点非常重要。对此,WhaleScheduler供给了完善的体系影响剖析功用,可以剖析使命级的血缘,血缘剖析包含作业流、使命,作业中的子流程,以及子流程中嵌套的依靠等,让用户可以查看完好的使命上下游关系。
10 数据质量检测
银行的上游数据类型多,来历杂乱,数据质量检测是重要的一环。WhaleScheduler支撑数据质量检测,检测规矩包含不限于空值检测、枚举值检测、表行数校验、两表值比对校验等检测规矩。假如检测过错的数据条数超越阈值,需求告警出来或许作业流失利停止,用户可以设置超越阈值告警或让作业流失利。
11 用户人物菜单权限管控
支撑用户操作审计,设置用户、人物、资源、权限来规划不同部分的功用权限,满意银行对安全与权限的特殊需求。
12 高可伸缩性支撑
调度集群可以随使命量的添加及时添加资源,继续供给服务。
13 使命保护人员装备
体系规划有完好的用户办理体系,可以进行使命保护人员的添加、修改和删去等装备图片
一起,针对银行提出的个性化功用开发,包含对接行内登录、权限组件、短信接口、行信接口、个性化展现页面以及20条存量作业流迁移等作业和现场装置、调试等作业,白鲸开源派出项目经验丰厚的团队,选用契合PMI标准的项目办理制度,以满意银行不同事务运用环境对功用的需求。
白鲸开源WhaleScheduler为银行供给了高可靠性、高功用、多场景支撑、支撑全站华布置运转的强壮调度功用,不但可以到银行各规划、各层次的高可靠性、高安全性、可扩展性和可办理性的要求,还充沛考虑到银行未来3-5年的展开需求,可习惯银行不断展开的事务和办理需求。
白鲸开源
白鲸开源科技是一家由多名 Apache Software Foundation Member, Apache DolphinScheduler 和 Apache SeaTunnel 核心成员组建的公司。我们致力于打造下一代云原生 DataOps 渠道,助力企业在大数据和云时代,智能化地完结海量数据的处理、调度和管理,以进步企业解决数据问题的效率,提高企业剖析洞察才能和决策才能。
本文由 白鲸开源科技 供给发布支撑!