导读:我国邮政储蓄银行是我国抢先的大型零售银行,具有近 4 万个营业网点,服务个人客户超 6.5 亿。从 2023 年起,我国邮政储蓄银行引进 Apache Doris 作为其间心剖析引擎来构建智能风控反诈骗途径,打造事前检测、事中阻断、过后剖析的全方位一体危险防控体系,完结对全行网络金融、个人金融、信用卡、消费信贷等事务买卖的全面危险监控。反诈骗途径的上线完结了毫秒间的危险辨认、日均阻拦危险买卖数万笔、有效阻挠客户丢失数千万,全面提高了我国邮政储蓄银行的危险防控才干和金融服务的安全性,也为客户供给了更加安全、便捷、高效的金融服务体会。
作者|我国邮储银行 软件研发中心技能专家 狄潇然
我国邮政储蓄银行是我国抢先的大型零售银行,具有近 4 万个营业网点,服务个人客户超 6.5 亿,定坐落服务“三农”、城乡居民和中小企业,依托共同的“自营+代理”的形式和资源禀赋,致力于为我国经济转型中最具生机的客户群体供给服务,并加快向数据驱动、途径协同、批零联动、运营高效的新零售银行转型。
随着科技的开展和互联网的遍及,移动付出以其方便、方便、高效的特色,逐步成为人们日常日子中首要的付出方法。然而,这种付出方法的遍及也为不法分子供给了待机而动,比方面临付出账号盗窃、买卖诈骗、未经授权付出、信息泄露等威胁。为应对这些挑战,移动付出途径和金融机构采纳了一系列安全措施和反诈骗手法,以保护企业和客户的利益及财物安全。
我国邮政储蓄银行高度注重反诈骗作业,投入了很多资源来升级技能途径,致力于为客户供给安全可靠的金融服务环境。从 2023 年起,我国邮政储蓄银行引进 Apache Doris 作为其间心剖析引擎来构建智能风控反诈骗途径,并根据反诈骗途径构建了智能风控体系屏障,打造事前检测、事中阻断、过后剖析的全方位一体危险防控体系,完结对全行网络金融、个人金融、信用卡、消费信贷等事务买卖的全面危险监控。
反诈骗途径的上线完结了毫秒间的危险辨认、日均阻拦危险买卖数万笔、有效阻挠客户丢失数千万,全面提高了我国邮政储蓄银行的危险防控才干和金融服务的安全性,也为客户供给了更加安全、便捷、高效的金融服务体会。
事务布景
时刻是金融反诈骗举动中的要害目标,从反诈骗途径中能否实时监控并快速获取反诈骗相关数据进行剖析,并根据数据挖掘出具有要害价值的线索,直接影响反诈骗举动的胜败。为了满意这一需求,我国邮政储蓄银行注重时刻敏感性,对反诈骗途径提出了以下三个要害要求:
- 案子溯源:需支撑对已生成案子即席深化溯源剖析,包含对诈骗行为的源头、路径、触及人员、设备和其他相关信息的剖析;
- 运营监测:需支撑对买卖数据、行为数据、模型战略、危险特征进行实时监测,一旦发生危险事情,及时进行危险预警和干预;
- 实时精确:需支撑实时精准的报表剖析,能够实时捕获各类危险改变,具有高效、精确的快速呼应才干。
其间中心实时剖析引擎是反诈骗途径最要害的组成部分,需求担任汇集和处理海量实时买卖数据、并向多个风控数据运用供给剖析服务,如若想满意上述事务要求,实时剖析引擎需求具有灵敏、高效、精确的处理和剖析才干:
- 多表相关功用优异:邮储银行内部分级建模、危险运营剖析会触及多表相关剖析,具有数据规划大、剖析维度不固定和查询逻辑杂乱等特色,因而对多表相关功用和杂乱 SQL 处理才干有较高的要求;
- 承载高并发查询:计划向数万网点的众多一线事务人员敞开查询权限,因而查询并发量巨大、查询事务顶峰集中、案子溯源逻辑更加杂乱等问题,因而对引擎的并发查询量要求十分高;
- 实时高频写入:反诈举动强调高实时性、需求在诈骗行为发生时立即作出呼应,这是反诈能否成功的要害要素,因而剖析引擎需支撑上游数据的实时写入以迅速捕获风控特征改变;
- 支撑写入事务、保证数据的一致性:某些运营目标对计算精度要求较高,需求做到端到端的“精准一次消费”语义,防止进步射中率的一起对正常的客户造成不必要的搅扰;
- 运维难度低:上手简单,在监控、灾备、扩缩容、数据搬迁等方面有主动化工具,以下降运维成本和运用危险。
技能选型
在曩昔很长一段时刻里,当人们讨论起大数据剖析时经常提及 Hive,似乎 Hive 已经成为大数据剖析的代名词。然而以 Hadoop 体系无疑会引进很多的数据组件,导致数据架构更加杂乱、带来昂扬的运用成本和极大的运维及管控压力,且每个组件只能处理单场景的事务痛点,却难以满意事务快速增长关于数据剖析功率和时效性的需求。
因而咱们在 Apache Doris、ClickHouse 以及 Greenplum、Cassandra、Kylin 等多个剖析组件中进行了比照,其间重点对以实时剖析功用强悍著称的 Apache Doris 和 Clickhouse 进行横向比照。在整个调研测验的进程中,咱们依据实际事务场景特色规划了 89 个测验用例、前后进行了五轮布置及测验、形成了近十万字的调研结论报告, 终究得出以下成果:
- 从实时写入功用来看,Apache Doris 在写入功用方面体现优异,在同等硬件资源下其实时写入速度是 ClickHouse 的 6 倍, 且支撑事务写入、“精准一次消费”语义;
- 在单表查询场景下,Apache Doris 与 ClickHouse 才干相等,均能够满意当时事务场景中对单表查询功用的要求。
- 在多表相关场景下,Apache Doris 在多表 Join、杂乱聚合以及高并发场景下的查询功用相较于 ClickHouse 具有明显优势。
- 从运维办理角度来看,Apache Doris 具有完好的高可用计划, 不管单节点故障、节点扩缩容、集群升级等都不会影响在线事务运转,并集成了多个运维办理工具,无需人工干预、可大大下降运维办理的难度。
经过归纳评估,咱们终究决定选用 Apache Doris 来构建我国邮政储蓄银行的反诈骗途径。
根据 Apache Doris 构建金融反诈骗途径
在反诈骗途径的整体架构中,首要数据链路如下图所示:
事务数据首要包含以下三类:
- 维表数据:维表类数据首要存储在联系型数据库 PostgreSQL 中,包含机构号或码表类数据;
- 买卖数据:大部分实时买卖数据经过消息队伍 Kafka 与各外部体系进行解耦;
- 离线数据:部分外部体系的离线数据直接接入进 Hive 中,便于数仓进行补数操作。
在数据收集阶段, 咱们经过 Apache Doris 的 JDBC Catalog 与 PostgreSQL 数据库进行相关,完结元数据信息和用户数据的实时库表同步。
为了处理和剖析买卖数据,咱们运用 Flink SQL API 分别从 Kafka 中读取实时买卖数据、从 PostgreSQL 数据库中获取维表数据并在 Flink 中进行多流 Join 和打宽操作。为了完结维表的即时改写,咱们选用了 Lookup Join 机制,在处理数据流时动态地查询和更新维表数据。此外咱们还选用了 Java UDF 进行数据的 ETL 处理,以满意特定的事务需求和数据转化要求,终究处理完结的数据经过 Flink Doris Connector 写入至 Apache Doris 中。
关于离线数据,在进行离线清洗和转化加工后会分别进入到 Hive 等多个数据源中,经过 Multi-Catalog 来树立对应的外部数据目录,经过 Hive Metastore 来主动获取及改写 Hive 的库表信息,便于后续进行数据联邦查询操作。
在数据建模部分, 咱们在 Apache Doris 内部构建了从 ODS 到 DWS 的数据仓库分层体系,实时和离线接入的数据会进入 ODS 贴源层,随后依照事务维度进行数据分化、依照从分钟级到小时级到天级的时刻粒度逐层向上抽取和聚合数据,终究树立高度聚合的 Rollup/物化视图,面向事务供给风控报表服务。
以上便是数据收集和数据建模的全流程,现在这套体系已能够有效监控危险运营,并支撑对机器进行深化剖析以及对案子进行溯源。经过这一体系协助咱们全面了解危险状况,并采纳相应的措施来应对和办理危险,关于保证事务的安全和稳定开展至关重要。
从 T+1 缩短至分钟级,风控报表实时展现
实时特征的计算能够协助体系及时捕捉到反常行为和形式,这对反诈骗作业的指导十分要害。曩昔首要存在危险特征展现不全面和危险趋势改变捕获不及时等问题,因而咱们需求经过对买卖数据、用户行为以及其他要害信息的全面实时监测,及时发现反常措施并采纳相应的措施,以削减和防止诈骗事情的发生。
从具体完结而言,咱们运用 Apache Flink 与 Apache Doris 进行风控数据实时 ETL 和实时计算。首要依照规矩、模型、设备、地址等 17 个维度对数据进行建模计算,进程包含清洗、聚合、核算等,将处理后的报表实时展现在大屏上,完结了风控信息的可视化,便于事务人员及时捕捉危险信息,供给决议计划支撑并进一步开展风控阻拦操作。上线至今已支撑超越 1000 万客户、3 万柜员、1 万个支行网点和 1 千个产品的在线计算剖析, 该计划的成功运用为反诈作业带来了明显的收益,保证整个反诈骗举动的顺畅进行:
- 风控报表的更新周期大幅缩短,从以往的 T+1 离线处理提高至分钟级准实时处理;
- 支撑杂乱的即席剖析,能够监控模型和规矩的运转状况,及时捕捉当时的危险信息;
- 定向剖析的速度从本来的小时级缩短至分钟级,且无需人工接入即可完结,极大的提高了剖析功率。
多维特征杂乱剖析,完结案子全面溯源
案子溯源在反诈骗作业中的重要性不可忽视,其在依据收集、责任追查、危险防备和反诈骗作业作用提高等方面发挥着要害作用。当案子或案子报告生成后,咱们需求树立一套完好的溯源剖析手法,以完结对案子的全面追溯和剖析。一起,咱们还需求进行准实时的案子计算剖析,并将成果以可视化的方法展现,协助事务人员更好地了解案子状况,并能够及时采纳相应的举动。
为完结上述需求,咱们选用 Apache Doris 对案子生成后的多维度特征进行计算剖析, 不管是根据案子来源、类型、时刻等维度,仍是其他相关特征,咱们都能够进行全面的计算。一起 Apache Doris 具有强壮的的即席查询才干,支撑 10+ 种杂乱条件的实时计算剖析。 它能够依据实际需求进行杂乱条件下的即席计算,包含多个维度的组合、挑选条件等计算核算。
该计划现在已经支撑超 1 万笔案子的数据剖析和详情剖析,大幅缩短了案子溯源的时刻成本,并能够在秒级内回来按键锁触及的维度计算信息。 不管是关于案子的规矩射中仍是名单射中,均能在彻底无人工干预的状况下,完结秒等级的案子计算信息反应, 以协助用户更高效的进行案子剖析。
工单实时快速符号,分钟级定位阻断
工单符号是对特定危险事情或疑似危险事情进行标识、分类和记录的进程,经过工单符号能够精准辨认危险类型、保证高危险事情得到及时重视和处理、下降潜在丢失,因而在整个反诈骗作业中扮演着至关重要的角色。
在工单数据十分巨大且无法直接获取到对应的特征信息时,就需求对工单信息与买卖数据进行相关剖析、经过剖析成果来定位危险并进行快速阻断。在日终处理中,咱们需求获取增量工单信息,这个进程包含遍历工单与根底信息表以获取每个工单的 ID,运用这些 ID 在 Apache Doris 中查询存储的各项维度特征,并将其与工单进行相关。终究在前端展现具体的工单信息,完结对工单在特征维度的即席查询。
获益于 Apache Doris 强壮的相关剖析功用,在该场景中经过工单信息与买卖信息的快速相关剖析,能够快速定位阻断详情,比较之前需求进行人工相关剖析的所用耗时,现在仅需几分钟即可完结, 极大进步事务团队问题定位的功率。
主动化运营预警,告警有功率高达 95%
反诈骗体系依赖于各项战略、模型和规矩,而在离线环境中,数据更新或许存在必定的推迟,规矩、模型和战略的射中成果以及计算信息需求等待 T+1 报表生成后才干了解实际作用,这将对反诈骗体系信息的精确性带来必定影响。
为了保证战略模型的杰出运转并为后续的运营供给决议计划支撑,咱们根据 Apache Doris 规划了规矩、模型和战略的主动运营预警功用。该功用完结了体系告警信息的实时接纳,并监控作业运转数据和模型战略运转数据。经过前端页面实时监听射中状况,并在需求时触发预警。经过这种机制,咱们能够快速发现运营告警事情。假如新规矩发生负面作用,能够迅速发现并作出调整乃至下线;假如新规矩作用杰出,能够迅速进行推行。这种实时反应机制使得咱们能够更快速、精确地调整咱们的战略。
主动运营预警功用可动态检测近百种不同类别的告警规矩,完结体系等级的预警提示。近两个月触发模型预警超 100 次、告警有功率超 95%,且预警速度十分快、能够在 5s 内进行告警。 该功用的上线下降了人工查询规矩和战略射中状况所需的成本,为事务人员供给了更好的危险阻拦和检测支撑。
展望与规划
Apache Doris 的成功运用在我国邮政储蓄银行的反诈骗范畴的确取得了明显的成效,经过引进 Apache Doris,我国邮政储蓄银行成功地构建了从数据收集、剖析到预警以及动态调整上线的闭环链路,极大地提高了反诈骗作业的功率和作用。
中心报表数据的实时性从以前的 1-2 天大幅缩短至仅需 5 秒内,80% 的即席剖析能够在 2 秒内回来成果,95% 的即席剖析则能够在 5 秒内回来成果, 这使得银行能够快速发现和辨认潜在的诈骗行为,并及时采纳相应的措施进行防范和冲击,终究完结日均阻拦危险买卖数万笔,有效阻挠客户丢失数千万。 除此以外,凭借 Apache Doris 高效的存储压缩比,存储成本相较之前答复下降,在节约硬件资源的一起还下降了体系维护和办理的成本。
未来,我国邮政储蓄银行也将继续推行 Apache Doris 在更多事务场景得到运用,并探究最新技能特性与事务的结合,以下是后续探究的重要方向:
- 日志存储与检索: 当时运用 ELK、Kafka、Flink、Hive 等多个组件进行日志收集和存储,触及组件较多,存在办理难度大、开发运维成本高、占用服务器硬件资源较多等问题。未来将统一选用 Kafka+Doris 的轻量级日志收集存储框架,完结日志统一管控、并能够运用 SQL 便捷查询,不仅下降了开发运维难度,还能够在不影响原事务的根底上节约服务器资源;
- 高并发点查: Apache Doris 根据列式存储引擎构建,在应对大宽表高并发查询整行数据时,或许会由于 IOPS 扩大导致 CPU 开销升高,进而影响其他事务的正常运用。在 Apache Doris 2.0 版别中增加了队伍混存,单节点可承载数万 QPS 的超高并发。未来咱们计划引进这一才干对原有体系进行优化,使实时数仓能够直接面向给不同的分行、支行时供给服务,承受住高并发下的行式数据检索和剖析,供给大数量级下的明细数据查询。
- 跨集群仿制才干: 关于金融机构来说,异地灾备(如两地三中心、三地六中心)十分必要,因而跨集群仿制才干是咱们一向重视的才干,该才干能够完结数据的快速、精确仿制,保证在灾难发生时能够及时进行主备集群切换、快速康复事务运转并削减丢失。现在 Apache Doris 已支撑跨集群仿制的才干,未来咱们将继续重视该才干的开展并进行运用尝试。