更多技术沟通、求职时机,欢迎重视字节跳动数据渠道微信大众号,回复【1】进入官方沟通群
在日常数据处理作业中,产品、运营、研制或数据分析师常常会面临数据量大且混乱、质量良莠不齐的问题,需求花费很多时刻和精力校验表数据是否完整、是否有空值,表数据是否有反常、主键是否重复等。
这种校验作业也被称为“数据探查”,即数据担任人在上线前对数据进行测试,确保数据符合事务预期,防止下流用户因为数据过错导致决议计划失误;或许数据使用者在启用数据表时,对表中数据的质量进行核对,尽早发现缺点并处理,加强数据质量保证。
一般来说,数据从业者会经过写SQL的方法来进行数据探查。但作为数据库查询语句,SQL具备必定专业门槛,并且重复操作、花费时刻。
火山引擎Dataleap推出的“数据探查”功能,可一举处理以上问题,帮助数据从业者校验数据量、主键、空值、枚举值等数值。用户只要进行简单的勾选操作,就能轻松取得详细、精确的可视化校验陈述,极大节约时刻本钱,提高作业功率。
具体来说,用户从DataLeap进入「数据质量」即可找到「数据探查」模块,从这一界面中点击「承认」按钮即可创立校验。除此之外,用户在DataLeap中创立EMR/LAS SQL相关类型使命之后,也能够经过使命面板上的「数据校验」button进入「数据探查」模块。
第一步:挑选数据源
依据引擎侧挑选探查对象,用户可在页面中挑选表和库,并设置分区,和对应的探查设置,随后提交承认。
第二步:挑选校验内容
如下图所示,在随后的详细设置页面中,使用者对表NULL值、0值、数值分布、字段枚举值、字段空值等需求校验的项目进行勾选。
第三步: 高档参数 设置
在参数设置中,支持以传参方法设置探查滤条件,点击承认,即可完结。
办理探查成果
数据探查创立成功后,能够执行检查探查陈述、查找探查成果、检查运行日志等操作,点击探查成果列表前的折叠图标或点击全部打开按钮,打开列表信息
校验陈述一览
最后,用户经过「数据探查」能够得到什么信息呢?DataLeap将表中的数据信息以概览和图表的方法进行出现。
①标题及概览
用户能够一目了然看到校验的基本参数:如谁建议的校验、探查完结时刻、分区字段及过滤条件等。
在校验概览中,用户能够看到整张表的探查规则下行数的枚举值分布,主键重复的行数,出现空值的字段数。
② 字段枚举值
左边可挑选用户指定的枚举字段,右侧以列表展示该枚举字段下的一切枚举值及其出现次数,以及在各个分组取值下的枚举值数量。
除了数据探查才能之外,作为大数据研制办理套件,DataLeap还能够提供数据集成、开发、运维、办理、资产、安全等才能,帮助用户提高数据研制功率、降低办理本钱,加快推进企业的数字化转型。
点击跳转 大数据研制办理DataLeap 了解更多