在运用 BI 东西的时分,常常遇到的问题是:“不会 SQL 怎么出产加工数据、不会算法可不能够做发掘剖析?”而专业算法团队在做数据发掘时,数据剖析及可视化也会出现相对分裂的现象。流程化完结算法建模和数据剖析作业,也是一个提效的好办法。一起,对于专业数仓团队来说,相同主题的数据内容面临“重复建造,运用和办理时相对分散”的问题——究竟有没有办法在一个使命里一起出产,同主题不同内容的数据集?出产的数据集可不能够作为输入重新参与数据建造?

1. DataWind可视化建模才能来了

由火山引擎推出的 BI 渠道 DataWind 智能数据洞悉,推出了全新进阶功能——可视化建模。

用户可经过可视化拖、拉、连线操作,将杂乱的数据加工建模进程简化成清晰易懂的画布流程,各类用户依照所想即所得的思路完结数据出产加工,从而下降数据出产获取的门槛。

画布中支撑一起构建多组画布流程,一图完结多数据建模使命的构建,提高数据建造的功率,下降使命办理本钱;别的,画布中集成封装了超过 40 种数据清洗、特征工程算子,掩盖初阶到高阶的数据出产才能,无需 Coding 完结杂乱的数据才能。

2. 零门槛的 SQL 东西

数据的出产加工是获取及剖析数据的第一步。

对于非技能运用者来说,SQL 语法存在必定运用门槛,一起本地文件无法定时更新,导致看板每次都需求手动重做。获取数据所需的技能人力往往需求排期,数据的获取时效及满意度大大打折,因此运用零代码的数据建造东西变得尤为重要。

下方罗列两个典型场景,零门槛完结数据处理在作业中是怎么应用的。

2.1 【场景1】所想即所得,可视化完结数据处理进程

在产品运营迭代急需不同数据的及时输入反馈时,能够抽象数据的处理进程,经过可视化建模拖拉算子构建数据处理进程。

如要获取依照日期、城市粒度的订单数及订单金额,并获取每日 Top10 消耗金额数据的城市数据,操作如下:

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

2.2 【场景 2】多表快速结合,轻松处理多数据相关核算

在数据处理进程中,有多个数据源需求进行组合运用,惯例经过 Excel 需求掌握高阶 Vlookup 等算法有些难度,且耗时长。一起数据量较大时,电脑性能或许没办法完结数据的组合核算。

如有两份数据量比较大的订单数据和一份客户特点信息表,需求根据账单金额和本钱金额核算赢利金额,然后依照赢利奉献高低取 Top100 的用户订单信息

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

3. AI 数据发掘,不再高不可及

当根底的数据清洗已经没办法满意数据建造和数据剖析,需求 AI 算法加持去发掘数据更多隐藏的价值时。算法团队同学或许苦于无法很好与可视化图表联动运用,没办法出产好的数据快速被应用;而普通用户或许直接被 AI 代码的高门槛直接压灭了这个算法的苗头——提需求又怕需求太浅、价值无法很好评价输出,此时算法发掘成为了一种奢望。

DataWind 的可视化建模封装了超过 30 类常见的 AI 算子才能,用户仅需了解算法的效果能够经过装备化的方法装备算法算子的输入和练习方针即可完结模型练习,根据装备的其他数据内容快速得到猜测结果。

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

下方将以两个典型场景为例,看不写 Python 怎么完结数据发掘。

3.1 【初阶】不会 Python 也可做数据发掘

用户日常作业基本不涉及写 Python,但存在做数据发掘的需求场景。他需求基于存量高意向客户样本做客户意向度发掘。此时可经过可视化建模构建数据发掘流程:

  1. 拖入样本数据和悉数数据作为数据输入。
  2. 拖入分类算法,如 XGB 算法用于模型练习。
  3. 拖入猜测算子,建立模型与悉数数据的关系进行猜测。
  4. 实践数据和猜测结果结合输出数据集,从而剖析悉数用户数据的意向分布。

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

3.2【高阶】不写 Python 也可构建杂乱算法模型

用户需求根据现有数据,构建一个用户回购模型。在模型建立中需求经过数据清洗、格局转化之后选用梯度提高树构建猜测模型,此时能够根据可视化建模构建回购模型流程:

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

  1. 合并行:将 n 个算子(图中的长方形)输出数据表根据共同的表头合并成一张总的数据表,用户出售数据没有增删新特点时此处不必改动。

  2. 缺失值替换:特点列存在空值(null)时,会影响后续模型核算,运用替换缺失值算子能够将空值替换为指定默认值,用户出售数据没有增删新特点时此处不必改动。

  3. one-hot 编码: 文本类型的特点无法直接被模型练习运用,需求 one_hot 编码成数字向量例如:

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

  1. 梯度提高树:负责拟合练习数据,输出一个能够用于猜测的模型(图中没有标注的参数不需求维护人员修正):

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

  1. 聚合_1:去除猜测数据中的重复项,取最大概率。

  2. 提取字段:提取必要的 label 和概率值输出。

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

4. 多场景、多使命建造,办理不再分散

作为数据剖析师,日常也会有很多构建数据集、建立数据看板的作业。但一般从数仓获取的底表会是一张宽表,在此根底之上,根据不同的场景需求建立不同的数据集使命。

在后续的运用时,常常会遇到相似的的数据集越来越多,但详细逻辑又无法很好的对比承认。此时,假如所有数据集逻辑在一个数据集里边装备生成,每个数据集经过使命流程就能够判断和定义应用就好了。

针对这一场景,DataWind 的可视化建模才能也能够很好的完结。可视化建模功能支撑单一数据集一起被多种逻辑处理加工生成多个数据集。以处理订单数据和用户数据为例:

  1. 有用户想看订单的计算数据,那么能够建立订单计算数据集的数据处理流程。
  2. 有用户就想看明细数据,可是需求对明细字段进行加工清洗,这时能够构建订单明细表数据集的处理流程。
  3. 有些用户又想结合用户特点去计算用户的订单分布,那么构建多表相关结合指标聚合生成完结用户订单计算数据集。
  4. 同样逻辑能够生成多表相关下的用户订单明细数据集。
  • 由此,经过一个使命、两个数据输入完结了 4 个数据集的生成,4 个数据集能够构建一个数据主题域,后续相关数据运用均可从此使命输出的数据集进行运用。

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

5. 关于我们

火山引擎智能数据洞悉 DataWind是一款支撑大数据明细等级自助剖析的增强型 ABI 渠道。从数据接入、数据整合,到查询、剖析,终究以数据门户、数字大屏、办理驾驶舱的可视化形态出现给业务用户,让数据发挥价值。

欢迎加入字节跳动数据渠道官方群,进行数据技能交流、获取更多内容干货。

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写