这是我参与「第四届青训营 」笔记创造活动的第29天
本次笔记重点内容
- 为什么做职业数据剖析
- 数据剖析环节
- 数据剖析流程
- 机器学习概览
- 特征工程
- 聚类算法
- 聚类画像剖析
为什么做职业数据剖析?做数据剖析有什么收益?
在企业竞赛越来越激烈、获客本钱越来越高的布景下,如何高效地优化产品和精细化投进运营是当前企业竞赛的要害,而用户数据剖析正是咱们保持此竞赛力的重要手法,咱们通过数据来驱动用户增加、降低本钱和进步收益。
数据剖析的各个环节
目标体系
目标体系是结合事务战略目标和事务场景,体系化整理构建的目标调集。咱们构建的目标调集通常是分级的,以满意不同级别的人的数据运用需求。
目标是数据的量化统计,维度是数据的分组方法,口径是指这个数据是怎样算出来的。
搭建目标体系有什么用处呢?
- 衡量经营状况
- 共同口径和共同认知:便于后续沟通
- 团队牵引
- 支撑后续拟定目标和衡量目标
- 发现问题
- 定位问题
埋点
什么是埋点数据?
它是指上报的记录着触发原因和状况信息的日志数据。依照上报方来看,可以划分为“服务端埋点”和“客户端埋点”;依照上报方法,可以划分为“代码埋点”、“可视化全埋点”。企业最常用的是代码埋点。
埋点有哪些要素?
who when where how what how_much。例如:“张三”于“北京时间2022年1月2号12点整”在“游戏商城”用“xx付出”的方法“充值”了“500元”钻石。
数据剖析各个环节
常见剖析东西
数据表和SQL
表的根本构成:表名、表字段、表字段类型等。SQL:结构化查询言语,用来操作表的言语。细分为DDL(数据界说言语)和DML(数据操作言语)等。这些表的建模和查询sql是需求做精心优化的,以提升查询功用并削减资源糟蹋。
行为剖析——事情剖析
行为剖析东西包括很多模型,咱们把用户日常最高频运用的功用进行了固化,用户只需在界面装备自己要剖析的埋点、特点挑选和分组项,即可在几秒内查询出数据结果。
数据可视化
数据剖析的流程
剖析思路
数据剖析常见问题
- 上游数据质量不高,要对数据采集和清洗方面下功夫
- 不验证就全量上线
- 优化战略短期有利而长期有损,长期会导致用户的流失
- 过火发掘用户信息,不重视用户隐私保护
机器学习
为什么要机器学习?
人工智能年代已经到来——个性化引荐、机器翻译、人脸辨认,大数据成为热议的内容——数据多、产生快、方法杂、组织乱,急于处理实际的事务战略问题——事务需求从大数据中发掘数据背后隐藏的价值。
什么是机器学习?
机器学习使得计算机在没有明确编码规则的状况下具有自主学习才能。机器学习就是把无序的数据转换为有用的信息; 从数据中自动剖析获得模型,并运用模型对不知道数据进行猜测。
规范流程
机器学习算法
- 监督/非监督学习——取决于练习是否需求人类的监督
- 批量/在线学习——取决于体系是否能持续从数据流中学习并更新
- 根据实例/模型学习——取决于体系是直接把新数据与旧数据比较仍是通过建模来猜测
挑战
- 过拟合(Overfitting):意味着算法可能过于复杂,不止学到了该学的规则,还将噪音、异常学到心里,使得无法很好猜测新样本
- 欠拟合(Underfitting):意味着算法可能过于简略,没学到精髓
- 练习数据太少
- 练习数据不具备代表性
- 数据自身质量很差
- 选取的特征没有相关性
大数据场景下对资源的要求十分高,比方存储和算力。
特征工程
界说
机器学习的实质是特征工程,特征工程是将原始数据转化成更好的表达问题实质的特征的进程。
流程
数据了解
数据是什么样的方法?
- 结构化数据与非结构化数据
- 结构化数据:如一些以表格方法进行存储的数据
- 非结构化数据:就是一堆数据,类似于文本、报文、日志之类的
- 定量和定性数据
- 定量数据:指的是一些数值,用于衡量某件东西的数量
- 定性数据:指的是一些类别,用于描绘某件东西的性质
数据预处理
数据清洗
缺失值、异常值、噪声等处理。
数据集成
获取数据进程中可能涣散在各种载体中,需求融合到共同的数据存储库中
数据规约
拿到的数据过多且存在无用的数据,需求得到数据集的归约,它小得多,但仍挨近地保持原数据的完整性
数据变换
数据变换包括对数据进行规范化,离散化,稀少化处理,达到适用于发掘的意图
特征构造
指从现有的数据中构造额外特征,可以更好地应用到猜测模型中
特征选择
在实际项目中,可能会有很多的特征可运用,有的特征带着的信息丰富,有的特征带着的信息有重叠,有的特征则属于无关特征,要排除无效/冗余的特征,把有用的特征挑选出来作为模型的练习数据
聚类算法
聚类算法是机器学习中触及对数据进行分组的一种算法,相同的组的数据之间有相似的特点或许是特征,不同组数据之间的特点或许特征相差就会比较大。
常用聚类特征
- 人口特点:性别、年纪、地域等
- 常用目标:活跃度、时长、消费次数等
- 消费偏好:用户运用不同功用的时长占比、点击占比,每天进入该app的启动方法等
常用聚类方法
聚类算法 | 长处 | 缺点 |
---|---|---|
根据间隔——K-means | 完成简略快速、聚出的类别相对均匀 | 受初始点选择影响较大、无法自界说间隔、无法辨认离群点、需求事先确定簇的数量 |
根据密度——DBSCAN | 可以辨认离群点、对特别散布效果好 | 聚出的类别欠均匀、受密度界说影响较大、不擅长处理密度不均的数据 |
层次聚类 | 对特别散布效果好、类的层次联系具有必定价值 | 有时聚出的类别欠均匀、内存不友好 |
聚类画像剖析
一个根据聚类的用户画像剖析东西,以对用户群体进行标示及定位。
- 协助运营剖析师PM等洞察群体用户在站内的消费、投稿内容生态状况
- 研究用户与内容的联系和演化,了解事务增加的改变,拟定用户与内容的增加战略
流程
应用场景
- 用户群体的爱好偏好,协助了解站内人群的结构
- 内容消费状况,协助了解哪些内容更受欢迎
- 发现中心群体,根据其喜欢的内容,拟定增加战略