携手创作,一起生长!这是我参加「日新计划 8 月更文应战」的第30天,点击查看活动概况

阐明

本系列博客将记载自己学习的课程NLP实战高手课,链接为:time.geekbang.org/course/intr…本篇为29-30节的课程笔记,首要介绍经典的结构化数据发掘方法和表格化数据发掘的根本流程。

什么是结构化数据

结构化数据指的首要是表格数据(Tabular Data),一种最简单的举例比如它会是能够记载在 Excel 表格中的表格数据,每列数据一般称之为一个变量(字段),按变量类型能够分为离散型变量和连续型变量,而现实生活中,绝大多数的数据都是表格数据(或能够转化为表格数据)。

NLP实战高手课学习笔记(16):结构化数据挖掘概述与基本流程

结构化数据的传统建模流程

传统来说(在某种意义上仍是如此),结构化数据常常要求大量的事务了解,其中探索性数据剖析往往占很大成分,大约90% 时刻花在清洗数据和探索性剖析上。传统的建模流程中往往需求工程师在现有数据的基础上手动选取特征,这需求对事务有很好的了解能力,然而,假如没有试验,这种事务了解能力则是无法获取,因此传统的建模流程存在一个最中心的悖论:事务了解从哪里来?

除此之外,还有以下问题需求处理:

  • 高维稀少变量
  • 较差的变量质量
  • 相似的事务了解能力
  • 事务的多变性

数据发掘比赛和新的建模流程:比赛根本流程和应战

数据发掘比赛中,参赛者往往也没有事务了解,而且只有少量提交机会,因为测验集和练习集或许不一样,这将要求建模成果有必要稳定;一起,因为比赛时刻时间短,有必要充分使用时刻。最重要的一点是:数据发掘比赛和实践事务中的建模有相似应战,但有一点重要不同:实践事务建模有必要要逐渐引进更多变量,而比赛中变量现已给定

一般来说,这些比赛的流程能够供我们实践开发时参考,其首要包括以下的几个步骤:

  1. 数据清理和 EDA
  2. 半自动的变量构建 + 手动构建
  3. 一类模型首要提高准确率,另一些模型做集成备选
  • 传统来说首要用于提高准确率的是靠集成树的方法
  • 近年来神经网络为基础的建模越来越多
  1. 能够结合集成学习
  • 被集成的模型有必要有一定准确性
  • 被集成的模型有必要有一定的多样性

NLP实战高手课学习笔记(16):结构化数据挖掘概述与基本流程

关于新的流程,有以下几点阐明

  • 前三个环节常常需求重复进行
  • 根本准则:尽或许使用算力和时刻
  • 不同人对于 EDA 重要性说法不同,个人主张初学者以试验为主
  • 非常重要的准则:结合大局和部分信息

总结

本篇博客总结了结构化数据发掘的概述,并通过数据发掘比赛的流程展现了其中需求注意的当地,期望对您有协助。