下载kaggle数据集的小妙招-六虎

kaggle是许多数据剖析和机器学习初学者非常喜爱的数据科学竞赛途径。

这个途径上有许多接近实际业务场景的数据集，非常合适练手。
今日向我们引荐一个下载kagithub是干什么的ggle数据集的小工shelly-lan具——kaggleAPI
装备好之后，可以写个脚github开放私库本，以github打不开后下载数据就便利多了。

装置

pip install kaggle

装置结束之后实行

kaggle compeitions list

然后就会报错，提示没有kaggle.json文件，不用理他。
这一步主要是让其工作后生成装备文件夹，一般在C盘-用户-用户名下的.kaggle

装备

登录kaggle官网

右上角头像处点击，选择Account

进去之后滚动到最下面API处，选择Create New APshell脚本基本指令I Token

然后就会主动下载一个kaggle.jsonshelly-lan文件，另存到第一步那个.kaggle文件夹

下载数据集

再实行以下

kaggle compeitions list

可以看到近期的一些竞赛，关JSON键注重以下奖金

除了list，kaggle competitiogithub是干什么的ns 还有一些其他用法，不打开讲了。

kaggle competitions {list, files, download, submit, submissions, leaderboard}shelly-lan

我们最关怀的数据集下载

kaggle datasets{list,files,download,create,version,init,metada机器学习ta,status}

比较常用的是：list（可用数据集列表）、files（数据文件）、download（下载）

kgithub怎样下载文件aggle dajson格局tasets list

用法

usage: kaggle datasets list [-h] [--sort-byshell脚本基本指令 SORT_BY]
[--size SIZE] [-shell脚本基本指令-file-type FILjsonp跨域原理E_TYPE] [--license LICENSE_NAME]
[--tags TaG_IDS] [-s SEARCH] [-m] [--user USER] [-p PAGE] [-v]

这个里边还有2个常用的参数： -s 查找，后边可以加关键词；-p 展现多少行，默许是20

kaggle datasets download

用法

usage: kshell指令aggle datasets dShellownload
[-h] [-f FILE_NAjson转mapME] [-p PATH] [-w] [--unzip]
[-o] [-q][dataset]

更实在的用法

如果单json纯在cmd实行个下载指令就大材小用了，我们还可以用kaggleGitHubAPI写shell脚本结束更复杂的用法，比如：

#!/bin/sh
DATASET="noxmoon/chinese-official-daily-news-since-2016"
ARCjson是什么意思HIVE_FILE="chinese-official-daily-news-since-2016.zip"
DATA_FILshell是什么意思中文E="chinese_news.csv"
DATA_DIR="data"
COL_NAME="headlingithub官网e"
LINgithub怎样下载文件ES=3000
OUTPUT_FILE="headlines.txt"
if [ -d $JSON{DATA_DIR} ]; then
echo $github开放私库{DATA_DIR}jsonp跨域原理' exists, please remove it before runninshell指令g the script'
exit 1
fi
echo "Creating dir"
mkdir -p ${DATA_DIR}
cd ${DATA_DIR}
kaggle datasets download -d ${DATASET}
unzip ${ARCHIVE_FILE}
echo "Delshell是什么意思中文eting original dataset archive"
rm -f ${ARCHIVE_shell编程FIjson是什么意思LE}
echo "Extracting, cutting, shuffling data"
awk  -v cjson格局怎样打开ol=$COL_NAME -F ""*,"*" '{print $COL_NAME}' $DATA_FILE | shuf -n 3000 > ${OUTPUT_FILE}

下载-解压一气呵成！

参考

github.com/Kaggle/kagg…

下载kaggle数据集的小妙招

装置

装备

下载数据集

更实在的用法

参考

相关文章

自标注目标检测数据集（labelme）转voc\coco格式，并切图处理

iOS中Mach-O概览

这样也行,在lambda表达式中优雅的处理checked exception

一篇文章搞懂Segment Anything(SAM)

作者信息