我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第6篇文章,点击查看活动概况
一、装置步骤概览
前提:Windows已有spark环境,概况参考:Windows装置Spark环境
1.装置Anaconda
2.用Anaconda装置Jupyter notebook
3.用Anaconda装置PySpark
4.运转Jupyter notebook
5.运转测验代码
二、装置Anaconda
- 下载装置包
Anaconda
- 装置
装置较为简单,根本都是下一步,为了防止不必要的费事,最后默许装置途径
- 配置环境变量
C:\Users\yangyh\anaconda3
C:\Users\yangyh\anaconda3\Library\mingw-w64\bin
C:\Users\yangyh\anaconda3\Library\usr\bin
C:\Users\yangyh\anaconda3\Library\bin
C:\Users\yangyh\anaconda3\Scripts
- 测验
conda --version
5.设置清华镜像
python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
二、用Anaconda装置Jupyter notebook
pip install --upgrade pip
pip install jupyther
三、装置pyspark依赖包
pip install pyspark==3.0.0
四、运转Jupyter notebook
1.新建本地文件夹
D:\02-devTool\Bigdata\JupyterWorkspace
2.发动
jupyter notebook --ip=127.0.0.1 --notebook-dir='D:\02-devTool\Bigdata\JupyterWorkspace'
3.浏览器访问Jupyter Notebook页面
127.0.0.1:8888/tree
五、运转测验代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.appName("WordCount").getOrCreate()
spark.range(0, 5).select(col("id").cast("double")).agg({'id':'sum'}).show()
spark.stop()
运转成果: