我报名参加金石计划1期挑战——瓜分10万奖池,这是我的第6篇文章,点击查看活动概况

一、装置步骤概览

前提:Windows已有spark环境,概况参考:Windows装置Spark环境

1.装置Anaconda

2.用Anaconda装置Jupyter notebook

3.用Anaconda装置PySpark

4.运转Jupyter notebook

5.运转测验代码

二、装置Anaconda

  1. 下载装置包

Anaconda

  1. 装置

装置较为简单,根本都是下一步,为了防止不必要的费事,最后默许装置途径

  1. 配置环境变量
C:\Users\yangyh\anaconda3
C:\Users\yangyh\anaconda3\Library\mingw-w64\bin
C:\Users\yangyh\anaconda3\Library\usr\bin
C:\Users\yangyh\anaconda3\Library\bin
C:\Users\yangyh\anaconda3\Scripts
  1. 测验
conda --version

5.设置清华镜像

python -m pip install --upgrade pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

二、用Anaconda装置Jupyter notebook

pip install --upgrade pip
pip install jupyther

三、装置pyspark依赖包

pip install pyspark==3.0.0

四、运转Jupyter notebook

1.新建本地文件夹

D:\02-devTool\Bigdata\JupyterWorkspace

2.发动

jupyter notebook --ip=127.0.0.1 --notebook-dir='D:\02-devTool\Bigdata\JupyterWorkspace'

3.浏览器访问Jupyter Notebook页面

127.0.0.1:8888/tree

Windows安装PySpark环境

五、运转测验代码

from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.appName("WordCount").getOrCreate()
spark.range(0, 5).select(col("id").cast("double")).agg({'id':'sum'}).show()
spark.stop()

运转成果:

Windows安装PySpark环境