最近Sparkの勉強を始めました。
手軽に試せる環境としてPySparkをJupyter Notebookで実行できる環境を作ればよさそうです。
環境構築に手間取りたくなかったので、Dockerで構築できないか調べてみるとDocker Hubでイメージが提供されていましたので、それを利用することにしました。
今回は導入からサンプル実行までやってみたいと思います。

環境

Mac Sierra
Docker for Mac

導入手順

Dockerイメージの取得

以下のコマンドを実行してイメージを取得してください。
イメージのサイズが約5GBあるのでディスク容量には気をつけてください

docker pull jupyter/pyspark-notebook

Dockerの起動

notebookのデータを保存しておくために、ローカルに適当なディレクトリを作成してDockerのマウント先を作ります。
以下コマンドを実行してDockerを起動します。

docker run -p 8888:8888 -v ローカルボリュームのフルパス:/home/jovyan/work jupyter/pyspark-notebook start-notebook.sh --NotebookApp.token=''

Jupyterの起動

Dockerの起動完了後、以下のアドレスにアクセスします
http://localhost:8888/

正常に起動していれば以下のような画面が表示されます

右端のNewボタンからPython3を選択します

新規に開いた画面に以下のコードを入力します

from pyspark.context import SparkContext
sc = SparkContext()

data = sc.parallelize([1, 2, 3, 4, 5])
print(data.count())
sc.stop()

Runボタンをクリックし実行結果が表示されれば成功です

後は色々とサンプルを動かしてみてください。
Dockerで手軽に試せるのはいいですね。

元記事はこちら

DockerではじめるPySpark