最近Sparkの勉強を始めました。
手軽に試せる環境としてPySparkをJupyter Notebookで実行できる環境を作ればよさそうです。
環境構築に手間取りたくなかったので、Dockerで構築できないか調べてみるとDocker Hubでイメージが提供されていましたので、それを利用することにしました。
今回は導入からサンプル実行までやってみたいと思います。
環境
Mac Sierra
Docker for Mac
導入手順
Dockerイメージの取得
以下のコマンドを実行してイメージを取得してください。
イメージのサイズが約5GBあるのでディスク容量には気をつけてください
docker pull jupyter/pyspark-notebook
Dockerの起動
notebookのデータを保存しておくために、ローカルに適当なディレクトリを作成してDockerのマウント先を作ります。
以下コマンドを実行してDockerを起動します。
docker run -p 8888:8888 -v ローカルボリュームのフルパス:/home/jovyan/work jupyter/pyspark-notebook start-notebook.sh --NotebookApp.token=''
Jupyterの起動
Dockerの起動完了後、以下のアドレスにアクセスします
http://localhost:8888/
正常に起動していれば以下のような画面が表示されます
右端のNewボタンからPython3を選択します
新規に開いた画面に以下のコードを入力します
from pyspark.context import SparkContext sc = SparkContext() data = sc.parallelize([1, 2, 3, 4, 5]) print(data.count()) sc.stop()
Runボタンをクリックし実行結果が表示されれば成功です
後は色々とサンプルを動かしてみてください。
Dockerで手軽に試せるのはいいですね。