DynamoDB + Data Pipeline + S3 + Google Chart API を少しずつ使ってそらまめ君で提供されている大気中の汚染物質濃度速報データを可視化するサイトを作ってみた

以下、自分が今後メンテナンスする為にも必要なのでメモっておく。

tl;dr

今までの復習のつもりで DynamoDB + Datapipeline + S3 + Google Chart API を少しずつ使ってそらまめ君で提供されている大気中の汚染物質濃度速報データを可視化するサイトを作ってみた。

20150917171330

既に以下のような API やアプリを作成されている方がいらっしゃるのでリアルタイムに情報を取得したい場合にはそちらを利用しましょう。

自分が作ったのは前日分の PM2.5 濃度の遷移を見れるだけのシンプルなものなので、夏休みの自由研究とかにコピペで使ってもらえると嬉しいなあ…既に夏休みは終わっているけど。（来年の夏休みの時期まで運用されていれば貴重なデータベースになっていることでしょう…）

memo とかウンチクとか

構成図

20150918081602

処理の流れ

20150918090708

ソースコードとか

メインとなるソースコード

github.com

Data Pipeline のパイプライン定義

{
  "objects": [
    {
      "directoryPath": "#{myS3OutputLoc}/#{format(@scheduledStartTime, 'YYYY-MM-dd-HH-mm-ss')}",
      "name": "S3OutputLocation",
      "id": "S3OutputLocation",
      "type": "S3DataNode"
    },
    {
      "output": {
        "ref": "S3OutputLocation"
      },
      "stage": "true",
      "name": "ShellCommandActivityObj",
      "id": "ShellCommandActivityObj",
      "runsOn": {
        "ref": "EC2ResourceObj"
      },
      "type": "ShellCommandActivity",
      "command": "#{myShellCmd}"
    },
    {
      "subnetId": "subnet-12345678",
      "imageId": "ami-12345678",
      "securityGroupIds": "sg-12345678",
      "instanceType": "t1.micro",
      "name": "EC2ResourceObj",
      "keyPair": "xxxxxxxxxxxxxxxxxxxxxxx",
      "id": "EC2ResourceObj",
      "type": "Ec2Resource",
      "terminateAfter": "15 Minutes"
    },
    {
      "period": "1 Day",
      "startDateTime": "2015-09-17T07:59:00",
      "name": "RunOnce",
      "id": "DefaultSchedule",
      "type": "Schedule"
    },
    {
      "failureAndRerunMode": "CASCADE",
      "schedule": {
        "ref": "DefaultSchedule"
      },
      "resourceRole": "DataPipelineDefaultResourceRole",
      "role": "DataPipelineDefaultRole",
      "scheduleType": "cron",
      "name": "Default",
      "id": "Default"
    }
  ],
  "parameters": [
    {
      "description": "S3 output folder",
      "id": "myS3OutputLoc",
      "type": "AWS::S3::ObjectKey"
    },
    {
      "default": "s3://us-east-1.elasticmapreduce.samples/pig-apache-logs/data",
      "description": "S3 input folder",
      "id": "myS3InputLoc",
      "type": "AWS::S3::ObjectKey"
    },
    {
      "default": "grep -rc "GET" ${INPUT1_STAGING_DIR}/* > ${OUTPUT1_STAGING_DIR}/output.txt",
      "description": "Shell command to run",
      "id": "myShellCmd",
      "type": "String"
    }
  ],
  "values": {
    "myShellCmd": "mkdir /tmp/buildncd /tmp/buildnwget https://raw.githubusercontent.com/inokappa/oreno-pipeline/master/Dockerfilendocker build --no-cache=true -t soramame-runner .ndocker run --env 'AWS_REGION=ap-northeast-1' --env 'S3_BUCKET=your.example.com' soramame-runner > ${OUTPUT1_STAGING_DIR}/output.txt",
    "myS3InputLoc": "s3://your-input-bucket/",
    "myS3OutputLoc": "s3://your-output-bucket/"
  }
}

Data Pipeline で利用する Dockerfile

FROM ruby
MAINTAINER inokappa
RUN apt-get update
RUN git clone https://github.com/inokappa/oreno-soramame-pipeline.git /app
RUN chmod 755 /app/run.sh
RUN mkdir -p /app/output/html
RUN mkdir -p /app/output/png
RUN gem install aws-sdk nokogiri googlecharts --no-ri --no-rdoc

CMD /app/run.sh

Data Pipeline は

一日一回の処理（cron）として利用
Shell Activity にて Docker コンテナを利用
標準出力を S3 に保存（S3 Output Location で定義した出力先に出力）

Docker コンテナ

処理を行うスクリプトをコンテナ化
AMI 作るよりも楽、スクリプトのメンテナンスし易い（と思った）
毎回 build させる（最新のソースコードで処理させることが出来るしビルドの時間は 5 分程度なので全体の処理時間への影響は少ない）

最後に

感じたこと

Data Pipeline の Shell Activity は Cron の代替になりうる（但し 15 分未満の間隔を定義することは出来ないので注意）
ちょっとしたスクリプトとかも Docker コンテナ化しておくとよさ気
DynamoDB の Scan や Query のフィルタがイマイチ理解出来ていない

改善案

Ruby のソースコードが極めて雑でエラー処理等殆ど入っていないのでちょこちょこ直していきたい
DynamoDB の検索結果が怪しい（抽出条件の指定方法が怪しい）ので見直す
出来るだけリアルタイム性を持たせるようにする
任意の条件で検索、グラフ描画出来るようにしたい
グラフ上位地点名と地図上地点をリンクさせたい

DynamoDB と Datapipeline

DynamoDB のパフォーマンス面等について引き続き調査
Datapipeline のエラーハンドリング、リトライ処理について引き続き調査
S3 のデータを Datapipeline 経由で DynamoDB にインポート（簡単そうで難しかった）をリトライ

元記事はこちら

「DynamoDB + Data Pipeline + S3 + Google Chart API を少しずつ使ってそらまめ君で提供されている大気中の汚染物質濃度速報データを可視化するサイトを作ってみた」

DynamoDB + Data Pipeline + S3 + Google Chart API を少しずつ使ってそらまめ君で提供されている大気中の汚染物質濃度速報データを可視化するサイトを作ってみた

tl;dr

memo とかウンチクとか

構成図

処理の流れ

ソースコードとか

Data Pipeline は

Docker コンテナ

最後に

感じたこと

改善案

DynamoDB と Datapipeline

元記事はこちら

(EC2) insufficient capacityになる理由

Oracle のロックされているテーブルのセッションを知りたい [cloudpack OSAKA blog]

ECS上で稼働する(Laravel)WebアプリケーションのDevOpsプラクティス

RHEL7を8に, 8を9にインプレースアップグレードする

生成AIに画像からHTMLを書いてもらおう！

DynamoDB + Data Pipeline + S3 + Google Chart API を少しずつ使ってそらまめ君で提供されている大気中の汚染物質濃度速報データを可視化するサイトを作ってみた

tl;dr

memo とかウンチクとか

構成図

処理の流れ

ソースコードとか

Data Pipeline は

Docker コンテナ

最後に

感じたこと

改善案

DynamoDB と Datapipeline

元記事はこちら

関連記事Related Articles

S3 の事前署名付き（期限付き）URL を生成する

AWS SDK for RubyでS3クライアント暗号化を試す

アイレット株式会社 cloudpack事業部（以後 cloudpack）でインターンしてきました！

alerty プラグイン三種盛り – いくつかの知見を添えて

ほのぼの Rake タスクで S3 のバケットポリシーをちょっと管理する（表示と export と diff と update するだけ）