7月3日 弊社とFlyDataが主催したビッグデータセミナーに参加してきました。
セッションスケジュール
- ビッグデータもアマゾンで 〜Amazon Redshift のサービス紹介と最新情報〜
- FlyDataによるエンタープライズビッグデータ統合 / Redshiftを最短で活用開始・最小コスト運用を可能に
- ユーザー目線の視覚化の本質とアプローチ方法について
- cloudpackで実現するビッグデータインテグレーション
- 【特別講演】モバイル&クラウドでビッグデータをイノベーション基盤に
- 【シークレットギグ】登壇者によるフリートーク&QA
FlyDataによるエンタープライズビッグデータ統合 / Redshiftを最短で活用開始・最小コスト運用を可能に
FlyData Inc. 創業者 藤川 幸一 様
Amazon Redshift は「非常に扱いやすいビッグデータ向けデータウェアハウス」であると位置づけ、Amaon Redshift の実態や扱う際のコツをお話しくださいました。
また、Redshiftをさらに効果的に扱えるサービス「FlyData」について、 デモを交えて詳しく説明くださいました。
FlyData藤川さんから見た Amazon Redshift の特徴
- 安さ、そして しっかり使える
- 標準的なSQLを利用できる
- ノードの数や種類(HDD or SSD)を選択できる
- SSD タイプは、容量が小さい代わりに、速い
- ベンチマーク情報を検索してみるとよい
- 容量追加がコンソール上でできる
- MPP
- 台数を増やせば、その分性能が上がる
- Hadoop より効果が出やすいそう
- データの扱い方が、従来RDBと異なるものがあるので要確認
- データ検索やロード特性が異なる
- メリット: join/group by/order by は比較して速い
- デメリット: 逆に比較して遅い処理がある
- ベンチマーク
- Hadoop・Hive と比べて、Redshift は 10倍速いそう
Amazon Redshiftの実態
- トランザクショナルな処理(msecで返すような)は苦手だが、反面、分析・レポーティングに向いている
- 1台で処理が完結するのが、実は重要なこと
- そうでないと、並列処理を考えなければならない
- ビッグデータの勘所
- データロード (ビッグデータの急所)
- 大量データの扱い
- 継続的な運用
- データソースが複数台、複数元ある場合が大変
- データも元と格納先(Redshift)のデータ構造の差異吸収・つなげ込みが大変
- 従来DBとの違い
- SQL INSERT にあたる バルクアップロードをどうするか
- アップロードプロセス
- エラーハンドリング(差異吸収なども含め)が必要
→ この悩みを FlyData で解消します!
FlyDataの特徴
- Amazon Redshiftへのデータインテグレーションサービスを提供
- 継続的にリアルタイムにデータロードができる
- データの速さ、精度が大事
- データの損失がないように
- 設定が容易、その後はメンテナンスフリー
FlyDataの機能詳細
- FlyDataオートロード
- リアルタイムローディングに最適(数分程度)
- 状況に最適化されたコマンドのパフォーマンスチューニング
- エラーハンドリング処理(Redshift自体のメンテナンス時なども含む)
- ネストJSONのサポート
- MongoDBなどJSONを扱うデータベースからデータ入力が容易
- 例) MongoDB は集計処理が苦手なので、Redshift を活用
- FlyData Sync
- RDBとRedshift、継続同期を行う(レプリケーション)
- RDB上での更新をほぼリアルタイムに追随
- ログデータとRDB上のデータを、1クラスタ内で共存可能(RDBとログデータのjoinが可能)
FlyData事例紹介
- ソーシャルゲームのリアルタイム分析
- ネット広告サービスのスタートアップ時のビッグデータ基盤に
- オンラインメディアの高速フィードバックとして
FlyData Sync デモ
- バルク(複数行)でも同期が速い
- デフォルトでは10分程度で反映されるそうですが、デモでは1分以内で反映されていました
ユーザー目線の視覚化の本質とアプローチ方法について
SITE4D Inc. 代表取締役
隈元 章次 様
収集したビッグデータをどうすれば最大限に活かせるか、従来の可視化からさらに改良された SITE4D Inc. のサービスをご紹介くださいました。
SITE4D Inc. と cloudpack
- パートナーシップを締結
- 経営コックピット「SOLID AIR」プロジェクト進行中
- cloudpack → API → SITE4D
ビッグデータの動向
- リードタイムの短縮
- 無駄な作業が消えている
- データが集まってきた → 分析した → どう活かすか? → 可視化したい
- 見えるかの状況がだいぶ変わってきている
- Buisiness Interlligence
↓↓↓
Data Visualisation
データ可視化の動向
- 情報に関しては、フリーで使えるものが多くなってきた
- ツールで見える化して、月一でパワポにまとめれば十分活用できる
- 無駄なコストをかけない、カスタマイズしない
- 例)RAW http://raw.densitydesign.org/
SITE4D Inc. が展開するデータ化とは
- 誰でもツール操作できる
- 例) 社内アプリケーションに役員層も参加 (余談: 役員層のアイコンが出てくると冷や汗もの)
- 例) アプリケーションは、カスタマイズできるように
- 2ペイン、4ペイなど使い方は人それぞれだから
企業が持つ情報を可視化する
- 発想の転換
- 可視化アプリケーションを利用してもらうことで、データを収集できる
- 例) ドラムの解析・可視化ツールを提供
- 提供した先の各国のデータがどんどん吸いあがってくる
- ドラムのどこをどんな強さで叩いたか、膨大で繊細なデータ
- サーバの進化がこれを実現可能に
- データを収集するとき、どれだけ精度のいいデータを撮れるかが、重要
- フロントも負けずに開発
SITE4D製アプリケーションの紹介
SOLID AIR: 経営層に向けた可視化アプリケーション
- 緊急時、社長室 が 戦略室 となる
- 超ネガティブな事態を想定した戦略会議
- そのシビアな現場に Management Cockpit と称した可視化アプリケーションを開発
- また、社内全体でも広く使える可視化アプリケーションも開発
- 新しい可視化
- 横に長い線形グラフをやめて、円グラフに
- さらに、規模に順にで入れ子
- 正常: 右回転、青色
- 異常: 左回転、赤色
- 例えば風で天気がわかるように、見て事態がわかることに重点をおいた
- 4D display = 4画面分の解像度でやっと表現できるほどの細かい情報
金融情報の可視化アプリケーション
- 1/1000の精度で取得したデータ
- 人間が気持ち悪がるくらいの精度
- これを間引いて視覚化
PreViz
最後に
- 大事なデータを逐一分析できるようになったのは、素敵
- ローディングの時間が好きでない
cloudpackで実現するビッグデータインテグレーション
cloudpackエバンジェリスト
吉田 真吾 さん
cloudpackとは
- AWSが解決できるシーンがある
- cloudpack の価値
- コンサルタント
- 24時間365日の有人監視体制
- すでに400の導入実績
- 得意分野
- エンターテイメント
- 金融
- 公共事業
SI・MSPとして、AWSを選択する理由
- サービスレベルが高い
- 保守しやすい
- 例) コンソール操作で、AMI、スナップショットから復旧
- グローバルなインフラ
- 事例: TOYOTA公式サイト構築・運営
- 月間PV 1億
- オンプレにバックアップする設計により、万が一東京リージョン障害時に、シンガポールリージョンで復旧可能
Amazon Redshift活用事例
- ゲーム運用
- パフォーマンス分析
- 基幹系システム
- トレーサビリティ
- あの状況はどうなっているの?という突然のデータチェックもOK
Amazon Redshift 利用時の課題
- メリット・デメリット
- メリット: 安い、扱いやすい
- デメリット: データの収集や分析は苦手、ここをうまく補う必要がある
課題
- 散在するデータ元の収集
- データの有効期間(締めの問題)
- 個人情報の取り扱い
- → お客さん毎に異なる
- ビジュアライゼーション
- → データをどう見せる?
この課題のうち、1, 2 に対して、FlyDataさんのサービスを活用したい
Amazon Redshift を最大限に活かす、FlyData x cloudpack のソリューションを提供します
bigdatapack for FlyData
- cloudpack がインテグレーションし、サービスとして提供
- 米国にある FlyData のサービスを、東京リージョンで利用可能に
- お客様自身のアカウントで、データサーバを運用可能に
- 専用線で接続可能に
- DirectConnect
- VPN
- ダイレクトインポートで、お客様のHDDのデータを直接AWSへアップロード可能に
サービス内容
- 導入支援サービス
- コンサルティングサービス
- FlyDartaのリセル販売
- オプション
- 移行支援
- パフォーマンスチューニング
Amazon Redshift の可視化対策
tableau x Amazon Workspaces の活用方法を紹介
- tableau という可視化ツールを利用
- さらに、データの持ち出しを制限管理するために、Amazon Workspaces を利用
- VPN側インスタンスに tableau Desktop をインストール
- ユーザは、手元のマシンから Amazon Workspaces に接続(クライアント環境)
【特別講演】モバイル&クラウドでビッグデータをイノベーション基盤に
株式会社NTTドコモ 執行役員
栄藤 稔 様
ドコモのビッグデータ活用
- ペタバイト級のデータを扱う
- 機械学習
- 並列分散計算
- 売上10%あがるかあがらないかの判断
- Business Intelligence
- Data Driven Innovation
- たくさんのデータから、隠れた価値のあるものを発掘しなければ
ビッグデータの本質
- ロングテール解析
- 異様なふるまいの検出(低頻度)
- 精度の高いデータが必要
- サンプリングでは見つけらない
- 例) 新語の把握など
- データ突合、シーケンス処理
- 個別処理がサービスの本質
クラウドを利用したシステム事例
- しゃべってコンシェル
- アラジンの魔法のランプをサービス化
- 音声認識エンジンをAWSで構築している
- 音響モデルと意図解釈エンジン
- 多様な発話を収集
- 機械学習学習モデル
- タスク判定・キーワード抽出
- ドコモのうつして翻訳
- OTON GLASS
- 失語症のための生活支援ツール
- 瞬きを検知して読んでいるものを認識?
- ドコモ ドライブネット
- API は REST で提供予定
- Developer support
- AWSで実現
しゃべってコンシェルの成功のおかげで、クラウド、AWSの評判が良くなってきた
システム開発への姿勢
- 思い付きの開発はしない
- データ量勝負
多量データを扱い、複雑な処理のシステムを今実現できるようになったのはなぜ?
- データが十分に集まってきた
- 辞書の改良
- API
- データ量=パワーゲーム
- 素質、センス=タレントゲーム
- パワーゲームのプラットフォームをどう作るか
- B2Cで協力
- 鉄道や農業との協業
- AWSを使いだしたそういう領域の方々と協業のチャンス
データを扱う
- DWH system on AWS
- Data Analysis Platform
- Real Business
- Hot Data
- Warm Data
- Cold Data
クラウドとオンプレミスの使い分け
- どこからどこまでを、オンプレミスにおくか?クラウド?
- ドコモが決めた位置づけ
- オンプレミス: 業務停止につながるデータ
- クラウド: 使いたいときに使える、使いたいが一定ではない、データ量が予測できないデータ
- データを扱うAWSサービス
- RDS, DynamoDB, ElastiCache
- Amazon Redshift は、オンプレミスで扱いたいデータを置くイメージ
- Audit機能の充実
- Amazon CloudTrailのおかげで、セキュリティ要件が大きく解決できた
- 業務系システム(分析)デモ利用検討開始されている
- いずれは、クリティカルミッション系のシステムでも採用検討する日が来るかも?
- Sandbox から好きな機能を持ってこれるそうで、便利らしい