cloudpackエバンジェリストの吉田真吾@yoshidashingo)です。

ビッグデータの活用が本格的になり、散在する複数のデータソースを横断的に分析するために、データをどう取り扱うべきかを考えることが多くなりました。

アプローチ方法として最も一般的なのは「専用の分析環境のDWHにデータを収集する」というものだと思います。実際、ログの収集はfluentdでオブジェクトストレージへ、WebサービスのデータやDBのデータはDWHへデータ連携して取り込むといったソリューションが広く知られるようになりました。

ただし、データ連携でデータソースから分析環境に連携する場合、データソースとのタイムラグが避けられないことや、データの二重管理やガバナンス面での懸念などが考えられます。

そこで、従来からあるもう一つのアプローチが「データベース仮想化」です。

データベース仮想化のソリューション

データベース仮想化の手法もたくさんありますが、ここで紹介するRed HatのJBoss Data Virtualizationは最もシンプルに複数のデータベースをマッピングして仮想統合できる製品です。

インストール

準備するもの

  • Amazon EC2:Windows Server 2008 R2(AMI ID: i-5489ab52、インスタンス: r3.largeくらいだと開発が快適)
    • 公式にはアナウンスされていないが、一般的には以下のようなスペックが利用されているらしいです。

○ 本番サーバ
– CPU Dual Core以上
– RAM 8GB以上
– HDD 60GB以上
○ 開発サーバ
– CPU Dual Core以上
– RAM 8GB以上
– HDD 60GB以上
○ 開発端末
– CPU 特に指定なし
– RAM 4GB以上
– HDD アプリケーション:1.5GB以上

開発物:2GB以上

  • redhatのカスタマーポータルから以下を入手
    • Red Hat JBoss Data Virtualization 6.0.0 Installer
    • Red Hat JBoss Developer Studio 7.1.1 Stand Alone Universal Binary
  • JDK 1.6以上をダウンロード
  • データソースとの接続用にJDBCドライバーを入手
    • Redshift用にはPostgreSQL JDBCドライバーが使える
    • 今回はMySQLも使うので、Oracleからダウンロードする
  • 参考ドキュメント

インストール作業

  1. Oracle JDKをダウンロードしてインストールする
  2. JDBCドライバーをダウンロードして適当なフォルダに格納しておく
  3. JBoss Data Virtualizationのインストーラーを起動してGUIセットアップ
  4. java -jar jboss-dv-installer-6.0.0.GA-redhat-4.jar
  5. Developer Studioのインストーラーを起動してGUIセットアップ
java -jar jbdevstudio-product-universal-7.1.1.GA-v20140314-2145-B688-2.jar

これだけでセットアップはOK。次回以降に仮想データベースの作成やデプロイをしてみます。

元記事は、こちら