JBoss Data Virtualization でDB仮想化(1)-セットアップ

cloudpackエバンジェリストの吉田真吾（@yoshidashingo）です。

ビッグデータの活用が本格的になり、散在する複数のデータソースを横断的に分析するために、データをどう取り扱うべきかを考えることが多くなりました。

アプローチ方法として最も一般的なのは「専用の分析環境のDWHにデータを収集する」というものだと思います。実際、ログの収集はfluentdでオブジェクトストレージへ、WebサービスのデータやDBのデータはDWHへデータ連携して取り込むといったソリューションが広く知られるようになりました。

ただし、データ連携でデータソースから分析環境に連携する場合、データソースとのタイムラグが避けられないことや、データの二重管理やガバナンス面での懸念などが考えられます。

そこで、従来からあるもう一つのアプローチが「データベース仮想化」です。

データベース仮想化のソリューション

データベース仮想化の手法もたくさんありますが、ここで紹介するRed HatのJBoss Data Virtualizationは最もシンプルに複数のデータベースをマッピングして仮想統合できる製品です。

インストール

準備するもの

Amazon EC2：Windows Server 2008 R2（AMI ID: i-5489ab52、インスタンス: r3.largeくらいだと開発が快適）
- 公式にはアナウンスされていないが、一般的には以下のようなスペックが利用されているらしいです。

○ 本番サーバ
– CPU Dual Core以上
– RAM 8GB以上
– HDD 60GB以上
○ 開発サーバ
– CPU Dual Core以上
– RAM 8GB以上
– HDD 60GB以上
○ 開発端末
– CPU 特に指定なし
– RAM 4GB以上
– HDD アプリケーション：1.5GB以上

開発物：2GB以上

redhatのカスタマーポータルから以下を入手
- Red Hat JBoss Data Virtualization 6.0.0 Installer
- Red Hat JBoss Developer Studio 7.1.1 Stand Alone Universal Binary
JDK 1.6以上をダウンロード
データソースとの接続用にJDBCドライバーを入手
- Redshift用にはPostgreSQL JDBCドライバーが使える
- 今回はMySQLも使うので、Oracleからダウンロードする
参考ドキュメント
- JBoss Data Virtualization 6.0 Installation Guide
- Red Hat JBoss Developer Studio 7.1 Installation Guide

インストール作業

Oracle JDKをダウンロードしてインストールする
JDBCドライバーをダウンロードして適当なフォルダに格納しておく
JBoss Data Virtualizationのインストーラーを起動してGUIセットアップ

java -jar jboss-dv-installer-6.0.0.GA-redhat-4.jar

Developer Studioのインストーラーを起動してGUIセットアップ

java -jar jbdevstudio-product-universal-7.1.1.GA-v20140314-2145-B688-2.jar

これだけでセットアップはOK。次回以降に仮想データベースの作成やデプロイをしてみます。

元記事は、こちら