2011年7月4日に行われたアマゾン HPC NIGHTというイベントに参加してきました。
このイベントのテーマは、AWS環境でのHPC(High Perfrmance Computing)で、AmazonのCTO自らの講演、
エバンジェリストのデモ、そして実際の利用者によるパネルディスカッションなどが行われました。
その中でも「HPC at your fingertips (すぐに利用可能なHPC)」は、
とても印象に残った基調講演で、AmazonのCTO、ヴァーナー・ボーガス博士が
自ら講演していました。
そしてはじめに、The Fourth Paradigm: Data-intensive Scientific Discoveryが
紹介されました。
ここでキーワードとなるData-intensive (Computing)が登場します。
これは、
膨大な一次データ、二次データ、の存在と、遍在する計算能力の存在を大前提にした科学研究手法。
(科学研究手法の「第四のパラダイム」としてのData-intensive Computingより引用)
といったもので、引用のリンクからもわかるようにクラウド(AWS)と親和性の高さがうかがえます。
データの扱いは下記の5つのフェーズで整理され、各フェーズで役立つ
AWSプロダクト/サービスを紹介してくれました。
COLLECT, STORE, ORGANIZE, ANALYZE, SHARE
【COLLECT】
データの収集、つまりAWSへのアップロードの部分で、下記が紹介されました。
- FREE INBOUND BANDWIDTH
つまりAWSへのアップロードは無料です!(最近無料になりました!)- AWS Import/Export
AmazonにHD送ってデータをアップロードしてもらうサービスです。
最近S3だけでなくEBSにもアップロードできるようになりました!
【STORE】
データの保存部分では、次のプロダクトが紹介されました。
(適材適所で使い分けましょう!)
- S3
99.999999999%の耐久性と99.99% の可用性のWebストレージ- SimpleDB
可用性、拡張性、柔軟性の高い、非リレーショナル型データストア(KVS)です。- EBS
EC2インスタンスのための永続性のあるストレージ(HDDやSDDのようなもの)- RDS
データベース(MySQL/Oracle)専用の仮想サーバ(インスタンス)です。
【ORGANIZE】
データの組織化に関しては、下記のフェーズを紹介されました。
Control, Correct, Validate, Enrich
まあ、制御して、正して、検証して、より構造的にする、といった感じでしょうか?
(Controlの部分が実際何をするのかは理解できてませんでした…)
【ANALYZE】
下記三つの大規模計算を紹介し、それに適したAWSプロダクトを紹介されました。
- High-throughput computing
多くのコンピューターリソースを利用し、長い時間かけて処理を完了させる。
AWSならEC2のCPUやメモリの多いインスタンスで複数台で!- Data Intensive Computing
大規模なデータを並列に処理する。AWSならEMRで!- Parallel computing
従来型の並列処理を行う。Cluster Compute InstanceやCluster GPU Instanceで!
【SHARE】
最後はデータの共有ですが、公開して利用できるようにしましょう
といったところでしょか?
最後にヴァーナー・ボーガス博士のコメントで印象に残ったものです。
リージョンからデータはもちろんのことメタデータもでない。
(セキュリティに関してリージョン内で完全にデータは閉じている)お気に入りのAWSサービスはS3。
(最初のサービスだし、とにかくシンプル!)