Monday Night Live with Peter DeSantiのキーノートでアップデートの発表がありました!
Latency-optimized inference option for Amazon Bedrockとは
パブリックプレビュー利用可能になったAmazon Bedrockの基盤モデル向けレイテンシ最適化推論。
AnthropicのClaude 3.5 HaikuモデルとMetaのLlama 3.1 405Bおよび70Bモデルをサポートし、標準モデルと比較して精度を損なうことなく応答時間を短縮。
AWS Trainium2チップと高度なソフトウェア最適化により、リアルタイムの顧客サービスチャットボットやインタラクティブなコーディングアシスタントなど、レイテンシの影響を受けやすいアプリケーションのエンドユーザーエクスペリエンスを最適化。
追加の設定やモデルの微調整は不要で、既存のアプリケーションをすぐに強化できる。
現在は米国東部(オハイオ)リージョンでクロスリージョン推論を介して利用可能。
試してみる
てっとり早くマネジメントコンソールからClaude 3.5 Haikuモデルを実行してみます。
バージニア北部のClaude 3.5 Haiku
オハイオのClaude 3.5 Haiku
若干速いかなくらいですが、クロスリージョン推論モデルなので意図していないリージョンに振り分けられてる可能性もありそうです。
Amazon Bedrockがモデル実行環境としてのパフォーマンス優位性をアピールしてきていることがこのアップデートから想像できます。
サードパーティモデルは他のクラウドでも動かせますが、パフォーマンスや周辺ソリューションの観点で優位にたてばそのモデルを使いたいユーザーはBedrockを選定する理由にもなりそうです。