アイレット株式会社 DX開発事業部です!
DX開発事業部ではお客様のDX実現のために、生成AIのキャッチアップに日々取り組んでおります🔥
本記事では日々アップデートされる生成AI周りのニュースを週刊でお届けします🚀

AWS

Amazon Bedrock Model Evaluation がヨーロッパリージョンで利用可能に

2024年12月9日、Amazon Bedrockのモデル評価機能がヨーロッパ(チューリッヒ)リージョンで利用可能になりました。この機能により、LLM評価、プログラム評価、人間評価などを用いて、ユースケースに最適な基盤モデルを評価、比較、選択できます。利用可能リージョンはこれで15リージョンになりました。(参照

Amazon Bedrock Guardrails の料金が最大85%値下げ

生成AI利用時の有害なプロンプトやレスポンスのフィルターや、機密情報の公開を防ぐ機能である、Amazon Bedrock Guardrails の料金が最大85%値下げされました。2024年12月1日から、コンテンツフィルターは1,000テキストユニットあたり0.15ドル、拒否トピックは1,000テキストユニットあたり0.15ドルに値下げされました。責任あるAIの実践のためにも、Amazon Bedrock Guardrails は積極的に活用していきたいものですね。

Amazon SageMaker JumpStartで、Pixtral 12Bが利用可能に

Amazon SageMaker JumpStartで、Mistral AIの最先端ビジョン言語モデル Pixtral 12Bが利用可能になりました。
テキストのみのタスクとマルチモーダルタスクの両方で優れたパフォーマンスを発揮し、OCR、チャート理解と分析、画像からコードへの変換など、さまざまなユースケースに対応できます。Pixtral 12Bは、商用利用可能なApache 2.0ライセンスで提供され、エンタープライズやスタートアップ企業にとって複雑なマルチモーダルアプリケーションを構築するための強力な選択肢となります。

Amazon Lexが、新しい多言語音声認識モデルの一般提供を発表

Amazon Lexは、新しい多言語音声認識モデル(ASR-2.0)の一般提供を発表しました。これらのモデルは、ポルトガル語、カタロニア語、フランス語、イタリア語、ドイツ語、スペイン語をサポートするヨーロッパベースのモデルと、中国語、韓国語、日本語をサポートするアジア太平洋ベースのモデルの2つのグループで構成されています。これらのモデルは、各グループ内の共有言語パターンを活用して認識精度を向上させ、特に英数字の音声認識に優れています。これにより、発信者の識別やIVRアプリケーションでのタスクの自動化に必要な顧客の発話を正確に理解することが容易になります。また、ネイティブではないスピーカーやさまざまな地域アクセントに対しても認識精度が向上しています。本機能はAmazon Lexをサポートするすべてのリージョンで利用可能になり、既存のボットを再構築するだけでこれらの改善を活用できます。

Amazon SageMaker AIで、G6eインスタンスと、P5eインスタンスが利用可能に

Amazon SageMakerで、推論向けに最適化された新しいG6eインスタンス(NVIDIA L40S GPU搭載)とP5eインスタンス(NVIDIA H200 GPU搭載)が利用可能になりました。
ml.p5e.48xlargeは、8基のNVIDIA H200 GPU(合計1128 GBのGPUメモリ)、30 TBのNVMe SSDストレージ、192 vCPU、2 TiBのシステムメモリを備え、1000億以上のパラメータを持つLLMや生成AIアプリケーションに最適です。
ml.g6eインスタンスは、8基のNVIDIA L40S GPU(GPUあたり48 GBメモリ)を搭載し、従来のml.g5インスタンスと比較して最大2.5倍の性能を提供。130億パラメータのLLMや画像生成などに活用できます。
両インスタンスは、米国東部(オハイオ)と米国西部(オレゴン)で利用可能です。

Amazon ConnectがiOSとAndroidデバイスのモバイルチャットにおけるプッシュ通知をサポート開始

Amazon ConnectがiOSとAndroidデバイスのモバイルチャットでプッシュ通知をサポートするようになりました。これによって、エージェントやチャットボットから新しいメッセージを受信するとすぐに通知を受け取れるようになります。プッシュ通知は米国東部(バージニア北部)、米国西部(オレゴン)、カナダ(中部)、アジアパシフィック(ソウル)、アジアパシフィック(シンガポール)、アジアパシフィック(シドニー)、アジアパシフィック(東京)、ヨーロッパ(フランクフルト)、ヨーロッパ(ロンドン)で利用可能です。

Google

Googleの新しいAIモデル「Gemini 2.0 Flash」が実験的にリリースされました

この度Googleの新しい生成AIモデルである「Gemini 2.0 Flash」が実験モデル(Experimental)として提供されました。このモデルは以前のGemini 1.5モデルよりも性能が向上しており、ネイティブの画像および音声出力とツール使用が可能です。現在はGoogle AI StudioおよびVertex AIのGemini APIを介して利用することができ、一般提供は2025年1月を予定されるほかさらに多くのGoogle製品に拡張されるようです。

第6世代TPU、Trilliumの一般提供が発表されました

Google はこれまでで最もパフォーマンスの高い第 6 世代 TPU であるTrilliumの一般提供開始しました。このTPUはGoogle Cloud の AI ハイパーコンピュータの重要なコンポーネントであり全世代と比べてトレーニング性能を4倍以上向上させたり、推論スループットを最大3倍向上させるほか、 67%ものエネルギー効率向上を実現させたりなど大幅にパワーアップされたTPUとなっており、幅広いAIワークロードで優れたパフォーマンスを発揮します。ちなみに前述したGemini 2.0のトレーニングにはこのTrillium TPUが使用されているようです。

Geminiの新しいエージェント機能「Deep Research」の提供が始まりました

今回発表されたDeep Researchの機能ではユーザーが質問を入力すると複数ステップにわたる調査プランが生成され、承認をするとWeb全体から関連情報を収集しAIが分析して調査結果を生成してくれます。レポートはGoogleドキュメントにエクスポートすることができ、レポートにはソース情報へのリンクとともに情報が整理されているためリサーチの時間を大幅に短縮することができます。なお、この機能はデスクトップとモバイルウェブ上のGemini Advancedで展開され、2025年初頭にはモバイルアプリでも利用可能になります。

12日間のトレーニングで生成 AIを学ぼう

Google Cloudが12月に12日間の学習デジタルアドベントカレンダーを提供。生成AIの基礎コース、ハンズオンラボ、Geminiを使ったアプリケーション構築、MLOps、BigQueryでの活用など、さまざまな学習リソースが提供されます。初級者から上級者まで新しいスキルを身につける良い機会ですのでぜひとも活用していきたいですね。

NotebookLMの有料プランNotebookLM Plusの発表とGoogle Workspaceへの追加

NotebookLMに有料プランのNotebookLM Plusが追加され、またこれまでコンシューマー向けだったNotebookLMがGoogle Workspaceで利用できるようになりました。

Geminiアドオンを利用している場合追加料金無しでNotebookLM Plusが利用できます。

6/6(米国現地時間)、日本語対応発表があったばかりのNotebookLMを早速使ってみたところ、そのユーザー体験に感動したのでレビュー記事を書いてみました!初期画面はこのようになっています。Googleアカウントでのログインが必要ですが無料で使えます。ノートブック...

Google Agentspaceの発表

Google は企業向け AI プラットフォーム Google Agentspace を発表しました。
Google Agentspace は、Gemini の高度な推論能力、Google 検索、企業データなどを活用し、従業員の生産性向上を支援します。
主な機能として、NotebookLM Plus による企業データの分析、企業全体の情報検索、ビジネス機能の自動化のためのエキスパートエージェントなどが挙げられます。
セキュリティにも配慮されており、Google Cloud の安全なインフラストラクチャ上に構築されています。

OpenAI

新しい動画生成AIモデル「Sora Turbo」が提供されました

OpenAI社は2024年12月9日に動画生成AIモデルの「Sora Turbo」を発表しました。このモデルではユーザーが入力したテキストや画像からリアルな動画を生成することができます。最大 20 秒で1080pの解像度の動画を生成することができ、ワイドスクリーンや縦長、正方形のアスペクト比での出力も対応しています。Soraのアプリ画面からサービス利用が可能ですが、利用には有料のChatGPT PlusかChatGPT Proのサブスクリプションが必要です。

試しに動画を作成してみましたが1~2分ほどで動画生成が終わりました。
生成された動画は履歴として画面で確認できるほか、MPEGやGIFでダウンロードすることができるようです。

ChatGPTの音声モードにサンタボイスが登場🎅

Microsoft

MarkItDown

MicrosoftがOSSで様々なファイルをMarkdown形式に変換できるパーサーをリリースしました。
LLMではそのままま取り扱うのが難しいOfficeドキュメントのパースにも対応しています。

早速簡単に試せるデモサイトがローンチされています。

アイレット

「AWS re:Invent 2024 re:Cap presented by iret」を開催します

2024年12月19日(木)18:00より「AWS re:Invent 2024 re:Cap presented by iret」を開催します。このイベントはAWSが主催する「AWS re:Invent 2024」のポイントを解説するre:Cap イベントとなっており、新しく発表されたAWSの最新情報をいち早く紹介します。
DX開発事業部からは西田が登壇します。ご参加希望の方はフォームよりお申し込みください。

その他

LangGraphに新機能「Command」が追加

LangChainが提供するマルチエージェントフレームワーク「LangGraph」に、ノード間の動的な連携を可能にする新ツール「Command」が追加されました。
この機能により、エージェント同士の連携を動的に設定できるようになり、複雑なワークフローの設計がこれまで以上に簡単になります。エージェントが他のエージェントに制御を委ねる「ハンドオフ」や、階層的な構造を持つアーキテクチャを効率的に構築できるようになりました。

LangSmithがOpenTelemetryサポートを開始

LangChainのモニタリングツール「LangSmith」が、分散トレーシングのスタンダード「OpenTelemetry」をサポートするようになりました。これにより、生成AIのパフォーマンス監視やテレメトリーデータの収集が簡単になりました。
さらに、生成AIに特化したセマンティック規約「OpenLLMetry」にも対応しており、他のAIモニタリングツールともシームレスに統合可能です。LLMを活用したシステムの運用において大きな助けになることが期待できます。

GitIngest

GitHubリポジトリをLLMが解釈しやすいスマートテキストに変換してくれるサービスが登場しました。
OSSのためソースコードも公開されています。

Adobe Camera Rawに窓ガラスの反射を除去する機能が追加

Adobe Camera Raw に新たに搭載された Reflection Removal toolは、窓越しに撮影した写真の反射を一回のクリックで除去する技術です。
この技術は AI に基づいており、特に平板ガラスの反射に特化しています。
ユーザーは Camera Raw の設定からこの機能を有効化し、写真をインポートして反射を除去できます。今後は JPEG や HEIC などの非 RAW ファイルにも対応予定です。

Pika 2.0モデルがリリース


次週はどんなニュースがあるでしょうか。お楽しみに✋

クラウドと生成AIでの業務改善のご相談はコチラ👇