【AWS Summit Japan 2025】Amazon Novaって何者？画像・動画・音声もOKな生成AIの可能性にワクワクした話

はじめに

こんにちは！
第一開発事業部で開発エンジニアをしています森田です。
本日、AWS Summit 2025 Day1に参加してきました。
今回はその中でも印象に残った「Amazon Nova入門　〜Amazon Novaで広がるマルチモーダル生成AIの可能性〜」のセッションを振り返りたいと思います。

セッション概要

AWSが公開している数ある生成AIの基盤モデルのうち、先進的な知性と業界トップクラスのコストパフォーマンスを提供するAmazon NovaについてAWS Japanの安藤慎太郎氏からお話を伺いました。
生成AIのユースケース→Amazon Nova 基盤モデル→活用事例の順でお話しいただきましたので、その順番に沿ってセッションの内容を紹介します。

生成AIのユースケース

現在、生成AIは至るところで使われています。
私も業務内で資料作成やコーディングをAIに手伝ってもらうことが多くなりました。
日常生活の中でも家電にAIが組み込まれていたり、障害物認識のためのAIが自動車に搭載されるなど、日に日に便利になっていくのを実感します。

「Amazon社内でも生成AIを1000以上の用途で使用している」というお話がありました。
このように生成AIを深く理解したメンバーが開発したのがAmazon Novaという基盤モデルだそうです。

Amazon Nova 基盤モデル

Amazon Novaはマルチモーダル構築モデル、クリエイティブコンテンツ生成モデル、音声対話モデルの大きく3つのモデルに分かれます。

マルチモーダル構築モデルでは、文章や画像、動画を入力として与えることで、適切なテキストを出力してくれます。
クリエイティブコンテンツ生成モデルでは、プロンプトに応じて画像や動画を出力してくれます。
音声対話モデルでは、複雑なアーキテクチャを組まずに音声対話を行うことが出来ます。

また、基盤モデルの特徴として以下の6点が挙げられていました。

先進的な知性
低レイテンシ
コストパフォーマンス
エージェントワークフロー・RAG
カスタマイズ
責任あるAI

6つの特徴の中で最も興味深かったのが、「責任あるAI」です。
責任あるAIという言葉には2つの意味が含まれています。

「ウォーターマークの付与」
Amazon Novaが生成した画像や動画に人間には目視できない情報（ウォーターマーク）が埋め込まれており、AI生成であることが分かるというものです。
「出力に対する補償」
例えば、ある企業がAIの出力した第三者の著作権を侵害する画像を使ってしまい、損害を被った場合、AWSが補償を行うというものです。

こういった補償があれば、顧客側が安心してAmazon Novaを利用できて良いなと思いました。

次に、Amazon Novaの各モデルの詳細な紹介が行われました。

マルチモーダル理解モデル

前述の通り、このモデルは文章や画像、動画を入力として与えることで、適切なテキストを出力してくれるモデルです。
4つの種類があり、ユースケースに応じて使い分けることが出来ます。
例として、財務諸表の画像から流動比率を計算させたり、アメフトの動画の一部を渡してその動画の内容を説明させるということが挙げられていました。

クリエイティブコンテンツ生成モデル

前述の通り、プロンプトに応じて画像や動画を出力してくれます。
このモデルには2つのサービスがあり、Amazon Nova Canvasでは画像生成・編集を、Amazon Nova Reelでは動画生成を行うことが出来ます。

概要

Amazon Nova Canvas

Amazon Nova Reel

Amazon Nova CanvasとAmazon Nova Reelの機能について面白かったものをいくつか紹介します。

1つ目はインペインディングです。

マスクプロンプト（編集したいところ）とテキストプロンプト（編集内容）を渡すことで、簡単に画像編集を行うことが出来る機能です。
スライドの例では、湖（左）を、柵のある野原（右）に変更しています。
最初に見たときに編集が自然すぎて左と右で何が変わったのかわかりませんでした（笑）

2つ目はアウトペインティングです。

画像とプロンプトを与えることで、画像に背景などを付け足すことが出来ます。

3つ目はカラーパレットです。

プロンプトと一緒にカラーコードを渡すことで、指定した色を使って画像を生成することが出来ます。
ブランドの世界観に合わせた出力が行えます。

音声対話モデル

前述の通り、複雑なアーキテクチャを組まずに音声対話を行うことが出来ます。
外部機能を呼び出すことも出来るので、外部から得た情報を会話の中に含めることが出来てかなり世界が広がるなと思いました。

活用事例

AWSサポートエンジニアをサポートするエージェント

AWSには利用者の疑問を解決するAWSサポートがあります。
Amazon Novaのマルチモーダルの機能を活かして、問題解決に至る時間を大幅に短縮したという事例です。
お客様の構成図からその環境を再現するためのコードを出力し、サポートエンジニアの手元で検証を行うことも出来るようです。

Prime Videoドラマシーズン総集編生成

Prime Videoで配信されているドラマの新シーズンが始まる際に、その前シーズンの総集編をAmazon Novaを活用して作成したという事例です。
通常、合計で450分あるドラマの総集編を作成するためには数週間の時間が必要となるようですが、Amazon Novaを活用したことで数時間で総集編が作成できたそうです。
実際の映像を見せていただいたのですが、人力で作った総集編と遜色のないクオリティで驚きました。

実際の総集編はこちらから視聴することが出来ます：

https://youtu.be/EAlOvEszNB8?t=1735

youtu.be

感想

今回のセッションを視聴するまでAmazon Novaについて全くと言って良いほど知りませんでしたが、このセッションを通じてAmazon Novaの魅力について簡単に知ることが出来ました。
テキストのみならず、画像や動画の出力や音声対話が行えるとのことで、幅広いユースケースに対応できる基盤モデルだと感じました。

また、「責任あるAI」という特徴も印象に残りました。AIに出力させて終わりではなく、その出力内容についてAWSが責任を持って保証・補償していくという姿勢は素晴らしいと感じました。
AIの利用がより活発になっていくであろうこれからの時代において、非常に重要な姿勢になっていくと思います。

以上のように、Amazon Novaは単なる生成AIではなく、信頼性と多様性を兼ね備えた次世代の基盤モデルであると実感しました。
今後、さまざまな分野でこのような技術が活用されていく中で、責任あるAIの在り方にも注目しながら、自身の業務や学びにも積極的に取り入れていきたいと思います。

【AWS Summit Japan 2025】Amazon Novaって何者？画像・動画・音声もOKな生成AIの可能性にワクワクした話

はじめに

セッション概要

生成AIのユースケース