エンタープライズクラウド事業部の黒野です。
今回は re:Invent2023 に現地参加しており、先日、日本でも GA された Amazon Bedrock に関するセッションに参加してきました。
スピーカー
- Agustinus Nalwan
- carsales.com Ltd
- AWS Machine Learning Hero
セッションレベル
- 200 – Intermediate
セッション概要
Learn how AWS Machine Learning Hero Agustinus Nalwan built Owly, an AI-powered bedtime storyteller that crafts personalized comic videos with music. In this session, discover how to use the Amazon Bedrock large language model to generate comic scripts. Learn how to fine-tune the Stable Diffusion model with the help of Amazon SageMaker JumpStart to eliminate character inconsistencies and personalize the comic video with your kids’ beloved toys as the main characters. Dive deep into the prompt engineering technique and learn to blend two images together with the Stable Diffusion model.
AWS Machine Learning Hero Agustinus Nalwanが、パーソナライズされた音楽付きコミックビデオを作成するAI搭載のベッドタイムストーリーテラー、Owlyをどのように構築したかをご紹介します。このセッションでは、コミックスクリプトを生成するためにAmazon Bedrockラージ言語モデルを使用する方法を発見してください。Amazon SageMaker JumpStartの助けを借りてStable Diffusionモデルを微調整し、キャラクターの不一致をなくし、子供の大好きなおもちゃをメインキャラクターとしてコミックビデオをパーソナライズする方法を学びます。プロンプトエンジニアリングのテクニックを深く掘り下げ、安定拡散モデルを使って 2 つの画像をブレンドする方法を学びます。
セッション
Owly という SageMaker JumpStart の Stable Diffusion と Amazon Bedrock を使用したパーソナライズされたコミックビデオ生成プロダクトの紹介になります。
https://towardsdatascience.com/building-owly-an-ai-comic-story-generator-for-my-son-c99fb695d83b
Owly で生成したビデオをお子さんが実際に寝る前などに見ているらしいです。
そして今回のセッションではこの Owly の実際の内部処理を解説するような内容となっております。
初期構想
- ストーリー
- ストーリーの読み上げ
- 読み上げに合わせた音楽
- 画像の生成
- 全てを組み合わせてビデオを生成
ストーリー
ストーリーは Amazon Bedrock の Claude などを使用して、作成しているそうです。
ここでは読み上げに合わせたスタイルにするために条件を付けくわえることで理想のものを作成できたそうです。
イメージ(画像)
イメージの作成は SageMaker JumpStart の Stable Diffusion を使用して作成を行ないます。
一人称がバラバラなため、画像ごとの主人公が変ってしまう問題
もはや、ペンギンではなく人になってしまったりしているのは一貫した共有情報がないため、
He や Bob などの一人称を記載したときにズレがおきてしまいます。
そのため、事前に He や Bob が何を指しているのかを共有的に与えることで、ズレを抑えることができます。
ファインチューニングについて
今はある程度一貫したキャラクターを表示することができていますが、まだブレがあるため、
Bob というキャラクターをファインチューニングすることで一貫したキャラクターを表示することができます。
全体の構成図
AWS Batch を使用して、各コンポーネントの呼び出しを行っているそうです。
その他のミックスされた動物画像紹介
今回、ファインチューニングした際にできたミックスされた動物の紹介がされていました。
まとめ
- 機械学習にそれほど精通していなくても分かるほど、とても分かりやすく解説されておりとても良いセッションでした。
- 本セッションでもプロンプトエンジニアリングについて多く触れられており、改めて重要性を思い知らされました。
- Project Ellee という物理的な人形に GPT-3 や顔認識など様々な機能を持たせたものを作成されているのも紹介されていましたので、興味のある方は以下の URL に詳細が記載されております。
– https://agustinus-nalwan.medium.com/building-ellee-a-gpt-3-and-computer-vision-powered-talking-robotic-teddy-bear-with-human-level-db7d08259583