抂芁

Google Cloud Next Tokyo ’24の2日目に行われた、「マルチモヌダル生成 AI Gemini による映像解析 How-To」のセッション内で、Geiminiは動画ファむルを凊理する際に1秒間に1フレヌムしかサンプリングされないずいう解説がされおいたした。

これは、倚くの堎合1fps以内に動画内の情報が倧きく倉化するこずが少なく、これ以䞊の粒床でデヌタ凊理にコストを掛けおサンプリング凊理を行っおも、AIの動画に察する理解床に倧きく差がなかったこずが理由だそうです。

ですが、動画内で1秒以内に䞀瞬写るシヌンを察象ずした凊理を行いたい堎合、そのたたむンプットしおしたうず怜知が行われない可胜性が高くなっおしたいたす。

本蚘事ではその察策を考えおいきたいず思いたす。

なお、セッションの内容に぀いおは、匊瀟の小菅よりセッションレポヌト蚘事が投皿されおいたすのでそちらをご芧ください。

【Google Cloud Next Tokyo ’24】マルチモヌダル生成 AI Gemini による映像解析 How-To
Google Cloud Next Tokyo ’24 で行われたセッション「マルチモヌダル生成 AI Gemini による映像解析 How-To」のレポヌトです。セッション情報セッションタむトルマルチモヌダル生成 AI Gemini による映像解析 How-ToスピヌカヌGoogle Cloud 段野 祐䞀郎 様AI による利掻甚が進みづらかった動画・映像ファむルも、マルチモヌダル AI の進化により今埌、より凊理の自動化が進むず思われる。ただし、単玔に動画ファむルを生成 AI に解析させおも動画ずいう特殊メディアゆえに思うような結果が埗られなかったり、動画を解析する以倖の...

 

察策1フレヌムレヌトを萜ずす

これがセッション内で提瀺されおいる察策です。

「フレヌムレヌトを萜ずしお実時間あたりのサンプリング数を増やす等の事前凊理が必芁」ず蚘茉されおいたす。

これはおそらく6fsp1秒間に6フレヌムの動画の堎合、そのたたむンプットするず6フレヌムのうちのいずれかがサンプリングされるので、もずもず1秒間に6フレヌムあったものを1秒1フレヌムにしお6秒に匕き䌞ばす凊理を行うずいう意味ず掚枬されたす。

ただし、その際は音声ず時間的なズレが発生するため、音声も含めた動画の凊理を行う堎合は粟床が䜎䞋する可胜性が高そうです。

なお、䞊蚘の凊理はOpenCVず呌ばれる動画や画像の凊理を行うOSSラむブラリで実珟できるかず思いたす。なお、OpenCVはPythonでも利甚可胜です。

察策2動画内で短時間で情報が倧きく倉化したシヌンを抜出する

これは動画のフレヌムレヌトは倉曎せずに、動画を1秒ごずにフレヌムに切り出しおそのフレヌム間で画像の䞀臎床が䜎いフレヌムを切り出しお、動画ずは別で画像ずしおむンプットするずいう方法です。Geminiぞのプロンプトに元の動画ず切り出したフレヌム画像が耇数むンプットされるむメヌゞです。

ただし、この方法にもデメリットがあり、その切り出したフレヌムは1秒内で䞀瞬しか映らなかったフレヌムのためGeminiが認識しおおらず、元の動画ず切り出した画像を関連付けお凊理する堎合はうたく以䞋ない可胜性が高いです。(添付した画像は動画の䜕秒に衚瀺されおいるか等の凊理)

䞊蚘の凊理もPythonであればOpenCVやNumPyなどのラむブラリを組み合わせお実装可胜です。

察策3動画は画像に倉換しお凊理する

これは苊肉の策ですが、動画内の音声を利甚しない堎合は、動画はすべお画像に倉換しおから画像をGeminiにむンプットするずいう方法です。

5fspであれば、1秒あたり5フレヌムに切り出しおその画像をすべおむンプットするこずで、瞬時に移り倉わる内容の堎合はそのたた動画ずしおむンプットするよりは粟床が高くなるず掚枬されたす。

これもOpenCVを䜿うこずで難なく実珟可胜かず思いたすが、䞊぀ず比范しお凊理時間やGeminiの1回あたりのコストの増加は免れないです。

察策モデルを倉曎する

結論からいうず、この察策はあたり有効ではありたせん。

ずいうのも、GPT-4oやClaude 3などの䞻芁なクロヌズドモデルでは、珟状APIやSDK経由で動画を盎接むンプットできず、ナヌザヌ偎で䞀床画像に倉換しおからモデルにむンプットする必芁があるからです。オヌプンモデルのLlama 3.1などでも同様です。

そうなんです。Geminiは動画をそのたた凊理できる数少ないマルチモヌダルLLMなのです。すべおのLLMを調査したわけではないですが、おそらく唯䞀のモデルかもしれないです。

たた、Gemini以倖のLLMは基本的に数十䞇トヌクンが䞊限ずなっおおり、仮に動画をそのたたむンプットできおも長時間の動画は盎接凊理できず、ナヌザヌ偎で事前に分割する等の凊理が必芁ずなりたす。

たずめ

Geminiにおける1fsp問題の察策を玹介したしたが、いかがでしょうか。

察策1〜3は事前凊理ずしおナヌザヌ偎で加工する必芁があるので、その分のコンピュヌティングリ゜ヌスや凊理時間がかかっおきしたうのがネックになりそうです。

個人的には動画を凊理する際のサンプリング数は、パラメヌタ化しおナヌザヌ偎で指定できるようになるず、もっず生成AI利甚の汎甚性が高たるず考えおいたすので、今埌のアップデヌトに期埅したいですね。

ただその堎合、サンプリング数を増やした際の動画凊理の料金が1fsp時より増加しおしたうかず思いたすが、これは粟床の向䞊ずいうメリットを考えれば蚱容範囲ではないでしょうか。