概要
2024年3月7日に六本木ヒルズ アカデミーヒルズとオンラインのハイブリッドで開催された、Generative AI Summit Tokyo ’24に参加してきましたので、この記事では基調講演のセッションレポートを行っていきたいと思います。
基調講演
Geminiの説明
基調講演では初めに 【基調講演】生成 AI の実践展開へ:Google Cloud の最新進化と企業導入のための重要なポイント
というタイトルで、Google Cloudの橋口さんよりGeminiの紹介が行われました。
GeminiはGoogleによって提供されているマルチモーダルなAIモデルのことで、ラテン語で双子座という意味があり、開発にあたってはGoogle DeepMindとGoogle Brainの2社の協力により生まれたAIサービスのため、そう名付けられたようです。
生成AIの実践の活用方法
続いてGoogle Cloudの寳野さんより生成AIの実践の活用方法の紹介が行われ、ファッション業界で生成AIの利用状況を調査したアンケートだと、37%は実験的に利用しており、また4%は定期的に利用し業務に組み込まれていると回答されたようです。
また、LLMモデルを利用する際によく知られているハルシネーション(幻覚)の説明として、Geminiアプリで野球の大谷選手の現在の所属チームを質問するとロサンゼルス・ドジャースと回答しますが、Vertex AIのコンソールからGeminiに同じ質問をするとロサンゼルス・エンジェルスと回答を行い、これはVertex AIの方はそのモデルをトレーニングした時点の学習データで回答が行われているため以前の所属チームを回答してしまったとのことでした。
ではなぜGeminiアプリは最新の所属チームを回答できたかというと、Geminiアプリは生成した回答をGoogle検索で確認し学習以降に変更があった場合でも正しい回答を返してくれるという機能があるからとのことでした。
またハルシネーションを低減させる手法としては、グラウンディングにより自社データなどの外部ソースを参照させる、モデルをチューニングすることによりタスクに適合させる、拡張によりアプリに動作させる、とのことです。
Geminiの開発手法
続いてGoogle DeepMindでResearch Engineerをされている賀澤さんによる、Geminiの開発手法の説明がありました。
Geminiはマルチモーダルという文字、画像、動画といった複数のメディアを活用して質問、回答を作成できるモデルですが、モデルのトレーニング時点から複数のメディアを用いてトレーニングを行っているとのことです。
またマルチターンによる会話の特徴として、最初の質問にマトリックスの後ろに倒れて銃弾を避ける有名な一連のシーンの画像を複数プロンプトとして与え、これは何をしているのかと質問すると、男性が後ろに倒れようとしている画像であると回答されました。
続いてこれは何のシーンなのかといったニュアンスの質問をすると、マトリックスの映画の1シーンであると正常に回答され、さらに続けて他にはどんなものに似ているかという質問をすると、この動きが含まれる映画の一覧が回答されました。
これはGeminiが画像内の動きからマトリックスやその他の映画内で行われているという知識を持っているからで、こういったところにマルチモーダルのモデルの特徴が出るようです。
その他の例として、JAXというソフトウェアのソースコードを外部データとして渡し、ある処理はソースコード内のどのファイルに記載されているかという質問をしたら正常にその処理が記載されているファイル名を回答したり、
レ・ミゼラブルの1シーンを手書きの絵にしてプロンプトに指定すると、そのシーンはレ・ミゼラブルの小説のどのページに記載されているかも正常に回答してくれました。
こういった活用方法ができるのもマルチモーダルモデルの特徴ですね。
また、先日発表されたGemini 1.5の特徴として、コンテキスト長が100万トークンまで指定できるようになったため、この様な処理が可能になったとのことです。
セマンティック検索
続いて再度Google Cloudの寳野さんによるセマンティック検索 (意味検索) の紹介が行われました。
セマンティック検索がキーワード検索や全文検索と違う点としては、「黒くて短めのひらひらしたカクテルドレス」と言葉をそのまま検索するのではなく、その言葉が表している意味を理解し、該当する画像や商品の説明を意味ベースで検索するというのがセマンティック検索とのことです。
日本テレビ社における生成AIの活用事例
続いて日本テレビ放送網株式会社の川越さんによる、日本テレビ社における生成AIの取り組みが紹介されました。
日本テレビ社では2022年に「コンテンツ制作にAIを導入する」をスローガンに、生成AIという言葉が浸透していなかった時代から取り組みを始めていたようです。
生成AIの導入のゴールとしては組織変革の機会を目指しており、ITエンジニアのカルチャー、ノウハウやナレッジの蓄積、リテラシーの獲得が目標としてあるようでした。
またTech Acceleration Program (TAP) というGoogle Cloudの内製化支援プログラムを活用し、どうしても自分たちで解決が難しい場合はGoogle Cloudからサポートを受け、課題の解決を行っているとのことでした。
生成AIの動向
続いて株式会社アイ・ティ・アールの舘野さんによる、生成AIの動向調査の説明が行われました。
この調査によると2024年に導入したい技術要素として生成AIが2位にランクインしており、さらに役員や事業部長クラスは導入に積極的だが課長クラスは消極的になっている傾向があるということが分かったようです。
ただ生成AIを導入して期待通りの成果が上がっていると回答したのは全体の3-4割、今年の現段階では期待どおりの結果が現れていないとの回答が多かったようです。
また、今後生成AIに期待する進化としては、過去に蓄積したナレッジを反映した回答生成能力の向上 (=グラウンディング) が一番望まれており、モデルの精度も大事だがグラウンディングを用いてその企業のデータの利活用が求められている傾向にあるようでした。
生成AIのシェア率としては現時点ではOpenAIの利用が6割だが、今後利用したいモデルとしてはGeminiが26%と今後一番期待されているモデルに選ばれているようでした。
生成AIを企業で活用する上での考慮事項
最後にSTORIA法律事務所の柿沼さんにより「生成AIを企業で活用する上での考慮事項」というタイトルで、弁護士事務所における生成AIの活用のトレンドや生成AIの利用における法律的な解説が行われました。
ファインチューニングは社内外のデータを用いてモデル自体を更新し、RAGはセマンティック検索における検索と生成の精度を向上させるためにデータをベクトル化させ蓄積させますが、そのデータの蓄積が著作権侵害や個人情報保護に違反しないのかという法的な問題があるとのことでした。
また著作権侵害のリスクとして、著作物をプロンプトに指定して類似のものを作るのは明らかなNGパターンですが、すでに提供されているモデルの学習データに著作物が入っていて、それの類似のものが作られるパターンは注意が必要とのことです。ただし、GoogleやMicrosoftはこのような提供している生成AIモデルの利用で著作物に関わる裁判になった場合に補償する精度があり、規約に明示されているとのことでした。