アイレット株式会社 DX開発事業部です!
DX開発事業部ではお客様のDX実現のために、生成AIのキャッチアップに日々取り組んでおります🔥
本記事では日々アップデートされる生成AI周りのニュースを週刊でお届けします🚀
AWS
Amazon Connect Agent Workspace、音声最適化機能と仮想デスクトップに対応
Amazon Connect Agent Workspaceのアップデートが発表されました。新たに音声品質を向上させる機能を搭載し、背景ノイズ削減や動的な帯域幅調整により、エージェントと顧客間の会話がよりクリアに保たれます。また、Citrix Workspacesなどの仮想デスクトップ環境にも対応し、エージェントはどのデバイスからでも安全かつ円滑に業務を行えるようになりました。このアップデートは、リモートワークの増加に対応しつつ、柔軟な業務環境を提供する重要な改良となっています。
Amazon Bedrock Flowsにおいて、マルチターン会話サポート機能の発表(プレビュー版)
生成AIによるワークフローを構築できるAmazon Bedrock Flowsがマルチターン会話サポートのプレビューを発表しました。この機能によりユーザーとフロー間で自然な対話のような動的なやり取りが可能になります。エージェントが必要な情報をユーザーに要求し、その後フローの実行を再開することで、よりインタラクティブでコンテキストを意識した体験が実現することが期待されます。
Amazon Bedrock、Cohere Embed 3 MultilingualおよびEmbed 3 Englishのマルチモーダルサポート
Amazon Bedrockで利用可能な埋め込みモデル「Cohere Embed 3 Multilingual」と「Embed 3 English」において、マルチモーダルサポートが追加されました。この新機能により、テキストと画像の両方から埋め込みを生成でき、企業は多様なデータから価値を引き出すことが可能になります。これにより、複雑なレポートや製品カタログ、デザインファイルといった重要なマルチモーダル資産を迅速に検索できるシステムの構築が容易になります。また、Embed 3は100以上の言語をサポートしており、幅広いデータ形式に対応することで、検索機能のさらなる強化が期待されています。
Amazon Bedrock で Luma AI の Ray2 モデルが利用可能に
Amazon Bedrock で Luma AIの Ray2 モデルが利用可能になりました。テキストから高画質動画を生成し、静的なコンセプトから魅力的な動画を作成できます。Luma Ray2 は、自然で一貫性のある動きとテキスト指示の深い理解を備えたリアルなビジュアルを作成できる大規模動画生成モデルで、単一の API 経由で生成 AI アプリケーションにテキストから生成された高品質でリアルな制作準備完了の動画を追加できます。コンテンツ作成、エンターテイメント、広告、メディアなどのユースケースに活用できます。カメラアングルやスタイルをすばやく試し、建築、ファッション、映画、グラフィックデザイン、音楽のクリエイティブなアウトプットを提供できます。
この新機能については、弊事業部の開江が早速Amazon Bedrockで動画生成モデル「Luma Ray2」を試してみたという記事を公開しておりますので、ぜひご覧ください。
また、サービスページも公開されていますので詳細を確認したい方は併せてご覧ください。
Amazon Q Business、画像を抽出し、質問に回答する機能が利用可能に
Amazon Q Businessに、チャットにアップロードした画像から情報を抽出し質問に答える機能が追加されました。この機能により、ユーザーは画像を直接チャットにアップロードし、その内容に関連する質問を行うことができます。例えば、請求書の画像をアップロードして経費を分類することや、技術的なアーキテクチャ図を共有して説明を求めることが可能です。この視覚分析機能はAmazon Q Businessが利用可能なすべてのAWSリージョンで利用できます。
GenUのサービスページが公開
生成AI活用のフレームワークであるGenUのサービスページが公開されているようです。
リポジトリを見ていると、V2.0.0に続くV3.0.0のブランチも作成されているようで、リリースが楽しみですね。
ぐるなびがAIで新たなお店と出会えるアプリ「UMAME!」をリリース
ぐるなびは、生成AIを活用した飲食店検索アプリ「UMAME!」のβ版提供を開始しました。
生成AI技術とぐるなびのデータにより、ユーザーの外食ニーズに合わせたパーソナライズされた店舗提案を行います。テキスト・音声入力による日常会話での検索や、画像ファイルからの検索も可能です。
また、Google Cloud公式ブログで「UMAME!」にはGoogle Cloudの生成AI技術が利用されていることが明らかにされています。
エージェントを評価するGen AI Evaluation Serviceがパブリックプレビューで公開されました
今回Vertex AI Gen AI evaluation service がパブリックプレビューで公開されました。このサービスでは最終応答と軌道評価の2つのカテゴリで評価し、最終応答は、エージェントが目標を達成したかどうかを評価します。軌跡評価は、エージェントの意思決定プロセスを分析します。Vertex AI上のLangChainであるReasoning Engine のほか、LangChain、LangGraph、CrewAI などのオープンソース フレームワークで構築されたエージェントの評価もサポートされているようです。
最先端のGoogle AIがアドオンなしでWorkSpaceで利用可能に
Google Workspace の Business プランと Enterprise プランで、最先端の Google AI がアドオンなしで利用可能になります。これにより、Gmailやドキュメント、Meet、ドライブ、スプレッドシート、スライド、Chat など、様々なサービスで AIによるサポートが受けられます。Business エディションでは2025年1月15日から利用可能になっており、Enterprise エディションは2025年1月29日から利用開始となります。
既存の Geminiアドオンについて2025年1月31日以降は請求されず、以降期間中は引き続き利用可能のようです。
OpenAI
「スターゲート・プロジェクト発表」
OpenAIがソフトバンクやOracle、NVIDIAと新らしいプロジェクト「Stargate」を開始することを発表。
今後4年間で5,000億ドルを投資してアメリカ国内にAI用のインフラを作ります。
テキサスからスタートし、他の場所も検討中。これにより、雇用創出と経済効果が生まれ、AIやAGI(汎用人工知能)の開発もさらに加速することが期待されます。
ソフトバンクが資金をサポート、OpenAIが運営を担当し、孫正義さんが会長に就任することとなっています。
OpenAIが新しいAIエージェント「Operator」を発表
OpenAIは、ウェブブラウザを使用してタスクを実行できる新しいAIエージェント「Operator」を発表しました!
現在はプレビューで、現在米国のProユーザーのみが利用可能です。
Canvasがアップデート、OpenAI o1での動作とHTMLとReactコードのプレビューに対応
アイレット
Qiita Advent Calendar 2024 において、「Organizationカレンダーいいね賞(メンバー数11名以上)」を受賞 〜2024年の TOP Organization ランキングでは6位を受賞〜
昨年のQiita Advent Calendar 2024 Organization部門でアイレットが「Organizationカレンダーいいね賞(メンバー数11名以上)」を受賞するとともに、2024年の TOP Organization ランキングでも6位を受賞しました!
生成AIに関する記事はQiita Organizaitionにも投稿しているのでぜひ御覧ください
その他
DeepSeek社がOpenAI o1と同等の性能をもつオープンモデル「DeepSeek-R1」を発表
🚀 DeepSeek-R1 is here!
⚡ Performance on par with OpenAI-o1
📖 Fully open-source model & technical report
🏆 MIT licensed: Distill & commercialize freely!🌐 Website & API are live now! Try DeepThink at https://t.co/v1TFy7LHNy today!
🐋 1/n pic.twitter.com/7BlpWAPu6y
— DeepSeek (@deepseek_ai) January 20, 2025
Perplexity AssistantがGoogle Play Storeで公開
Introducing Perplexity Assistant.
Assistant uses reasoning, search, and apps to help with daily tasks ranging from simple questions to multi-app actions. You can book dinner, find a forgotten song, call a ride, draft emails, set reminders, and more.
Available on Play Store. pic.twitter.com/UHdUIiDOzD
— Perplexity (@perplexity_ai) January 23, 2025
日本語リアルタイム音声対話モデルJ-Moshiが公開
日本語リアルタイム音声対話モデルJ-Moshiを公開しました!@kyutai_labs のMoshiをベースとし、人間のように「話す🗣️」と「聞く🎧」を同時に行います。
日本語で利用可能な初めてのモデルです。
モデルサイズは7Bと軽量なのでぜひお試しください‼️#NLP2025 で発表予定です。https://t.co/t2EKifkO46 pic.twitter.com/EOBSqQER4F— Atsumoto Ohashi (@atsumoto_ohashi) January 24, 2025
次週はどんなニュースがあるでしょうか。お楽しみに✋
クラウドと生成AIでの業務改善のご相談はコチラ👇