アイレット株式会社 DX開発事業部です!
DX開発事業部ではお客様のDX実現のために、生成AIのキャッチアップに日々取り組んでおります🔥
本記事では日々アップデートされる生成AI周りのニュースを週刊でお届けします🚀


今週は、AWSのAmazon Quick Suiteにブラウザ拡張機能とメモリー機能が追加され、Googleからは高速で企業向けのGemini 3 Flashが登場しました。AnthropicはChrome向けClaude拡張機能のパイロット版を発表し、ブラウザ操作が可能なAIの実用化に向けて安全性の検証を開始しています。MicrosoftはDeepSeek-V3.2をAzure上で提供開始し、MetaはSAM Audioで音声セグメンテーションの新時代を切り開いています。各社の発表から、生成AIがより実用的で身近なツールへと進化していることが分かります🚀

AWS

Amazon Quick Suiteのブラウザ拡張機能がQuick Flowsに対応

Amazon Quick Suiteのブラウザ拡張機能が、Amazon Quick Flowsに対応しました。これにより、Webブラウザ内で直接ワークフローを実行できるようになり、各Webページから手動で情報を抽出する必要がなくなります。

自分で作成したワークフローや共有されたワークフローをブラウザから起動でき、WebページコンテンツをそのままFlowsに入力として渡せます。契約書の主要条項を自動抽出・分析したり、プロジェクトダッシュボードから週次レポートを自動生成して関係者に通知するといった業務自動化が可能です。

ブラウザ拡張機能自体の追加料金は不要で、標準的なQuick Flowsの使用料金のみが適用されます。Chrome、Firefox、Edgeのストアからインストールでき、米国東部(バージニア北部)、米国西部(オレゴン)、アジアパシフィック(シドニー)、ヨーロッパ(アイルランド)の各リージョンで提供されています。

Amazon Quick Suiteのチャットエージェントにメモリー機能を追加

Amazon Quick Suiteのチャットエージェントに「メモリー」機能が追加されました。この機能により、以前の会話に基づいてパーソナライズされた応答を提供します。

ユーザーが指定した設定や好みを記憶し、それに合わせた応答を生成することで、毎回の会話で応答フォーマットの設定や専門用語の説明、ダッシュボードや統合機能の指定を繰り返す必要がなくなります。ユーザーは推測された好みを確認・削除でき、プライベートモードでの会話も選択可能です。

米国東部(バージニア北部)と米国西部(オレゴン)で提供されており、継続的に改善される正確で洞察に満ちた応答が期待できます。

Google

Google Antigravity IDEがGoogle Data Cloudサービスに接続可能に

Googleが発表した新しいAIファーストIDE「Antigravity」が、Model Context Protocol (MCP)サーバーを通じてGoogle Data Cloudサービスに接続できるようになりました。

AlloyDB for PostgreSQL、BigQuery、Spanner、Cloud SQL、Lookerなどのサービスに対応し、自然言語でデータベース操作、スキーマ探索、クエリ開発、最適化が可能です。AlloyDBではテーブル一覧の取得やSQLクエリの実行、クエリプランの最適化確認ができ、BigQueryでは履歴データに基づく予測やデータメトリクスへの影響分析が可能です。

UIベースの設定により複雑な設定ファイルが不要で、IAM統合によりセキュアな認証を実現しています。データエンジニア、アプリケーション開発者、データアナリストにとって強力なツールとなります。

A2UI: エージェント駆動型UIのオープンプロジェクト

GoogleがA2UIプロジェクトを公開しました。これは、AIエージェントが動的なユーザーインターフェースを生成・送信できるオープンソースフォーマットです。

実行可能なコードではなく宣言的なデータフォーマットを使用し、クライアントが事前承認したコンポーネントカタログからのみUI要素を構成することで、UIインジェクション攻撃などのリスクを軽減しています。Flutter、Web Components、Angularなど複数のフレームワークで同じJSON仕様をレンダリングでき、ネイティブUIコンポーネントを使用してホストアプリのスタイルを継承します。

レストラン予約システムでは日付ピッカーや時間セレクター、送信ボタンを含む専用UIフォームを動的に生成でき、写真アップロード時にはGeminiが画像内容を理解してカスタムフォームを自動生成します。Apache 2ライセンスのオープンソースプロジェクトとして無料で利用でき、AG UI、CopilotKit、Flutter GenUI SDK、Opal、Gemini Enterpriseなどとの統合が進んでいます。

STOC 2026におけるGemini AIによる論文フィードバックツール

GoogleがSTOC 2026(理論計算機科学の主要学会)向けに、Gemini 2.5 Deep Thinkを活用した論文自動レビューツールを開発・試験運用しました。投稿前の論文に対して24時間以内に技術的なフィードバックを提供するシステムです。

計算ミス、論理的矛盾、変数の不整合などを自動検出し、論文の貢献要約、潜在的エラーの指摘、軽微な修正提案を提供します。80%以上の投稿論文が利用を選択し、調査回答者の97%が有用と評価、81%が論文の明瞭性向上に貢献したと回答しています。

「数ヶ月気づかなかった重大なバグを発見」との研究者コメントもあり、査読プロセスを置き換えるのではなく「補完するパートナー」としての活用が期待されています。88%の参加者が研究プロセス全体で継続的にアクセスしたいと回答しています。

Gemini 3 Flash for Enterprises発表

Googleが2025年12月17日にGemini 3 Flashを発表しました。高速性と高品質を両立した企業向けAIモデルです。

ほぼリアルタイムでの応答を実現し、Gemini 3 Proレベルの推論能力をFlashレベルの速度で提供します。複雑な動画分析、データ抽出、ビジュアルQ&A、数千のドキュメントからの構造化データ抽出などのマルチモーダル処理に対応し、エージェントコーディングタスクで優れたパフォーマンスを発揮します。

Gemini 2.5 Flashと比較して、Box社の評価で15%の精度向上、Harvey社のBigLaw Benchで7%の推論改善、Geotab社のエージェントコーディングタスクで10%のベースライン改善を達成しています。現在プレビュー版として提供中で、ビジネスユーザーはGemini Enterprise経由で、開発者はVertex AI、Google Antigravity、Gemini CLI、AI Studioで利用できます。

Google Labs NotebookLMの最新アップデート

Google Driveの新機能発表

NotebookLMのData Tables機能発表

OpenAI

新しいChatGPT Images機能が登場

OpenAIは2025年12月16日、新しいフラッグシップ画像生成モデルを搭載した「ChatGPT Images」の新バージョンを公開しました。画像生成速度は最大4倍高速化され、より正確な編集と指示への追従性が実現されています。

新しいImagesモデル(API名:gpt-image-1.5)は、細部を保ったまま正確な編集が可能です。人の外見や光の当たり方、構図などの重要な要素を編集後も一貫して保持できるため、写真編集やヘアスタイルのシミュレーション、スタイル変換などが自然に行えます。

指示への追従性が初期バージョンと比べて大きく向上し、より込み入ったオリジナル構成の作成が可能になりました。テキストレンダリングも改善され、文字量の多いテキストや小さな文字も正確に扱えます。6×6のグリッド形式で複雑なプロンプトを正確に実行したり、長文のMarkdownを自然な新聞記事レイアウトとしてレンダリングできます。

ChatGPT内には専用の「Images」スペースが追加され、モバイルアプリやchatgpt.comのサイドバーからアクセス可能です。プリセットスタイルやトレンドプロンプトが用意され、文章入力なしでも簡単に画像生成を試せます。画像生成を続けながら他の作業を並行して進められるため、待ち時間が削減されます。

API版のgpt-image-1.5では、画像の入出力コストがGPT Image 1と比べて20%削減され、同じ予算でより多くの画像を生成・反復できます。編集を重ねてもブランドロゴや主要ビジュアルがより一貫して保たれるため、マーケティングやeコマースでの商品画像カタログ生成に適しています。Wix、Canva、Higgsfield、Figma Weave、Envatoなどの企業がすでに活用しています。

新しいChatGPT Imagesは本日より世界中のすべてのChatGPTユーザーおよびAPIユーザー向けに順次提供開始されています。

OpenAIによるBranched Chats機能の発表

OpenAIによるGPT-5.2-Codexの発表

Anthropic

Claude for Chrome パイロットプログラム開始

AnthropicがChromeブラウザ向けのClaude拡張機能のパイロット版を発表しました。ブラウザ操作が可能なAIの実用化に向けて、安全性の検証を行っています。

ブラウザ内でのボタンクリック、フォーム入力などの自動操作が可能で、カレンダー管理、会議スケジュール、メール下書き、経費報告の処理に対応しています。マルチタブワークフローや予定タスク機能も搭載し、Claude Codeとの統合機能も備えています。

現在、Pro、Team、Enterpriseプランの全ユーザーに提供されています。企業向けには管理者による組織全体での有効/無効化設定やサイトのホワイトリスト・ブラックリスト設定が可能です。

プロンプトインジェクション攻撃への対策として、初期の攻撃成功率23.6%を11.2%まで低減し、サイトレベルのアクセス許可制御、購入や個人データ共有前の確認プロセス、金融サービスやアダルトコンテンツなど高リスクサイトのブロック機能を実装しています。

Microsoft

DeepSeek-V3.2およびV3.2-SpecialeがMicrosoft Foundryで提供開始

Microsoftは2025年12月15日、DeepSeek-V3.2とDeepSeek-V3.2-SpecialeをAzure上のMicrosoft Foundryで提供開始しました。これらは高度な推論能力を持つオープンソースモデルで、エンタープライズレベルのセキュリティとコンプライアンスを備えています。

DeepSeek-V3.2は、DeepSeek Sparse Attention (DSA)により長文コンテキストで最大3倍高速化を実現し、128kコンテキストで密なアテンションと同等の品質を維持します。総計算量の10%以上を強化学習に投資し、System 2型の思考学習戦略を採用しています。Thinking Retention Mechanismによりツール呼び出し中の推論を保持し、GRPO(Group Relative Policy Optimization)でメモリ使用量を50%削減しています。

V3.2-Specialeは最大推論精度に特化したバリアントで、オリンピアードスタイルの問題セットで最高クラスの結果を達成しています。V3.2はエージェント開発やビジネスアプリケーション全般に、V3.2-Specialeは研究機関、ヘッジファンド、科学ワークフロー、評価チームに適しています。

両モデルともパブリックプレビュー版として提供中で、入力1000トークンあたり$0.00058、出力1000トークンあたり$0.00168の価格設定で、Azure AI Foundry Model Catalogから利用できます。

Meta

SAM Audio: 音声セグメンテーションの新時代

Metaが発表したSAM Audioは、音声セグメンテーションを可能にする最先端のAIモデルです。複雑な音声ミックスから特定の音を分離できます。

テキストプロンプト(「犬の吠え声」などのテキスト入力で音を抽出)、ビジュアルプロンプト(動画内の人や物体をクリックして音声を分離)、スパンプロンプト(時間セグメントを指定して対象音声を抽出、業界初)の3つのプロンプト方式を提供し、これらは単独または組み合わせて使用可能です。

音楽プロデューサー、ポッドキャスター、映像・動画編集者、テレビ・映画制作者、科学研究者、アクセシビリティ関連の開発者など幅広いユーザーに向けて提供されています。バンド演奏の録音からギターやボーカルを分離したり、屋外撮影の動画から交通騒音を除去したり、ポッドキャスト全体から犬の吠え声を削除するといった用途に活用できます。

Segment Anything Playgroundでブラウザ上で試用でき、モデルのダウンロードも可能です。

その他

NVIDIA Nemotron 3 ファミリーのオープンモデル発表

NVIDIAは2025年12月15日、オープンモデルファミリー「Nemotron 3」を発表しました。エージェント型AIアプリケーション構築向けの効率的で高精度なモデル群です。

Nemotron 3 Nano(300億パラメータ)は最大30億パラメータを同時活用し、Nemotron 2 Nanoと比較して4倍のスループット向上と推論トークン生成を最大60%削減を実現しています。100万トークンのコンテキストウィンドウを備えています。

Nemotron 3 Super(約1000億パラメータ)はトークンあたり最大100億パラメータを活用し、マルチエージェントアプリケーション向け高精度推論を提供します。Nemotron 3 Ultra(約5000億パラメータ)はトークンあたり最大500億パラメータを活用し、複雑なAIアプリケーション向け大規模推論エンジンとなります。

ハイブリッド潜在的混合専門家(MoE)アーキテクチャを採用し、NVIDIA Blackwellアーキテクチャ上で4ビットNVFP4トレーニング形式を使用しています。Nemotron 3 Nanoは本日よりHugging Face、Baseten、DeepInfra、Fireworks、FriendliAI、OpenRouter、Together AIなどの推論サービス、AWS(Amazon Bedrock経由)、Google Cloud、CoreWeave、Microsoft Foundry、Nebiusなどのクラウドで利用可能です。

NVIDIAは3兆トークンのトレーニングデータセット、NeMo GymおよびNeMo RLオープンソースライブラリ、Nemotron Agentic Safety Dataset、NeMo Evaluatorなどを無償公開しており、すべてGitHubとHugging Faceで入手可能です。


次週はどんなニュースがあるでしょうか。お楽しみに✋

🚀 Powered by Claude Code
この記事はAIによって生成されていますが、DX開発事業部の新卒メンバーによってネタ集め、レビュー、修正が行われています。

クラウドと生成AIでの業務改善のご相談はコチラ👇

生成 AI 導入・活用支援サービス|クラウドの活用ならcloudpack
生成 AI 導入・活用支援サービスでは、PoCの実施検証、開発支援はもちろん、本番導入のための教育支援や導入後の内製化支援までワンストップでサポート。お客様の業務課題解決やDX を促進するため、様々な生成 AI のユースケースから、最適なソリューションをご提案いたします。
AI導入をワンストップで支援。開発・運用・セキュリティを統合する「gaipack」|アイレット株式会社
AI開発から既存システムのAI化、セキュリティ強化まで。アイレットの「gaipack」が企業のAI課題をワンストップで解決し、安心のAI活用基盤を実現します。

一緒に働くメンバーを募集しています!