1. 背景:プロンプト作成、難しくないですか?

「AIをもっと業務で活用したいけれど、どうプロンプトを書けばいいかわからない」
「思ったような回答が返ってこなくて、結局自分で調べ直している」

生成AIが日常的なツールになる一方で、私は上記のような悩みを抱えています。

2. 目的:AIを「壁打ち相手」にして最高の指示書を作らせる

本記事の目的は、プロンプト作成自体をAIに丸投げし、誰もが高品質のアウトプットを得られる「メタプロンプト」を共有することです。

AIにいきなり答えを求めるのではなく、「私の目的を達成するための完璧なプロンプトを作って」と指示し、AIから逆質問させることで要件を深掘りします。これにより、あらゆる作業の効率と質を上げることが出来ないかと考えました。

3. 何をしたか:「メタプロンプト」を用いた検証

この手法の実用性を証明するため、例として「新規プロジェクトに向けた、Amazon BedrockのLLMモデル比較」という架空のお題で、通常の頼み方(Before)とメタプロンプト(After)を比較検証しました。

(※前提として、各プロンプトの入出力はGeminiのPro版にて行っております)

ステップ1:メタプロンプトの入力

まずは、以下のテンプレートをAI(Geminiなど)に入力します。

あなたはプロンプトエンジニアリングの専門家です。
私がこれから達成したい「目的」を伝えますので、その目的を最高品質で出力するための「完璧なプロンプト(指示書)」を作成してください。

ただし、いきなり作成するのではなく、まずは以下のステップを踏んでください。
1. 私の目的を解像度高く理解し、不足している情報(背景、制約条件、ターゲット、必要なフォーマットなど)を補うため、私に3〜5つの質問をしてください。
2. 私がその質問に答えた後、その回答内容をすべて盛り込んだ、そのままAIに入力できる状態の「完璧なプロンプト」を出力してください。

では、私の目的を伝えます。
目的:【Amazon BedrockのLLMモデルの比較表を作りたい】

上記を入力後のGeminiの返答はこちらです。

プロンプトエンジニアリングの専門家として、最高品質の出力が得られる「完璧なプロンプト」を作成するお手伝いをさせていただきます。

Amazon Bedrockで利用可能なLLM(ClaudeやLlamaなど)の比較表は、モデルの選定や提案において非常に重要ですね。この目的を達成するためのプロンプトをより高解像度で、かつあなたのニーズに完璧に合致したものにするために、まずは以下の4つの質問にお答えいただけますでしょうか。

1. ターゲット読者と目的
この比較表は「誰が」「何のために」見るものでしょうか?
(例:開発エンジニアが技術選定をするため、非エンジニアの経営層にコストと性能のバランスを説明するため、特定のアプリ開発の要件定義に使うため、など)

2. 比較したいモデルの範囲
比較対象に含めたい具体的なモデルファミリーやバージョンはありますか?
(例:「Claude 3/3.5シリーズとLlama 3シリーズのみ」「Amazon TitanやMistral、Cohereも含めた主要なものすべて」など)

3. 重視する比較項目
表の中に必ず入れたい評価軸は何でしょうか?
(例:入力/出力トークン単価、最大コンテキスト長、日本語処理の精度、得意なタスク、レイテンシ、JSON出力の安定性、など)

4. 出力フォーマットと制約条件
最終的にAIからどのような形式で出力してほしいですか?また、何か条件はありますか?
(例:「Markdownの表形式で出力し、表の後に各モデルの簡単なサマリーを箇条書きで添える」「専門用語はなるべく避ける」など)

これらのご回答をもとに、そのままAIにコピー&ペーストして使える「完璧なプロンプト」を作成いたします。ご回答をお待ちしております!

ここでAIから逆質問を4つ受けました。今回用の回答は以下とさせていただきます。

1. ターゲット読者と目的:開発チームのエンジニアが、社内規程やマニュアルを検索するRAGシステムの技術選定を行うため。
2. 比較したいモデルの範囲:Claude 3.5シリーズ(Sonnet, Haiku)と、Amazon Titan Text、Llama 3シリーズを含めてください。
3. 重視する比較項目:入力/出力トークン単価、最大コンテキスト長、日本語処理の精度、レイテンシ。
4. 出力フォーマットと制約条件:Markdownの表形式で出力。表の後に、今回のRAG用途(日本語の精度とコストのバランス重視)において、どのモデルが最もおすすめかの結論を理由付きで箇条書きで添えてください。

上記回答を元に作成されたプロンプト文が以下となりました。

【役割】
あなたは、AWSおよび生成AIアーキテクチャに精通したシニアAIエンジニアです。
以下の要件に従って、Amazon Bedrockで利用可能なLLMの比較表を作成し、RAGシステム構築のための推奨モデルを提案してください。
【背景と目的】

ターゲット読者: 開発チームのエンジニア
目的: 社内規程やマニュアルを検索する「RAG(Retrieval-Augmented Generation)システム」の技術選定
重視するポイント: 社内文書を扱うための「日本語処理の精度」と、継続利用を見据えた「コスト」の最適なバランス
【比較対象のモデル】
以下のモデルを比較対象としてください(バージョンが複数ある場合は代表的なものを含めてください)。

Anthropic: Claude 3.5 シリーズ(Sonnet, Haiku)
Amazon: Titan Text シリーズ
Meta: Llama 3 シリーズ
【比較項目(表のカラム)】
以下の項目を必ず含めてください。

モデル名
入力トークン単価(例: USD/1M tokens等の単位を明記)
出力トークン単価(例: USD/1M tokens等の単位を明記)
最大コンテキスト長
日本語処理の精度(RAGにおける文脈理解や回答精度を想定し、定性的に評価)
レイテンシ(定性評価、または一般的な目安)
備考(各モデルの特長など)
【出力フォーマットと制約条件】

Markdownの表形式で比較表を出力してください。
数値情報(単価やコンテキスト長)は、可能な限り最新のAmazon Bedrockの公式情報に基づき正確に記述してください。
表の出力後、今回の**「社内規程・マニュアル向けRAG用途(日本語精度とコストのバランス重視)」において、どのモデルが最もおすすめかの結論を、技術的・実践的な理由とともに箇条書き**で記述してください。

上記プロンプト文を元にステップ2では通常の頼み方との比較を見ていきましょう。

ステップ2:通常の頼み方(Before)との比較検証

❌ 通常の頼み方(Before)
普通に「Amazon Bedrockで使えるLLMモデルの比較表を作って」と依頼した場合、以下のような回答が返ってきました。

Amazon Bedrock LLMモデル比較表

プロバイダー モデル名 特徴・強み 主なユースケース
Anthropic Claude 3.7 Sonnet / 3.5 Sonnet / 3.5 Haiku 業界最高水準の推論・コーディング能力。自然な日本語と高い安全性が特徴。 高度な分析、プログラミング支援、複雑な自動化、マルチモーダル処理。
Amazon Nova Pro / Lite / Micro / Titan AWSネイティブで最高クラスのコスパ。高速処理とマルチモーダル(画像・動画認識)に対応。 汎用チャット、コスト重視の大規模処理、AWSサービスとの密な連携。
Meta Llama 3.1 (8B/70B/405B) / 3.2 オープンモデルの標準。カスタマイズ(ファインチューニング)の自由度が高い。 独自データの学習、オンプレミス・エッジ環境との一貫性、汎用テキスト生成。
Mistral AI Mistral Large / Pixtral Large 欧州発の多言語対応に優れたモデル。推論速度が速く、構造化データの出力も得意。 多言語対応アプリ、低遅延なボット、エージェント型ワークフロー。
Cohere Command R / R+ RAG(検索拡張生成)とツール連携に特化。引用元を明示し、ハルシネーションを抑制。 企業内ドキュメント検索、高精度なナレッジベース構築、外部ツール操作。
AI21 Labs Jamba 1.5 Large / Mini TransformerとMambaのハイブリッド。超長文(ロングコンテキスト)を高速・低コストで処理。 膨大な資料・書籍の全文分析、長文レポートの要約、大規模コンテキストの保持。
DeepSeek DeepSeek シリーズ オープンモデルとして台頭。特に数学的推論とコード生成において驚異的なコスパを発揮。 コード生成、テクニカルな計算、高い推論能力を要する低コスト運用。

悪くはないですが、ただのスペックの羅列であり、「結局今回のプロジェクトでどれを使えばいいの?」という実践的な情報が得にくいです。

⭕️ 魔法のプロンプトを使った頼み方(After)

Amazon Bedrock LLMモデル比較表

モデル名 入力トークン単価
(USD/1M tokens)
出力トークン単価
(USD/1M tokens)
最大コンテキスト長 日本語処理の精度
(RAG用途の定性評価)
レイテンシ 備考
Claude 3.5 Sonnet
(Anthropic)
$3.00 $15.00 200,000 極めて高い
複雑な文脈、社内特有の言い回しや条件分岐も正確に解釈。
知能レベルが非常に高く、複雑な推論や高度な要約に最適。出力コストは高め。
Claude 3.5 Haiku
(Anthropic)
$1.00 $5.00 200,000 高い
日常的な規程検索やQAには十分な精度。自然な日本語。
非常に高速 速度・コスト・精度のバランスが最も良い。長文を渡すRAGの標準モデルとして極めて優秀。
Llama 3.1 / 3.3 70B
(Meta)
$0.72 $0.72 128,000 中〜高
実用レベルだが、Claudeと比較すると微細なニュアンスや自然さでやや劣る。
オープンモデルの最高峰。入出力の単価が同じため、大量のテキストを「生成(出力)」させる用途に強い。
Titan Text Express
(Amazon)
$0.80 $1.60 8,000
要約や抽出は可能だが、複雑な日本語の文脈理解や長文処理には弱め。
高速 AWSネイティブ。軽量な定型タスク向けであり、複雑な社内文書を扱うRAGのメインには不向き。

4. 効果:圧倒的な質の向上と思考の整理

BeforeとAfterを見比べると、結果の質が全く違うことがわかります。Afterの検証から得られた効果は大きく以下の2点です。

  1. 実務レベルの実践的なアウトプットが得られた
    単なるスペック比較ではなく、「RAGは入力トークンが肥大化しやすい」というインフラのアーキテクチャ目線での深い洞察と、具体的な採用アプローチ(HaikuとSonnetのハイブリッド構成)まで提案してくれました。
  2. 自分自身の「要件定義」の抜け漏れに気づけた
    個人的にはこれがありがたいと思いました。漠然と「比較表を作りたい」と思っていたところに、AIから逆質問されることで「あ、今回のプロジェクトは精度最優先だったな」「コストの制約があったな」と、自分自身の思考を整理する強力な壁打ちとして機能しました。

5. おわりに

今回紹介した「魔法のプロンプト」は、AWSのインフラ構成比較だけでなく、WBSの作成、詳細設計書の項目出し、さらには日常のメール作成まで、【目的】の1行を変えるだけであらゆる場面で使い回せます。

プロンプト作りに悩む時間は今日で終わりにしましょう。ぜひ本日からの業務で「AIとの壁打ち」を体験してみてください!

6. おまけ:コピペ用「メタプロンプト」

以下のテキストをコピーしてお使いください。

あなたはプロンプトエンジニアリングの専門家です。
私がこれから達成したい「目的」を伝えますので、その目的を最高品質で出力するための「完璧なプロンプト(指示書)」を作成してください。

ただし、いきなり作成するのではなく、まずは以下のステップを踏んでください。
1. 私の目的を解像度高く理解し、不足している情報(背景、制約条件、ターゲット、必要なフォーマットなど)を補うため、私に3〜5つの質問をしてください。
2. 私がその質問に答えた後、その回答内容をすべて盛り込んだ、そのままAIに入力できる状態の「完璧なプロンプト」を出力してください。

では、私の目的を伝えます。
目的:【★ここにやりたいことを1行で書く★】