LLMの性能ベンチマークは英語中心が多く、日本語での実用性能を比較した資料は限られています。本記事では、ビジネス文書の日本語品質に焦点を当て、GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Proの3モデルを独自ベンチマークで比較しました。
テスト方法
以下の3つのビジネス文書タスクで、各モデルの出力品質を5段階で評価しました。評価者は日本語ネイティブのビジネスパーソン3名で、盲検評価(モデル名を伏せた状態)で実施しています。
タスク1:ビジネスメール作成 — 取引先への納期遅延のお詫びメール。敬語の正確性、論理構成、具体的な対応策の提示を評価。
タスク2:議事録要約 — 60分の会議文字起こし(約12,000字)から、要点・決定事項・ネクストアクションを抽出。情報の網羅性と構造化の質を評価。
タスク3:企画書ドラフト — 新規事業の企画書を作成。市場分析、ターゲット定義、収益モデル、ロードマップの構成力と説得力を評価。
結果サマリー
ビジネスメール:Claude 3.5 Sonnetが最高評価。敬語の自然さと具体的な対応策の提示が群を抜いていました。GPT-4oは構成は良いが敬語がやや硬い。Geminiは全体的にカジュアルすぎる傾向。
議事録要約:Gemini 1.5 Proが最高評価。128kトークンのコンテキスト長を活かし、長文の会議録から正確に情報を抽出。GPT-4oとClaudeは大差なく僅差の2位タイ。
企画書ドラフト:GPT-4oが最高評価。構造化された論理展開と具体的な数字の提示が強み。Claudeは読みやすさで上回るが、数値根拠がやや弱い。Geminiは創造的だが構成が散漫になる傾向。
総合評価
3タスクの総合スコアでは、Claude 3.5 Sonnetがわずかにリードしました。特に日本語の自然さと敬語の正確性で他モデルを上回っています。ただし、タスクによって最適なモデルが異なるため、用途に応じた使い分けが重要です。
コストパフォーマンスでは、Gemini 1.5 Proが最も優れています。APIコストはGPT-4oの約半額で、長文処理では性能も遜色ありません。予算が限られている場合はGeminiが現実的な選択肢です。
まとめ
日本語ビジネス文書での実用性能は、タスクによって最適なモデルが異なります。敬語を含む対外文書はClaude、長文処理はGemini、構造化された企画書はGPT-4oが強い傾向です。1つのモデルに依存せず、タスクの特性に応じて使い分けるのが、2026年のAI活用のベストプラクティスです。