LLMの「Family Bias」が招くコードレビューの形骸化を複数モデル協調（MoA）で対策する

AI駆動開発

最終更新日: 2025.12.15

公開日: 2025.08.31

10分で読めます

はじめに

現在、多くの開発現場で「GitHub Copilot」や「Cursor」といったAIコーディングツールの導入が進み、若手エンジニアのコード生成速度は劇的に向上しました。しかし、大手SIerの現場を預かるマネジメント層にとっては、新たな問題が浮上しています。

「コードは早くなったが、品質が低い。スパゲッティコードが量産され、レビュー指摘が追いつかない」といった問題です。

このボトルネックを解消するため、CI/CDパイプラインやエディタ内での「AI自動レビュー」を導入する動きが加速しています。しかし、ここでしばしば奇妙な現象が発生します。「AIが書いたコードをAIにレビューさせても、なぜか重大なバグをスルーしてしまう（レビューがザルになる）」ことがあるのです。

本レポートでは、この現象の一因である「Family Bias（同族バイアス）」のメカニズムを解説し、その対策として「Mixture-of-Agents（MoA）」アプローチを用いた検証結果を共有します。

AIレビューが機能しない原因：「Family Bias」の正体

なぜ、自身や同系統のモデルが書いたコードの欠陥を見落とすのでしょうか。この現象に関連するいくつかのバイアスが報告されています。これらを総称して、本稿では「Family Bias（同族バイアス）」と定義します。

1. Self-Preference Bias（自己選好バイアス）

2024年の論文『Self-Preference Bias in LLM-as-a-Judge』によると、LLMを評価者（Judge）として使用した場合、「自分自身が生成した出力に対して、人間よりも甘く、高い評価をつける傾向がある」ことが確認されています。これは、モデルが自身の学習データや生成パターン（Perplexity/予測しやすさ）に親和性を感じるためであり、自分と同じ思考パターンのコードに対して「違和感」を抱きにくいことに起因します。

2. Intrinsic Self-Correctionの限界

Google DeepMindらの研究『Large Language Models Cannot Self-Correct Reasoning Yet』では、「LLMは外部からのフィードバックなしに、自分自身の推論ミスを修正（Self-Correct）することは困難である」と結論付けています。 Claudeが論理的に誤ったコードを書いた際、その誤りはClaudeの推論ロジックの「盲点」そのものです。同じ脳（モデル）で何度レビューしても、その盲点は盲点のままである可能性が高いのです。

つまり、「Claudeで生成し、Claudeでレビューする」ようなプロセスは、本質的な品質向上には限界があると言えます。

検証実験の概要：社内e-LearningシステムにおけるMoAレビュー

この「Family Bias」を打破するための仮説として、「異なる家系（モデルファミリー）のAIを独立したレビュアーに据えることで、盲点を相互補完できるのではないか」という検証を行いました。

検証対象リポジトリ: 現在開発中の社内e-Learningシステム（Next.js / Python）
被レビューコード: Kiro（Claude 4.5）を用いて生成された機能実装コード
レビュー用モデル（3モデル）: 全て同一のプロンプトでレビューを実施1. Claude: claude-opus-4-5-20251101

Gemini: gemini-3-pro-preview
GPT: gpt-5-codex

レビュー対象のコード改修内容

今回の検証の対象は54ファイル（3374行追加、1276行削除）に渡る大規模な機能追加と改善を含んでいます。

主な変更領域は以下の通りです：・CI/CDワークフローの強化 - 複数のLLMを活用した自動コードレビュー体制の構築・フロントエンド機能の拡充 - とあるシステムの大幅な改善、言語設定、利用規約ページの追加・認証・ログイン機能の改善 - エラーハンドリングの強化、ユーザー体験の向上・バックエンドAPIの拡張 - とある機能関連のスキーマ拡張、ユーザー管理機能の強化・開発環境の整備 - pre-commitフックの導入、ドキュメントの充実化

レビュー用プロンプト

レビューに用いたプロンプトは全て共通で、下記のような関数から生成したものです。

`def build_prompt(diff_text: str, truncated: bool) -> str:
    trunc_note = (
        "\n※ Diffがサイズ制限のため途中で切り捨てられています。表示部分のみを対象にレビューしてください。"
        if truncated
        else ""
    )
    return textwrap.dedent(
        f"""
REPO: {repo_full}
PR NUMBER: {pr_number}
## ペルソナ
あなたは、Galirageという生成AIの会社で働いています。
あなたは、根気強く、誠実かつ丁寧に、お仕事をするメンバーです。
誰に対しても丁寧な敬語で会話をする人です。
困っている人がいたら、手を差し伸べるような人格者です。
仕事の依頼や質問をされたら、「お仕事の依頼ありがとうございます！」や「ご質問ありがとうございます！」のように感謝することを大切にしてください（この言葉は太字を使わないでくださ）。
文体としては、明るく書き、絵文字もほどほどに使ってください。逆に、人を傷つけるような発言は絶対にしないでください。
## 依頼事項
あなたは、このPRにおける「STEP1：変更差分の報告」と「STEP2：コードレビュー」をお願いします。
### STEP1：変更差分の報告
このPRに含まれる変更差分をもとに、「このPRでは何が、どのように変更されたのか」を簡潔かつ明確にまとめてください。
まとめる際は、次のタスクをステップバイステップに実行した上で、最終的に論理的に整理してください。
1. **変更内容の全体確認**
    - どの機能／コンポーネント／ロジックに関する変更か
    - PR全体の意図（推測される場合）
2. **ファイル単位での変更分析**
    - 各ファイルで追加／削除／修正された主な内容
    - 特に重要なロジック変更ポイントがあれば明記
3. **わかりやすい説明文の作成**
    - 非エンジニアでも理解できるレベルの説明
    - なぜその変更が必要だったのか（差分から推測可能な範囲）
    - 変更により期待される影響（挙動の変化・副作用など）
出力は箇条書き形式で、次のようにまとめてください。

```markdown
## 📃 STEP1：変更差分の報告
### 変更内容の全体サマリー
xxx
### ファイル単位での変更分析
xxx
### わかりやすい説明（非エンジニア向け）
xxx
STEP2：コードレビュー
このPRに含まれる変更差分をもとに、総合的なコードレビューをお願いします。
この時、次の重点分野に焦点を当てて、それぞれにおけるMOREな点のみを整理してください。
また、必要に応じて、「なぜその改善が必要かという理由」や「具体的なコードレベルでの変更提案」も併せてお願いします。
✨ コード品質
クリーンコードの原則とベストプラクティス
適切なエラー処理と例外ケース
コードの可読性と保守性`

`🔒 セキュリティ
潜在的なセキュリティ脆弱性の確認
入力値のサニタイズの検証
認証・認可ロジックのレビュー`

`🔥 パフォーマンス
潜在的なパフォーマンスのボトルネックの特定
データベースクエリの効率性のレビュー
メモリリークやリソース問題の確認`

`✅ テスト
十分なテストカバレッジの確認
テストの品質と例外ケースのレビュー
見落とされているテストシナリオの確認`

`📄 ドキュメント
コードが適切にドキュメント化されているかの確認
新機能に対するREADMEの更新確認
APIドキュメントの正確性のチェック
出力は構造化して、次のようにまとめてください。`

`
## 🔍 STEP2：コードレビュー

### ✨ コード品質
- xxx
- xxx
- xxx

### 🔒 セキュリティ
- xxx
- xxx
- xxx

### 🔥 パフォーマンス
- xxx
- xxx
- xxx

### ✅ テスト
- xxx
- xxx
- xxx

### 📄 ドキュメント
- xxx
- xxx
- xxx

制約事項
出力は、Markdown形式としてください。
報告内容をコードブロックで囲う必要はありません。
差分テキスト
<DIFF START>
{diff_text}
<DIFF END>
{trunc_note}
"""
).strip()`

実験結果

3つのモデルによるレビュー結果は、ある程度の重複した内容を持ちつつも、指摘内容にそれぞれの特色を示しました。実際の具体的なコード内容に関する指摘が含まれないように、ここではそのレビュー結果の要約をそれぞれ示します。

※レビューの傾向は、プロンプトやレビュー対象のコードなどによって変動する可能性が有ります。

Claude (claude-opus-4-5-20251101)

Claude Opusは、コード全体の「設計品質」を重視していました。 指摘内容例: ・「この処理は他のスクリプトと重複しています。共通モジュール化しましょう（DRY原則）」・「ネストされたループにより計算量が $O(N^3)$ になっています。データ量が増えるとパフォーマンス劣化の原因になります」

Family Biasの影響: ・しかし、自身と同系統のモデルが生成したコードであるためか、「変数がNoneの場合にクラッシュする」といった具体的なロジックバグについてはスルーしました。全体最適には強いが、局所的なバグには甘い傾向が見られました。

Gemini (gemini-3-pro-preview)

Gemini 3 Proは、最新のWeb標準やフレームワークのベストプラクティスを重視しました。 ** 指摘内容例:** ・「Next.jsの最新仕様では、ここは useEffect ではなく Server Components を使うべきです」・「外部APIの仕様を確認してください。このパラメータは2024年に廃止予定です」

特徴: ・ Google検索基盤を持つ強みを活かし、現実世界の情報との整合性（ハルシネーションのチェック）や、SEO/UX観点での指摘が目立ちました。一方で、修正コードそのものよりも「方針の提案」に留まる傾向がありました。

GPT-5 Codex (gpt-5-codex)

GPT-5 Codexは、感情を排し、コードが「動くか動かないか」を徹底的に検証しました。 指摘内容例: ・「router.push("/dashboard") は多言語設定（/ja/等）を無視しています。ユーザーの言語設定がリセットされる致命的なバグです」・「バックエンドで material.get("id") が None になるケースのハンドリングが漏れています。ここで500エラーになります」

Family Biasの克服: ・これらはClaudeとGeminiが完全に見逃したバグでした。Claudeの思考パターンに染まっていないGPT-5だからこそ、純粋な論理矛盾として検出できた好例です。

考察：「単体利用」ではなく「Mixture-of-Agents」が有効である理由

実験結果から明らかになったのは、「どのモデルも単体では完璧ではない」という事実です。

・ Claudeだけでは、GPT-5-Codexが指摘したバグを発見できなかった（Family Biasが原因の可能性もあり）。・ GPT-5だけでは、バグはないが保守性の低い（スパゲッティな）コードになる可能性がある。

ここで有効なのが、複数のAIモデルを協調させる「Mixture-of-Agents（MoA）」という考え方です。つまり、スイスチーズモデル（事故防止モデル）のように、Claudeの穴をGeminiが塞ぎ、Geminiの穴をGPT-5が塞ぎます。

「Claudeで作ったから、GPT-5でレビューすれば良い」という単純な置き換えではなく、「複数の視点（多モデル）による合議」こそが、AIレビューの品質を人間に匹敵、あるいは凌駕させるための鍵となります。

今回の検証例だと、3つのモデルそれぞれの得意な領域（設計、ベストプラクティス、バグの有無など）について、それぞれの指摘内容を包括的にまとめておくことで、よりコード品質を高めることが出来ます。

このようにもしコストが許すのであれば、複数LLMによる複数の視点からのレビューを取り入れることは一定の有用性があると言えるでしょう。

おわりに

「生成AIにレビューを任せる」ことは、AIを放任することではありません。それぞれのモデルが持つ「Family Bias」という特性を理解し、互いの盲点を補完し合うチーム（MoA）を編成することもときに有効です。

今回の検証により、Claude、Gemini、GPT-5の協調体制が、品質基準を向上させる強力なソリューションになることが示唆されました。貴社の開発基盤において、この「多モデル合議制レビュー」の導入を検討してみてはいかがでしょうか。

参考文献

Wataoka, K., et al. (2024). Self-Preference Bias in LLM-as-a-Judge. arXiv preprint.
Huang, J., et al. (2023). Large Language Models Cannot Self-Correct Reasoning Yet. arXiv:2310.01798.

FAQ generated by AI

はい、API利用料はモデル数に比例して増加します。ただし、手戻りの減少や人間のレビュー時間の短縮といったトータルコストで見れば、十分にペイする可能性があります。全てのPRではなく、重要な機能変更にのみMoAを適用するのも一つの手です。

いいえ、不要にはなりません。AIは仕様の背景にあるビジネス要件や、ユーザー体験の微妙なニュアンスまでは完全に理解できません。AIはあくまで「優秀な一次レビュアー」として活用し、最終決定は人間が行うべきです。

「批判的に見てください」といったプロンプトである程度改善はされますが、モデルが持つ根本的な学習データや推論ロジックのバイアス（盲点）までは解消できないことが多いです。物理的に異なる「脳」を使う方が確実性が高いです。

GitHub ActionsやGitLab CIなどのCI/CDパイプライン上で、Pythonスクリプト等を用いて各社のAPIを叩く仕組みを構築するのが一般的です。最近では、複数のLLMを統合して扱えるライブラリ（LangChainなど）を利用すると比較的容易に実装できます。