各AIモデルによる第120回医師国家試験の解答精度の評価
本記事の更新情報
・2月8日21時00分:D~FブロックのAI回答とまとめを公開しました.各問題の詳細な検証については後日更新予定です.・2月7日19時55分:記事を公開しました.A~CブロックのAI回答を公開しました.
本記事の監修者
|
長嶋大地
医師からAIエンジニアに転身した医療×生成AIの専門家. |
序文
本ページでは,第120回医師国家試験を代表的な各AIサービスに解かせ,結果について検証・考察していく.検証対象は2026年2月時点でのAIモデルである点に留意されたい.
医師国家試験の概要
今回分析対象とするのは,2026年2月7日,8日に実施の第120回医師国家試験である.2日間計400問の試験であり,マークシート形式が採用されている.A~Fブロックの6ブロック構成で,このうちB,Eブロックが必修問題,その他が一般臨床問題である.
合格基準など詳細については,こちらの記事を参照してほしい.
前回検証の振り返り
昨年,こちらの記事にて第119回医師国家試験で同様の検証を行った. その際は,OpenAI o3-mini-highは一般臨床問題で96.0%という正答率となり,受験生と比較すると第3位相当の成績であった.昨年の時点でかなりの高精度であったが,本年も最新のAIモデルに回答させ,結果を考察していく.
検証対象のAIモデル
今回,第120回医師国家試験を解かせるAIは以下の3モデルである(なお,各社より提供されているAPIを用いて検証を行う).
| モデル名 | 概要 |
|---|---|
| GPT-5.2 Thinking |
提供元 :Open AI API名 :gpt-5.2 ・OpenAI社のGPT-5シリーズにおける最新モデル.ChatGPTではInstant(高速応答),Thinking(推論強化),Pro(最高精度)の3種類が提供されている.推論モデルとして,ユーザーへの出力前に内部で推論トークンを生成し,段階的に問題を解決することで出力精度を向上させている.reasoning effortパラメータにより推論の深さをnone,low,medium,high,xhighの5段階から選択できる.今回はhighを選択. |
| Gemini 3 Pro |
提供元 :Google API名 :gemini-3-pro-preview ・Google社の開発するGeminiシリーズの第3世代における最上位モデルのプレビュー版.テキスト・画像・音声・動画のマルチモーダル入力に対応し,最大100万トークンのコンテキストウィンドウを持つ.thinking_levelパラメータによりlow,highの2段階で推論の深さを制御できる.今回はhighを選択. |
| Claude Opus 4.5 |
提供元 :Anthropic API名 :claude-opus-4-5 ・Anthropic社が発表しているLLMのClaude 4.5ファミリーにおける最上位モデル.Haiku,Sonnet,Opusの順にモデルの能力が高くなり,テキストと画像のマルチモーダル入力に対応している.extended thinking機能により,ユーザーへの出力前に内部で推論を行い,回答精度を向上させることができる.budget_tokensパラメータで推論に使用するトークン数の上限を設定でき,今回は1024を選択. |
プロンプト
今回の検証では,以下のプロンプト(指示文)を用いることでAIに医師国試を解かせた.
なお,120回医師国試の問題文については記事執筆時点では厚生労働省よりPDFが公開されていないため,受験生提供の問題冊子をもとに入力した.
あなたは医師国家試験の専門家です。 以下の問題について、段階的に推論して最適な解答を導き出してください。推論プロセス: 問題文を分析し、問われていることを明確化 各選択肢を医学的知識に基づいて評価 鑑別診断や病態生理を考慮して最適解を決定 他の選択肢が不適切な理由も簡潔に考察
回答ルール: 指示がない限り1つだけ選択 複数選択の指示がある場合のみ複数可(アルファベット順で記載) 最終的に以下のJSONで出力: (JSONの例)
医師国家試験では,テキストのみで表せる問題と,医療画像や表組みを含んだ問題が混在している.昨年の検証では,画像入力非対応のAIモデルも利用していたため,問題が画像を含むか否かで正答率の検証を分けた.これに対し本年の検証では,検証対象のLLMすべてが画像入力に対応していることから画像問題を含む全問題の結果のみを検証対象とする.
AIによる120回医師国家試験の回答
以下に,各AIモデルの回答を順次まとめていく.なお,検証にあたっては「解答」の他に「解答の確信度」「解答の根拠」も出力させているが,スペースの都合上ここでは割愛する.
Aブロックの回答まとめ
Bブロックの回答まとめ
Cブロックの回答まとめ
Dブロックの回答まとめ
Eブロックの回答まとめ
Fブロックの回答まとめ
AIによる回答の精度検証
AIによる回答の検証が進み次第,本項にて随時まとめていく.なお,厚生労働省より120回医師国家試験の解答が発表されるまでは,弊社採点サービス「講師速報」にて公開している解答速報をもとに成績を検証する.
120回医師国家試験の各AIモデルの成績は以下の通りである.
上記結果から分かる通り,必修はGemini 3 proが,一般臨床はClaude Opus 4.5が最も成績が良かった.しかし,いずれのモデルも極めて高い水準であり大きな差はなかった.
また,3モデルのいずれも間違えた問題は0問であった.
一般臨床問題の成績について,Claude Opus 4.5の98.3%という正答率は仮に国試受験生とすると第1位の成績である(※弊社解答速報サービス「講師速報」に2月8日21時時点で入力している約5,000人の成績と比較した).また,必修問題については,Gemini3 proは1問間違いの得点率99.5%であった.合格基準が80%であることを考えると,こちらも極めて好成績である.
ブロック別の傾向を見ると,公衆衛生の比重が高いCブロックにおいては,他のブロックと比較して各モデルとも正答率がわずかに伸び悩む結果となった. これは,Cブロックで出題された日本国内における法制度・統計データの問題について,各LLMが苦手としている可能性があり,後日詳しく検証する予定である.
AIの解答の考察
考察内容については後日更新予定です.
結論
今回の検証において,GPT,Gemini,Claudeのいずれのモデルも極めて高い正答率を記録した.合格ラインを遥かに上回る水準であり,受験生のトップクラスに相当する成績である.
AIが不正解となった設問の内訳を見ると,画像の読み取り精度に起因するものや.日本の公衆衛生・法律・統計といった特有の知識を問うものが中心であった(詳細については後日更新予定).
しかし,昨年の検証結果と比較すれば明らかな精度向上がみられ,弱点は克服されつつある.
特筆すべきは,「3つのモデルすべてが間違えた問題」が1問も存在しなかったという事実である.
これは各モデルが相互に補完し合えば,理論上は満点に近い解答が可能であることを示唆している.
これらの結果から,医師国家試験はもはやAIモデルの性能差を測るためのベンチマークとはなりえないといえる.
少なくとも医師国家試験レベルの知識に関しては,AIの精度を測定・比較する段階を通り過ぎ,これからは「この高度な能力を持つAIを,医学生の学習にどう効果的に組み込んでいくか」を議論する,新しい時代に入ったといえるだろう.



