コラム

各AIモデルによる第119回医師国家試験の解答精度の評価

※注意

本ページはあくまで現行のAIによる医師国家試験正答率を検証するための記事であり,解答速報ではありません. この記事においてAIが解いた結果は実際の医師国家試験の解答と一致しない点があることに留意してください.
解答速報については弊社採点サービス「講師速報」をご利用ください(受験生のみご利用いただけます).
また,本記事に関する個別のお問い合わせは対応しかねますこと,ご容赦ください.

本記事の更新情報

 

・2月21日18時50分:本日18時時点の講師速報の解答速報と入力データに基づき,一部情報を更新しました.また,新たにDeepSeek R1の結果を追記しました.

 

・2月10日13時20分:本日13時時点の講師速報のデータに基づき,一部情報を更新しました.

 

・2月9日22時40分:全問題の回答結果を踏まえ,解答精度の検証内容を更新しました.

 

・2月9日16時:A~Cブロックの回答結果のまとめを追加しました.D~Fブロックまで含めた検証は後日公開します.

・2月8日16時:記事をアップしました.解答精度の検証は後日更新予定です.

 

本記事の監修者

長嶋大地

長嶋大地

大分大学医学部出身.
2023年に医師からAIエンジニアに転身.
現在,AIベンチャーCTO兼東大病院循環器内科でAIの研究開発を行っている.

 

序文

 本ページでは,第119回医師国家試験を代表的な各AIサービスに解かせ,結果について検証・考察していく.随時更新予定のため,適宜チェックして欲しい.

 

医師国家試験の概要

 今回分析対象とするのは,2025年2月8日,9日に実施の第119回医師国家試験である.2日間にわたり行われる計400問の試験であり,マークシート形式が採用されている.A~Fブロックの6ブロック構成で,このうちB,Eブロックが必修問題,その他が一般臨床問題である.

合格基準など詳細については,こちらの記事を参照してほしい.

 

検証対象のAIモデル

 今回,第119回医師国家試験を解かせるAIは以下の6モデルである(なお,各社より提供されているAPIを用いて検証を行う)。

   
モデル名 概要
GPT-4o 提供元 :Open AI
入力形態:テキスト・画像・音声
API名  :gpt-4o-2024-11-20
・Open AI社が2018年から発表したLLM(大規模言語モデル)であるGPT系列の第4バージョン,GPT-4をマルチモーダル化したモデル.テキストの入出力のみならず,画像,音声を処理することができる.
OpenAI o1 提供元 :Open AI
入力形態:テキスト・画像・音声
API名  :o1
・Open AI社が世界に初めて出したAIの推論モデル.LLMに対して強化学習の手法を用いることで,AIのユーザーへの出力の前に,推論時計算リソースを使って与えられた問題を解決するための推論トークン文章を事前に出力し,出力精度を向上させる技術を使用している.
OpenAI o3-mini 提供元 :Open AI
入力形態:テキスト
API名  :o3-mini
・Open AI o1の後継モデル. リーゾニングモデル(考えるAI)で考える力をlow, mid, highの3種類から選ぶことができる. 今回はo1に匹敵されるとされるo3-mini-highを選択.
Claude 3.5 Sonnet 提供元 :Anthropic
入力形態:テキスト・画像・音声
API名  :claude-3-5-sonnet-20241022
・Anthropic社が発表しているLLMの最新3.5におけるモデル.Haiku,Sonnet,Opusという順にモデルサイズと精度の違うAIを提供しており,画像とテキストのマルチモーダルに対応している.
DeepSeek-R1 提供元 :DeepSeek
入力形態:テキスト
API名  :deepseek-reasoner
・DeepSeek社が発表しているLLM.前モデルであるDeepSeek-V3をベースに,強化学習によって推論能力を大幅に向上させている.他のLLMと異なりオープンウェイトであることが特徴.
・(2025/2/21追記)2/14時点で,DeepSeek-R1のAPIが極めて不安定であったため,Microsoft Azure上でDeepSeek-R1をセルフホスティングし,独自にAPIとして構築したものを用いて結果を出力した.
Gemini 提供元 :Google
入力形態:テキスト・画像
API名  :gemini-2.0-flash
・Google社の開発するテキスト・画像・音声を処理できるマルチモーダルAIモデルの軽量版.

 

プロンプト

 今回の検証では,以下のプロンプト(指示文)を用いることでAIに医師国試を解かせた.

なお,119回医師国試の問題文については記事執筆時点では厚生労働省よりPDFが公開されていないため,受験生提供の問題冊子をもとに入力した.

 

あなたは医師国家試験の問題を解く専門家です。
与えられた問題に対して、最も適切な選択肢を選んでください。

 

以下のルールに従って回答してください: 1. 問題文に「2つ選べ」などの指示がない限り、必ず1つだけ選択してください 2. 問題文で複数選択が指示されている場合のみ、複数の選択肢を選んでください 3. 複数選択の場合は、選択肢をアルファベット順に並べて出力してください(例:ac, ce)

 

回答は以下の形式で出力してください。 "answer": [選択した回答のアルファベット], "confidence": [0.0-1.0の確信度], "explanation": [回答の理由を簡潔に]

 

 今回の検証したAIシステムの大半はマルチモーダル・AIモデルと呼ばれる,画像や音声といった複数のモダリティを処理することのできるシステムである.しかしながらテキストのみの単一モダリティのモデルでも高度な人工知能と評価されているモデルもあり,それぞれのAIによってテキスト,画像,音声の認識レベルには大きな差がある.

 医師国家試験では,テキストのみで表せる問題と,医療画像や表組みを含んだ問題が混在している.国試の性質上,医療画像を含んだ問題であっても,その他の情報から解答を導ける問題も多いが,とはいえAIモデルが問題を解く際に画像を提供するか否かは解答精度に大きな影響を与えると予想される.そのため,問題が画像を含むか否かで正答率の検証を分けることする.

AIによる119回医師国家試験の回答

 以下に,各AIモデルの回答を順次まとめていく.なお,検証にあたっては「解答」の他に「解答の確信度」「解答の根拠」も出力させているが,スペースの都合上ここでは割愛する.

※2025/02/21 DeepSeek-R1の出力結果を追記しました.

 

Aブロックの回答まとめ
Bブロックの回答まとめ
Cブロックの回答まとめ
Dブロックの回答まとめ
Eブロックの回答まとめ
Fブロックの回答まとめ

 

AIによる回答の精度検証

 AIによる回答の検証が進み次第,本項にて随時まとめていく.なお,厚生労働省より119回医師国家試験の解答が発表されるまでは,弊社採点サービス「講師速報」にて公開している解答速報をもとに成績を検証していく.

※以降は,2025年2月21日18時時点の分析結果です.今後適宜更新予定です.

 

119回医師国家試験の各AIモデルの成績は以下の通りである.
(2/21追記:Deepseek-R1の結果を追記しました.また,本日時点の「講師速報」の解答速報をもとに得点率を再計算しました)

 

 上記結果から分かる通り,必修はOpenAI o1が,一般臨床はOpenAI o3-mini-highが最も成績が良く,これら2つはほぼ同等の結果となった.また,DeepSeek R1もそれに次ぐ結果で,数点差以内に収まっている.

 

 特筆すべきは一般臨床問題の成績であり,o3-miniの95.7%という正答率は仮に国試受験生とすると第3位の成績に相当する(※2月21日18時時点で「講師速報」に入力している9,590人の成績と比較,今後の入力により変動の可能性あり).

 また,必修問題の得点率96.0%(OpenAI o1)も合格基準の80%を大きく上回っている.受験生の成績と比較すると上位10%程度で,一般臨床問題ほどではないが好成績といえる.
 一般臨床問題と必修問題では必修問題のほうが難易度が低い傾向にあるが,AIの得点率はさほど変わらなかった.このことからAIモデルの正誤は問題難易度とは別の要因が関与している可能性が考えられるが,詳細な分析については今後進めていく予定である.

 

 o1,o3-mini-high以外のモデルの成績についても,正答率はやや劣るものの,必修の合格ラインは大きく超えており,一般臨床も受験生と比較し上位である(最も得点率の低かったgemini-2.0-flashの265点も,受験生の上位15%に相当する).このことから,既存のAIモデルはいずれも日本の医師国家試験をクリアできる性能を有しているといえる.

 

画像問題の有無による検証

 先述した通り,医師国家試験には画像を含んだ問題が含まれているが,画像問題を除外した成績結果が以下である.

 結果としては当初の予想に反し,画像の有無により正答率に大きな差はみられなかった.こちらについては,医師国家試験の性質上,画像以外の情報からも正答を導ける(もしくは選択肢を絞り込める)問題が多いことが理由として考えられる(実際,得点率の高いOpenAI o3-miniやDeepSeek R1はどちらもテキストのみ入力を受け付けるモデルである).

 このため,読影など各AIモデルによる画像認識能力の評価は本検証からはできなかった.

 

全体を通しての考察

 本項については後日更新予定.

 

 

 関連コンテンツ

 関連する記事

新着記事カテゴリー


 すべて

 国試

 CBT・OSCE

 動画・アプリ

 実習・マッチング

 研修医・医師

 コラム

 その他