研究

日本の医療ガイドライン「新旧比較」データセットを公開
― 改訂で「何が変わったか」を網羅した国内最大のオープンデータセット

約200本の日本の診療ガイドライン(2010〜2024年)を新旧版で比較し、版の更新で回答が変わった箇所だけを抽出した46,705組のQ&Aデータセット「med-slm-ja Before / After」を公開しました。ガイドライン改訂で「何が・どう変わったか」を出典付きで網羅し、LLMの強化学習・DPOによる知識アップデートや、最新知見への追従を測るベンチマークとしての活用を想定しています。

株式会社GENSHI AI(本社:東京都千代田区、代表取締役:長嶋 大地、以下「GENSHI AI」)は、日本の医療ガイドラインの新旧版を比較し、改訂によって推奨・回答が変わった箇所を抽出した大規模データセット「med-slm-ja Before / After(日本医療ガイドライン 新旧比較データセット)」を公開しました。約200本のガイドライン(2010〜2024年)から、版の更新で回答が変化した46,705組の質問・回答ペアを、それぞれ出典付きで収録しています。医療ガイドラインの「改訂差分」に特化した公開データセットは国内でもほかに例がなく、46,705組という収録数は国内最大の規模です。

46,705
新旧で回答が変わった
Q&Aペア
201
対象ガイドライン
7,042
検出した改訂

背景:医療AIの最大の関門は「ガイドラインが改訂され続ける」こと

医療の診療ガイドラインは数年ごとに改訂され、推奨される検査や治療がしばしば変わります。LLM(大規模言語モデル)を医療で使ううえで難しいのは、モデルが古い版の知識のまま、すでに更新された推奨を自信を持って答えてしまうことです。これは患者安全に直結する課題であり、「どの版で・何が・どう変わったのか」をモデルに学習させ、また正しく追従できているかを評価する仕組みが求められてきました。

しかし、こうした「ガイドライン改訂の前後でどこが変わったか」を体系的に整理した公開データは、これまで国内に存在しませんでした。本データセットは、その空白を埋めることを目的に構築したものです。

データセットの概要

「med-slm-ja Before / After」は、版を遡って取得できた日本の診療ガイドラインについて、新旧版の内容を突き合わせ、回答が変化した箇所だけを質問・回答ペアの形に整形した時系列QA(Temporal QA)データセットです。各ペアには、新旧それぞれの版の年・タイトル・回答・出典URLが紐づいており、「いつの・どのガイドラインに基づくか」を出典までたどれることが特徴です。

各ペアは変更の種類(revision=改訂、addition=追記、new=新規 など)と変更の大きさ(minormajor)でラベル付けされ、差分の要約も付与されています。これにより、「軽微な文言修正」と「推奨そのものの変更」を区別して扱うことができます。

想定される用途

  • LLMの知識アップデート訓練:強化学習・DPO(選好学習)などで、古い推奨より新しい推奨を選好するようモデルを訓練する教師データとして。
  • 最新知見への追従ベンチマーク:旧版では正しく、新版では誤りになった回答を見分けられるか ―― モデルが「いつの知識で答えているか」を測る評価セットとして。
  • 検索・RAG/医学教育:埋め込み検索の評価や、改訂ポイントを学ぶ教材としての二次利用。

公開について

本データセットは CC BY 4.0 で公開しており、出典を明記すれば研究・商用を問わず自由に利用できます。ブラウザ上で中身を確認できるデータエクスプローラと、Hugging Face Datasets からのダウンロードを用意しています。GENSHI AI は、医療現場で安全に使える医療AIの実現に向けて、こうした基盤データの整備と公開を引き続き進めてまいります。

データセット情報
名称
med-slm-ja Before / After(日本医療ガイドライン 新旧比較データセット)
規模
46,705 組の新旧Q&Aペア/対象ガイドライン 201 本/検出した改訂 7,042 件/旧版を取得できたガイドライン 336 本・旧版文書 518 本
対象期間
2010〜2024 年
言語
日本語
主なフィールド
question(臨床上の問い)/new・old(新旧版の年・タイトル・回答・出典URL)/type(revision・addition・new など変更種別)/magnitude(minor/major)/diff_summary(差分要約)
制作
長嶋 大地(GENSHI AI 代表取締役/東京大学医学部附属病院 循環器内科)
ライセンス
CC BY 4.0 International
データ探索
ikora128.github.io/med-slm-ja-before-after ↗
ダウンロード
Hugging Face Datasets で入手する ↗

株式会社 GENSHI AI について

GENSHI AI は、医師×エンジニアによる医療AI企業です。3省2ガイドライン完全準拠のセキュアな環境で、Clinical AI・医療AIモデル開発・企業向けAIソリューションを提供しています。

会社名
株式会社 GENSHI AI(GENSHI AI Inc.)
代表者
代表取締役 長嶋 大地(医師 / 元スタートアップ CTO)
所在地
〒101-0024 東京都千代田区神田和泉町 1 番地 6-16 ヤマトビル 405
事業内容
医療AI開発(Clinical AI)、医療AIモデル開発受託、企業向けAIソリューション
主要プロダクト
MedLocal(完全オフライン医療特化ローカル LLM)/ GENSHI Voice(専門用語に強い音声認識 API)
公式サイト
https://genshi.ai