医療の「エビデンス」には6つの「レベル」がある

田近亜蘭

2023.8.1

■「エビンデンスに基づく医療」＝「EBM」の考えかた

「エビデンスって何ですか」……ここ数年、患者さんのみならず、医学生からももっともよく尋ねられることのひとつです。

医療や健康分野の情報に接するとき、「その治療法はエビデンスに基づいているのか」とか、「エビデンスレベルはどのぐらいなのか」などのことばを耳にすることがしばしばあると思います。ある年配の患者さんからは、「メディアでエビデンスということばは頻出しているけれど、若いときに手術で入院したときにはそんなことばは聞いたことがなかった。いったいいつから言われ出したのか」と質問されました。

エビデンスに基づいた医療が昔から実践されてきたと思っている医学生もいますが、実はそうではありません。

「根拠に基づく医療」＝「EBM（Evidence-Based Medicine）」という考えかた、用語は1990年、カナダの研究者のデイビッド・サケットが提唱し、ゴードン・ガヤットが名付けて以来、世界中に広まりました。

治療は「最善のエビデンス」に、「医師の経験」「患者さんの希望・価値観」を総合的に考えて意思決定をしようという考えかたです。

このころから、常に最新で最善のエビデンスを求め、それを治療に活かす取り組みが始まりました。日本で注目され始めたのは2000年ごろからと思われます。「エビデンスなど、若いときには聞いたことがなかった」という人が多いのは、EBMの概念の歴史はまだ浅いからです。

エビデンスの意味はすでに知られてきましたが、医療分野においてはどういう意味なのか、またその「レベル」とは何を示すのか、指標は何なのかを具体的に把握しておくと、医学情報の選び方や理解の度合いが進むと思われます。そこで今回は、医学においてはエビデンスがどのように構築されているのかについて述べておきます。

■医療のエビデンスとは「臨床研究」の結果から得られる

エビデンスとは英語の「evidence」が語源で、「証拠・根拠・証言」という意味です。医学分野に限った専門用語ではなく、さまざまな分野でいま、情報に対して求められている概念です。

とくに医学や科学の分野では追求されていて、エビデンスとは「医学的根拠」や「科学的根拠」を表すことばとして使われます。

医学の場合、例えば、「喫煙している人は喫煙していない人と比べて、肺がんになるリスクが何倍になるのか」とか、「うつ病の患者さんが抗うつ薬を服用することで、何人中何人がよくなるのか」など、特定の病気や症状に有効な治療法を報告するときに、「臨床研究」での結果を示します。その研究結果からエビデンスが得られ、医療者の間では、「患者さんにエビデンスを示して治療法を説明する」などと表現します。

参考まで、臨床研究とは、人を対象として、病気の予防・診断・治療方法の改善や、原因の解明、患者の生活の質の向上などを目的として行われる医学研究のことです。実際に、臨床研究は医学的なエビデンスの構築作業となります。

■エビデンスにレベルがある理由

では、「エビデンスレベル」とは、具体的に何を示すのでしょうか。

「レベル」は英語の「level」で、普段からよく用いられるとおり、「水準・程度の大きさや強さ・段階」などの意味です。つまり、エビデンスレベルとは「医学的根拠・科学的根拠の信頼性の強弱や指標、目安」のことをいいます。

「その医学研究のエビデンスレベルは高い」とは、「その医学的根拠の信頼性は高い」という意味合いになります。そう説明しますと、「そもそもエビデンスがある事実情報ならば、すでに証拠が裏付けされているのでしょう？　なぜレベルがあるの？」と聞かれます。

例えば、「ひとりの医師の経験として報告された治療法」もひとつのエビデンスといえるのですが（エビデンスレベル6。後述）、それはひとりの医師の経験であって複数の研究から得られた結果ではないために、根拠としては非常に弱くなります。後に行われる研究で正反対の結果が出ることもよくあります。

また、「エビデンスがある」といわれる治療法のすべてが、絶対的に真実だという保証はありません。そのため、研究の手法によって、エビデンスレベルの基準が決められています。

医学研究では、とある治療ではどれくらいの人が治癒したか、副作用はどうかなどのデータを集めて、研究成果として発表されます。

その医学研究の方法にはいくつかの種類があります。それを「研究デザイン」といい、その違いによって得られるエビデンスには強弱＝レベルがあるわけです。

研究デザインには大きく分けて２つのパターンがあります。例えば、ある治療を受けた人と受けなかった人の経過を追跡する研究もあれば、治療を受けるか受けないかをくじ引きでランダムに決めるような研究もあります。

前者の場合、治療の自然経過を観察しているだけなので「観察研究」（observational study）、後者の場合、研究者が治療するかどうかを意図的に介入して決めているので「介入研究」（intervention study）と呼び、それぞれにまた複数の研究デザインがあります。

このあと説明するエビデンスレベルの段階ごとに、いくつかの研究デザインが登場しますが、治療法に関する研究の場合、観察研究より介入研究のほうが信頼度のレベルは高くなります。

介入研究である「ランダム化比較試験」（後述）は信頼性が高く、また、複数の研究を統合して解析する「システマティックレビュー」（後述）や「メタアナリシス」（後述）によって証明された場合はエビデンスレベル１となり、もっとも信頼性が高くなるといった具合です。

■1～6のエビデンスレベル…それぞれの基準は

次に、そのエビデンスレベルの基準について具体的に見ていきましょう。

治療の有効性に関するエビデンスは、「信頼性が最も高いレベル1」から、「信頼性が最も低いレベル6」まであります。レベルが低い順から研究デザインの種類を示して説明します。

＜エビデンスレベル6＞

実際に検証したデータに基づいているかどうかわからない「専門家の意見」。

例えば、医学専門誌やテレビ番組などで医師や専門家が、「私の長年の経験で実感しているのですが、○○の症状には、△△の治療法が有効です」と発言したとしましょう。この場合、発言者が医師であっても「個人の経験・見解」であり、その治療法にどの程度の医学的根拠があるのかはわかりません。そのため、信頼度はもっとも低いレベル6に分類されます。

＜エビデンスレベル5＞

珍しい疾患や新しい治療法で効果があった場合に、医学論文や医学会で発表される「△△の薬によって○○の症状に改善がみられた」という「症例報告」。

症例報告とは実際に患者さんに対してある治療を行ったことでどうなったかの経過報告であり、専門家たちが共有し、さらなる研究を進めるうえで重要な情報となります。

ただしその人にはその治療法が有効であったとしても、症例報告からは、「もしその治療を行わなかった場合にはどうなっていたのか」といった、研究にとってもっとも重要な、「治療をした場合としなかった場合の結果の比較」ができていない段階です。その治療を行っていなくても、自然に回復していたかもしれません。そのため、症例報告はレベル5に分類されます。

＜エビデンスレベル4＞

「症例対照研究（後ろ向き研究）」や「コホート研究（前向き研究）」など。

症例対象研究は、ある疾患を発症した人と発症しなかった人のそれぞれの生活習慣や基礎疾患の有無などを、カルテなどの記録から過去にさかのぼって調査し、疾患の要因を見つける方法です。時間軸をさかのぼって研究するため、「後ろ向き研究（retrospective study）」とも呼ばれます。

「後ろ向き」とは、考え方が消極的だとか、物体の後ろ側が見えているといった意味ではありません。例えば、「心筋梗塞と喫煙歴の関連性について、心筋梗塞になった人とそうでない人について、過去にさかのぼって喫煙歴を比較する」といった研究方法を指します。

一方、コホート研究（cohort study）のコホートとは「大きな集団」のことで、まだその病気にかかっていない多数の人を集めて、現在から未来に向かってデータを収集します。そしてどのような要因や特性を持つ人が発症するのかを長期にわたって追跡し、分析することをいいます。時間軸に沿って、「前向き研究」と呼ばれます。

例えば、「喫煙している人と喫煙していない人を、数年から数十年にわたって追跡し、心筋梗塞の発症率を比較する」といった研究の方法をいいます。

世界的に評価が高いことで知られる日本のコホート研究に、1961年から九州大学が実施している「久山町（ひさやままち）コホート研究」が挙げられます。福岡県の久山町で、住民を対象にした脳卒中、虚血性心疾患、認知症、慢性腎臓病、高血圧、糖尿病、胃がん、大腸がん、ゲノム疫学、眼科、心身医学などの疫学調査が行われています。

後ろ向き研究と前向き研究では、同じレベル4であっても、「前向き研究」のほうが信頼性は高くなります。

また、一定の対象者への観察の回数によって、「横断研究」（cross-sectional study）と「縦断研究」（longitudinal study）に分類することもあります。前者は、アンケート調査など、特定の集団に対してある一時点で調査する研究のことで、レベル4に含まれます。後者は特定の集団に対して、長期間にわたって追跡調査を行い、データを収集します。前述の前向き研究、後ろ向き研究がこれに該当します。

＜エビデンスレベル3＞

「非ランダム化比較試験」を実施した研究。

非ランダム化を理解するには、先に「ランダム化」（次の項目・レベル2の研究デザインのこと）とは何かを把握したほうがわかりやすいので、まず、そちらを説明します。「ランダム（random）化」とは、次に述べるように、くじ引きなどを使ってグループを分ける方法です。まさにランダムに振り分けられ、恣意（しい）的にグループ分けを操作することができません。

一方、「非ランダム化」とは、そこまで厳格には分けない方法をいいます。例えば、カルテ番号を偶数と奇数で分けるとか、来院した順番に交互に振り分けるなどを行います。

このように、グループ分けをしないで実施された研究が「非ランダム化比較試験」で、この結果はランダム化比較試験より1つレベルが低い、レベル3として分類されます。

＜エビデンスレベル2＞

「ランダム化比較試験」を実施した研究。

例えば、新しい薬の開発をする際、その薬を「使うグループ」と「使わないグループ」とにくじ引きやコンピューターでランダムに分けて、グループごとの効果の違いを検証します。

ランダムに分けることで、結果に影響を及ぼしそうな背景や要因を両グループで揃えることができて、平等な比較が可能になります。

また、被験者が「自分は新薬を服用している」と認識している場合、実際の治療効果とは関係なく改善することがあります。

そのため、効果はないけれど見た目はまったく同じプラセボ薬（偽薬）を使って、患者さんも医師も、どちらを服用しているかわからなくすることがあります。これを「盲検化（ブラインド化）」といいます。

このランダム化比較試験ではもっとも正確に効果が検証できるため、新しい薬を開発する際の「治験」では必ず行われます。治験とは、ヒトを対象に、新しい薬や治療法の効果、また安全性を科学的に調べる臨床試験のことです。製薬会社は「くすりの候補」を用いて、国の承認を得るために治験を行い、研究結果を集めます。その治験は省令に定められた要件を満たす病院のみで行われます。

＜エビデンスレベル1＞

「システマティックレビュー（系統的レビュー）」（レビューとは批評、再検討，評価の意）と「メタアナリシス（メタ解析）」。

ひとつのテーマに対して、世界中で複数のランダム化比較試験が行われています。しかし、それらの結果は必ずしも一致していません。例えば新薬を開発するときに、A大学での研究では有効で、B大学の研究では無効といった結果になることもあります。これではどうしていいか答えが出ません。

そこで一定の基準を用いて、同じテーマの研究を徹底的に探し出して総括する「システマティックレビュー」や、統計学的な手法で結果を合体させて数値で表す「メタアナリシス」（メタ解析）という方法によって結果を得ます。それがエビデンスの信頼性がもっとも高いレベル1です。

第1回で述べたように、このシステマティックレビューとメタアナリシスはエビデンスのレベルを探るうえでポイントとなるワードであり、私の専門分野です。覚えておくと医療情報を判断するにあたって役に立つことがあるでしょう。ただし、「用語の意味がわからない、具体的にどうすること？」と指摘されることがありますので、のちの回で詳しく触れることにします。

無数にある「エビデンスに基づいた治療法」のうち、どういう状態であればもっとも信頼できるのかと問われると、レベル2のランダム化比較試験が複数実施されて、それらを統合したシステマティックレビューやメタアナリシスが行われた結果であると言えます。それゆえに、この結果がレベル１となるわけです。

■レベルが高いから正しいのか？

ただし、エビデンスレベル1の情報であっても、さらに新しい別のランダム化比較試験の結果が出ると、それを含めて研究を更新する必要があります。システマティックレビューやメタアナリシスの結果にも「賞味期限」があり、将来に渡ってそのエビデンスが正しいことを保証するものではありません。

重要な考えなのでくり返しますが、エビデンスレベル１であっても絶対的にそれが真実だと保証できるものではないということも頭に入れておきましょう。

ここまで見てきたように、エビデンスのレベルは、研究デザインの正確さの順番に6つに分類されてはいますが、レベルが高いから正しい、あるいは、低いから間違っている、ということを示すものではありません。

最初に、専門家の意見は信頼性が低いからレベル6だと言いましたが、だからといってどの専門家も間違ったことを述べているわけではなく、また、まれな疾患ではレベル5の症例報告しか存在しない場合もあります。

エビデンスレベルとは、できるだけ真実に近い、良質なエビデンスを得るための手法の確かさの基準と言えます。

では、エビデンスレベルは医療において何に活用されているのでしょうか。確かな医療情報を探す読者の皆さんにとっては、そこが重要なことでしょう。

1人の医師が、例えば、うつ病、糖尿病、心臓病、がんなどの病気に関して、エビデンスレベルの高い最新の論文を日々検索し、自分の診療に役立てることは時間的な問題などからなかなか大変です。

そこで、病気ごとにさまざまに存在する医学会によって、医師の診療の指針となる「診療ガイドライン」が作成されています。それには、エビデンスレベルの高い研究結果に基づいて、「このAの治療法はどのぐらい勧めることができるのか。Bの検査法はどうか」といった推奨の度合いが明記されています。

その各種の診療ガイドラインの中には、一般にウエブ上や書籍で公開されていて、誰でも無料で閲覧できるものも増えてきました。それがどういう内容なのか、また病気ごとの診療ガイドラインの探しかたなどについては次回に紹介しましょう。

構成：阪河朝美／ユンブル

　第3回

第5回　

医療リテラシーの定義は「医療や健康情報を入手・理解・評価・活用するための知識、意欲、能力」とされている。その実践法として、医療の定説やメディアで見聞きする医療情報の読み取りかたを数字、グラフ、情報の質を中心に説明し、また適切な情報を見分ける方法とその活用法を紹介する。

その医療情報は本当か
トップへ

プロフィール

田近亜蘭

たぢか・あらん　京都大学大学院医学研究科社会健康医学系専攻　健康増進・行動学分野准教授。医学博士。精神科専門医・指導医。精神保健指定医。京都大学大学院医学研究科博士課程医学専攻修了。関西医科大学精神神経科・医局長、京都大学医学部附属病院精神科神経科・外来医長などを歴任。

プラスをSNSでも

Instagram, Youtube, Facebook, X.com

医療の「エビデンス」には6つの「レベル」がある

編集部ピックアップ

インタビュー

インタビュートップ

編集部のおすすめ

日本とヨーロッパの伝統工法を融合させた「大工アーティスト」が建てる家とは？

菱田昌平×塚原龍雲

記事を読む