その医療情報は本当か 第9回

ギャンブラーの思い込み…確率、数字のトリックを見やぶる

田近亜蘭

第7回では医師や医療機関による広告について、第8回では健康食品やサプリメントの広告について、それぞれ、表現には法律や行政上の規制があることを伝えました。

読んでくれた知人から、「あるある~と思った。気を付けたい」「常に見るような広告のコピー、ああいうのは違反だったのか」などの声も届いています。

そうした広告や情報の中には、「このサプリメントは80%の人に効果があると判明!」「1カ月で3㎏のダイエットを実現した人が昨年の2倍に!」といった、数字を強調して、PRする製品が有用であるとうたう広告や記事も多く見受けられます。

しかし、その数字は「事実」なのでしょうか。注目を呼ぶ価値があるのでしょうか。確率や統計に関する事例を見ながら、読み取る側の心理や適切な読み取りかたを考えましょう。

■「ギャンブラーの誤謬(ごびゅう)」の心理

ここにコインが1枚あります。これをポンと上に放り投げて手で受け止めるコイントスを行うと、4回連続で「表」が出ました。では5回目には、表と裏のどちらが出ると思いますか。

多くの場合、「4回も表ばかりが続いたのだから、次は裏が出るだろう」と推測するのではないでしょうか。

図1 コインの表が4回続けて出た場合、次はどちらが出る?

ではここで、その確率を計算してみましょう。1回あたり、表が出る確率は「1/2」なので、それを5回くり返したときに、またもや表が出る確率を計算すると…、

1/2 ✕ 1/2 ✕ 1/2 ✕ 1/2 ✕ 1/2  = 1/32 となります。

すると、裏が出るのは、1-1/32 = 31/32 となり、0.96875 でおよそ97%になるため、「絶対に裏が出る!」…と思われるかもしれません。

しかし、この考えかた、計算法は誤りです。1/32 とは、「5回連続で表が出る場合の確率」なのです。問いは、「5回目に裏が出る確率」であるため、このような計算をしなくても裏か表のどちらかであり、「1/2」になるわけです。

5回目に裏が出る確率といえば、それまでにどちらが何回出ようがその結果に影響されないこと、また、5回目にどちらが出るかは1回ごとに考える必要があったのです。

先ほど述べたように、「多くの場合、同じ結果が出続けたときは、次は違う結果になるだろう」と思うでしょう。これを「ギャンブラーの誤謬(ごびゅう)」、あるいは「ギャンブラーの錯誤(さくご)」といいます。

誤謬とは簡潔にいうと「間違い」や「誤り」という意味合いで、心理学ではこの事象を、ギャンブラーが陥りやすい思考、ギャンブラーの思い込みと解釈します。

実際に、1913年にモンテカルロのカジノであったルーレットゲームで、ボールが26回連続で黒に入ったギャンブラーが、次こそは「赤だ!」と大金を賭けて失った、というできごとから引用されています。

ではもうひとつ。コインを8回投げて表か裏か、出た順に記録すると、次の(A)と(B)では、どちらになる確率が高いと思いますか。

(A)〇〇●●●〇●〇  

(B)●●●●●●●●

直感的に(A)と思いませんでしたか。これもギャンブラーの誤謬です。どちらもこうなる確率は、1/2の8乗なので1/256 となり、同じなのです。

この問いは心理学、統計学、数学、情報リテラシーの分野でも、「不確実な事象の解釈」としてよく取り上げられます。また、類題が高校の履修科目『情報Ⅰ』のある教科書にも紹介されていました。

負けが連続して起こる、あるいは勝ち続けていると、次こそは勝つにちがいない、もしくは負けるだろうと思い込む…。それは実は根拠がない期待、憶測だといえます。

このように、思い込み、勘違い、過去の経験や記憶によって不合理な判断をすることを「認知バイアス」といいます。

近ごろ、認知バイアスは、医学、心理学ほか多くの分野で耳にすると思います。多様に用いられますが、この場合は、「考えかたの偏り、先入観、思い込み、一方的な誤解」といった意味合いです。バイアスの語源は、布の織り目に対して斜めであることや、それに沿って切った布地(バイアステープ)のことです。

情報を読み取る際、ものごとを確率的な視点で判断することが苦手な人は多いのではないでしょうか。冷静に判断をするにはまず、賭けごとの主催者や商品を売る事業者は、お客の認知バイアスを熟知して利益を得ようとすること、また、自らの認知バイアスを認識しておく必要があるでしょう。

■誕生日が同じ人はこの中にいる?

次に、統計学や確率を面白く紹介するときに用いられる例に、「誕生日が同じ人はどれぐらいいる?」という問いがあります。

40人の集団がいたとき、その中に同じ誕生日のペアがいる確率は、次のうちのどれだと思いますか。

(A)11.7% 

(B)25.3%

(C)50.7%

(D)89.1%

正解は、(D)89.1%です。ただ、わたしの周囲の10人に尋ねてみると、全員が(A)11.7%と答えました。

この確率を求める集計法や計算式はここでは重要ではないので省略しますが、(A)11.7%とは集団が10人のときの確率であり、(B)25.3%では15人、(C)50.7%は23人のときです。そして、60人が集まると99.4%の確率で同じ誕生日の人が存在することになります。

グループの中の誰かと誰かが同じ誕生日だと聞くと、「おお、偶然だな」と驚くことがあるかもしれません.しかし確率的には、そう感動するほどのことでもなく、高い確率になるのです。これを「誕生日のパラドックス」といい、こちらもコインの例と同様に、高校『情報Ⅰ』で履修する場合があります。

キャンブラーの誤謬も誕生日のパラドックスも、「感覚や推測だけでものごとを判断すると間違うことがある」という教訓を伝えています。

■「半分以上の人がリピート!」のトリック

医療・健康情報の科学的根拠を確認しようとすると、数字が出てくることが多いでしょう。それが適切な表現であるのかは、検証をしないとわかりません。

とくに、医薬品、健康食品、サプリメントの広告では、「〇%の人に有効なこの食品!」など、数字を用いてのアピールが花盛りです。販売側の目的は「買ってほしい」なので、消費者が購入の行動をとるように、広告表現にあの手この手の仕掛けを潜ませるのは当然でしょう。

その数字が高いエビデンスレベル(第4回参照)に基づいたものであればいいですが、現実では、販売や集客のために都合がよいことばや言い回しがかなり多いように見受けられます。

厚生労働省は公式サイト(『「統合医療」に係る 情報発信等推進事業』。後の回で詳述)にて、「情報の見極め方」のひとつとして「数字のトリックに注意しよう」と呼びかけて、次のことなどを例示しています(抜粋)。

・「半分以上の人がリピート!」という話しでは、残りの半分の人は二度と来なかったのかもしれません。

・「60%の人が効果を実感!」では、40%の人は効果を感じなかったのかもしれません。

そのとおり、「数字の打ち出しかた」や「言い回し」で、読む人の直感的印象は変わることを認識しておきたいものです。

■データの分母の数が少なくないか?

割合を計算するとき、集団の分母はどのぐらいなのか。これは医学で研究結果を確認するときにとても重要なポイントとなります。

先述の厚労省の事例もそうですが、例えば、「この健康食品は80%の人に効果がありました!」とあると、すごく効果があるように思えるでしょう。

しかしもしかすると、「たった10人を調べた中で、8人に効果があった」ということだったかもしれません。さらにその10人も、どのようにして選んだのかの記述がないケースもあります。あらかじめ、その健康食品メーカーが無償で配布して食べてもらっていた可能性もあるでしょう。

ところが、「100人中80人が試して効果があった」「1000人中800人が試して効果があった」となるとどうでしょうか。同じ80%という割合であったとしても、集団の分母の数が増えるにつれ、結果の信頼性が増していきます。

また、ダイエット外来の広告で、「1カ月で3㎏の減量ができた人数が昨年の2倍に!」とある場合、本当は「受診者全員数が昨年より3倍に増えていた」のかもしれません。もしそうなら、減量できた人の「割合」としては昨年より減っています。このようなケースでは、分母の人数は表記されていないでしょう。

研究や調査をする人数は、その結果を示すにあたってどれほどの信頼性があるのか、統計学ではそれを表す式があります。医学研究では単に割合だけでなく、その数字の信頼性についても計算をして記載します。

そうしたことは知らずとも、数字を掲げて何らかの宣伝をしている場合、まずはデータの集団の数や、どのように集団を選んだのかの根拠を確認しましょう。

■「飲酒量が多いほど肺がんになる」は適切か…因果関係の証明は難しい

例えば、「飲酒量」と「肺がん」の関連性を考えるとしましょう。「飲酒量が多いほど、肺がんの発生が多くなる」と聞くと、飲酒量と肺がんには因果関係があると思いがちです。しかし実は、飲酒量以外の因子の「喫煙など」が肺がんの発生率に影響を与えている可能性があります。

2つのことがらAとBの間で、Aが原因となって、Bという結果が起こる関係を「因果関係」といいます。一般に日常でよく使われることばですが、情報処理や統計、数学、医学など、特定の情報やデータを扱う分野においては、真にその関係が成立するのかを追究します。

因果関係には「時間順序」と「直接性」があります。時間順序では、Aが先に起こったことで結果としてBが起こることを指し、「直接性」ではAがBを直接引き起こしていることをいいます。直接性では、AがBより先に起こっていても、Bがほかの要因で引き起こされている場合、AとBの間に因果関係は成立しません。

この「ほかの要因」、つまり「第三の因子」のことを「交絡(こうらく)因子」といいます。このことばは日常ではめったに使いませんが、前述の高校『情報Ⅰ』のある教科書には太字で掲載されています。

先述の飲酒量と肺がんの例では、「喫煙など」が交絡因子となります。飲酒する人のうち喫煙者が多かった場合、実は飲酒と肺がんに関係があったのではなく、喫煙と肺がんに関係があっただけで、飲酒とは直接の関係はなかったということです。

また、因果関係の有無とは関係なく、単に「Aが増加するとBも増加する。あるいは減少する」という関係のことを「相関関係」といいます。

因果関係を立証するには、少なくとも次の3つの規準「相関関係があること」「時間的順序関係があること」「交絡因子が排除されていること」が必要だと先述の高校の教科書には書かれています。しかし実のところ、医学研究などでの因果関係の証明は大変に複雑です。

そして、実際には因果関係がないにもかかわらず、交絡因子Cを介して、あたかもそれがあるかのように見えることを「擬似(ぎじ)相関見かけの相関)」といいます。

統計学などでよく挙げられる擬似相関の例に、次のことがらがあります。

  • アイスクリームの売り上げが増えると水難事故の数が増える
  • 小学生の身長が高いと算数の点数が高くなる
  • 各国のチョコレートの消費量が増えるとノーベル賞の受賞者数が増える(国際的に権威ある雑誌とされる『ニューイングランド・ジャーナル・オブ・メディスン』に掲載されたことで知られます。※1)

どれも一読すると、は?と疑問に思うでしょう。

①アイスクリームの売り上げが増えることが原因で水難事故が増えることに因果関係はあるのでしょうか。そんなことはありません。ここには「気温」という交絡因子が関係しています。

すなわち、気温が高いとアイスクリームの売り上げは増え、また、泳ぎに行く人が増えることで水難事故が増えるわけです。

②の例はどうでしょうか。これには「学年(年齢)」という交絡因子が潜んでいます。学年が上がると身長は高くなります。また算数の成績も当然、1年生より6年生のほうが上がります。

③の関係性には、「GDP(国内総生産)」という交絡因子が存在するとの説があります。国が豊かになるほどチョコレート消費量は増加し、また勉強をする余裕も出てくるので、ノーベル賞受賞者数が増えるのではないか、ということです。

何かよくわからない因果関係をうたう表現に接したときや、自分の身に起こった病気やケガの症状と原因を考えるときには、そこに交絡因子の存在がないかを考えてみましょう。

■くじ引きは何番目に引くと当たりやすい?

プロ野球のドラフト会議では、各球団が指名した選手が重複すると、球団代表者が選手の入団交渉権を獲得するためにくじ引きをします。毎年、どきどきしながら放送を見ている人も多いでしょう。ではそのくじは、何番目に引くと当たりやすいと思いますか。

3枚中、1枚のアタリが入っているくじの箱を3人で1回ずつ引くとき、「1番目」「2番目」「3番目」のうち、あなたなら何番目に引きますか。

図2 くじ引きは何番目に引きたい?

確率の計算式は省略しますが、結果をいうと、「どの順番であっても同じ」なのです。

では、2人でくじ引きをする場合はどうでしょうか。最初に引く? 後で引く? 

100人の場合ではどうでしょうか。数が多いと、最初や最後は避けたいと思うでしょう。

実は、2人であっても100人であっても、どんなに人数を増やした場合でも、何番目に引いたとしても、アタリくじを引く確率は参加者の全員が同じになるのです。

くじ引きがもっとも平等」いわれるのはこうした確率の考えからです。

本連載の第4回『医療の「エビデンス」には6つの「レベル」がある』で、エビデンスレベル2となるのは「ランダム化比較試験」を実施した研究結果だと述べました。

例えば、何らかの病気の新薬を開発するには、ランダム化比較試験が必須となります。同試験では、その薬を「使うグループ」と「使わないグループ」とに「ランダム」(無作為)に分けます。そのランダムに分類する方法とは、くじ引きです。被験者の条件に関わらず、平等に振り分けることができるからです。

以前は、治療法の書かれた封筒をまさにくじ引きのように引いていました。最近はコンピューターを用いることが多いのですが、原理は同じです。

■ウェブサイトやアプリの「ダークパターン」を知っておく

ダークパターン」ということばを耳にしたことはありますか。消費者庁の公式サイトには「消費者が気付かない間に不利な判断・意思決定をしてしまうよう誘導する仕組みのウェブデザインを指す」と記されています。

例示を要約すると、「『残り○分』などと得になる期間をカウント表示しているけれど、実質は、いつ購入しても同じ条件だった」「サブスクリプションの登録後、解約方法を不明瞭にして解約を困難とするもの」、相談例として「安価な費用で化粧品を購入したら、定期購入になっていて注文時にその表記はなかった」などが挙げられています。

消費者庁が毎年行う「詐欺防止月間」の2023年のテーマは、「ダークパターン」でした。

ウェブデザイン企業が同年11月に発表した調査結果では、800人へのアンケートで「ダークパターンによる被害をこうむった人は46.1%にのぼる」「ダークパターンを知っている人ほどダークパターンに気づきやすい」「ダークパターンは認知バイアスを利用し、消費者を巧妙にだますように仕組まれている」などの報告をしています(※2)。

数字の読み取りかたをはじめとする情報の適切な解釈や判断は、医療や健康の分野に関わらず、政治、経済、社会とあらゆるニュースに、そして日常の消費生活に大きく影響します。ウェブサイトやアプリにアクセスしたとき、「この商品は安い、超お得!」と直感した場合、その印象は事業者によって操作されているのかもしれません。

なんらかの意思決定をする際には、直感、思い込み、大げさな数字に振り回されることがないよう、まずはこうした現実を念頭に置きたいものです。

次回はわたしの研究報告「欧米の主要新聞に掲載された臨床研究の追跡」などについて紹介します。

参考

※1 Chocolate consumption, cognitive function, and Nobel laureates.Messerli FH. New England Journal of Medicine. 2012 Oct 18;367(16):1562-4.

※2 コンセント https://www.concentinc.jp/news-event/news/2023/11/darkpattern-report2023/

構成:阪河朝美・藤原 椋/ユンブル

 第8回
第10回  
その医療情報は本当か

医療リテラシーの定義は「医療や健康情報を入手・理解・評価・活用するための知識、意欲、能力」とされている。その実践法として、医療の定説やメディアで見聞きする医療情報の読み取りかたを数字、グラフ、情報の質を中心に説明し、また適切な情報を見分ける方法とその活用法を紹介する。

プロフィール

田近亜蘭

たぢか・あらん 京都大学大学院医学研究科社会健康医学系専攻 健康増進・行動学分野准教授。医学博士。精神科専門医・指導医。精神保健指定医。京都大学大学院医学研究科博士課程医学専攻修了。関西医科大学精神神経科・医局長、京都大学医学部附属病院精神科神経科・外来医長などを歴任 。

集英社新書公式Twitter 集英社新書Youtube公式チャンネル
プラスをSNSでも
Twitter, Youtube

ギャンブラーの思い込み…確率、数字のトリックを見やぶる