ホーム 矢印 お役立ちコラム 矢印

精度98%でもほとんど当たらない!?医師も意外と知らない、検査の精度と数字のトリック。がん検査の基本となる指標を解説

がん検査

精度98%でもほとんど当たらない!?医師も意外と知らない、検査の精度と数字のトリック。がん検査の基本となる指標を解説

  • 公開日: 2023.10.25
  • |
  • 最終更新日: 2023.10.27

本記事では、自宅でできるがんリスク検査サービス「マイシグナル®」の開発元 Craif株式会社の最高技術責任者 (CTO)の市川が報道機関向けのメディアセミナーにて講演した内容をご紹介。

今回のテーマはがん検査の基礎として「検査の精度」。検査の精度について正しく理解する上で、避けては通れない感度・特異度・陽性適中率。誤解されがちなこれら3つの指標の解釈の仕方について市川が解説しました。

\50歳を過ぎたらすい臓がんリスク検査/

自宅でできる、がんのリスク検査
マイシグナル®

50歳を過ぎるとすい臓がんの発症率が上昇。特に初期段階では症状がほとんど出ないため、病院に行くタイミングが遅くなってしまいがちです。 マイシグナル®なら自宅で尿を採取するだけで、すい臓がんのリスク検査ができます。

マイシグナル®の詳細はこちら
misignal

レクチャーの概要

感度?特異度?検査精度の指標を正しく理解しよう

1.検査の精度を考える上では、陽性・陰性の両面を考慮する必要がある

2.疾患をある人正しく検出する「感度」、疾患がない人を誤って検出しない「特異度」の2つが検査の基本的な指標である

3.感度と特異度はカットオフ値をどこに設定するかにより変動する。両者はトレードオフの関係にあり、感度を上げれば特異度が下がる

4.ROC曲線はカットオフ値によらない検査全体の精度を表す指標であり、曲線下面積(AUC)を用いることで、検査精度の比較が出来る

数字のトリック:精度98%のがん検査でもほとんど当たらない!?

1.陽性と判定された人のうち、実際に疾患を有している人の割合を陽性適中率(PPV)という指標で表す

2.検査の感度・特異度が高くても、陽性適中率(PPV)は想像以上に少ない場合がある

精度だけでなく、誰が受けるかが大切

1.特に有病率が低い場合、感度・特異度よりも陽性適中率(PPV)の方が検査の実態に即しているケースがある

2.検査自体の精度だけではなく、どのような人が検査を受けているかも検査結果に大きく影響をする

3.実際にがん検診はリスクが高い人を対象に行っている。検査対象者の有病率を高めることで、陽性適中率(PPV)を高める意味もある

次世代がん検査マイシグナル(miSignal®)の結果票を解説!

1.マイシグナル®の結果票は現在のリスクを表す「マイクロRNAスコア」と潜在的なリスクを表す「パーソナルスコア」の2軸で判定をしている

2.マイシグナル®はがんのリスクを高めることが確かめられている背景情報も考慮にいれて判定している

詳しくは、こちらの解説動画を御覧ください。

講演全文

本日は本当にお忙しい中、ありがとうございます。

今日の勉強会の目的として、我々としてお話したいところは意外と検査って奥が深く、いろいろ新しい検査が開発されてると思うんですけれど、実はちゃんと解釈するのがすごく難しいという奥の深さというところをご紹介したい。
それに関連してがんの検査ってどうあるべきか、良い検査っていう定義ってなかなか難しい。

小野瀬からもありました通り天寿を全うできる社会を作る上で、すごく真剣に取り組んでいかないといけない課題だと思っています。
社会とコミュニケーションの部分だとも思っているので、そういった観点で、お話できればと思っている。
その中で開発されたマイシグナル製品について理解を深めていただけるような場にできたらと思っております。

簡単に自己紹介させてください、市川と申します。
もともと薬学系で博士号をとっており、研究系をやっていました。
その後、製薬会社にいって、そちらではセールスであったり、マーケティングのビジネスサイドをやっていた。Craifでは主にR&D全般を担当しているという背景になります。

勉強会のプログラムなんですが、全3回を実施しようと思っていて、検査の1番基礎のところから、最先端の事例から今後のがん検査はどういうふうに発展していくんだろうというところで、カバーをさせていただければと思っております。

いろんなトピックに触れるんですが、一般の方がわかっているようで実はわかっていないというようなことがたくさんあるので、少しクローズな場ではありますので適宜質問をいただきながら進めていけたらと思っております。

それでは第1回ということで、タイトルとして精度98%でもほとんどあたらない医師も意外と知らない検査の精度と数字のトリックという形でご紹介させていただければと思います。
よろしくお願いします。

では早速なんですが、中身に入っていければと思います。
まずがんの検査の用語のところの基本的なところから話していければと思います。
その前に一つクイズを出させていただきます。

あるXっていう病気があって有病率が1%という疾患があります。
なので、世間の中で100人に一人はこの病気を持っている、この病気に罹患していることをできるだけ高い精度で当てたい。
といったモチベーションで検査を作ることになります。

その検査が陽性か陰性かっていう結果を返し、それをできるだけ高い精度のものを開発したい。
となった時にどういった検査なのかということを考えた時に、実はすごく簡単に、ものすごく精度が高い検査を作ることができる、それは全員に陰性と返すと、100人中99人は当たるので、99%正解するでしょう。

しかしこれって本当に意味がある検査かというとおそらくNOです。

99%の正解率を持っているけど、この検査があったところで何の役にもたたない。
なので、いい検査ということを考えたとき、検査結果で陽性の人、疾患がある人を正しく当てなければいけないし、陰性の人、疾患がない人を、正しく疾患がないですよ。
という両面を正しく判定するということが大事。

全員陰性と返してしまうと、陰性の人はみんな陰性ですが、100人に一人陽性の人は必ず間違ってるので、これだと意味がない。

なので陰性と陽性、両方の観点から結果を返す必要がある。
そこでその検査でよく考えなければいけないのは、この二つの軸で、疾患がある人ない人、それから検査の結果が陽性か陰性か。
そういった疾患の軸と検査結果の軸っていう二つの軸で考えましょうというというのが基本的な考え方。

疾患があって、検査結果が陽性の人は真陽性、疾患があって陰性が出てしまう人は偽陰性。
同じように疾患がない人を正しくあてられたものが真陰性、間違えて陽性と出してしまったものが偽陽性というマトリックスが考えられます。

そこで検査数値の中で感度とか、特異度とかという言葉を、もしかしたら聞いたことがあると思います。

まずは感度。
まず感度という軸は疾患がある人を正しく陽性と正しく的中できる、疾患がある人のうち正しく疾患があるよと、どれだけあてられたかを感度といいます。
これもよく使われる指標なんです。
けれども、特異度というのは、疾患がない人のうち、正しく疾患がない人と当てられた人の割合を特異度といいます。

なのでこの二つ感度、特異度が検査でよく使われる指標。
正解率というよりは何割当たったかということよりも、この感度、特異度という指標が使われている。
その理由としては最初に申し上げた通り、陽性の人たち、健康な人たちの両面で正しく当てられる必要がある。

具体的な例で、感度特異度はどういう風に使われるのかみていきたいと思うんですけれど、例えば、コロナ検査みたいに、あなたは陽性です、あなたは陰性ですと出るような場合、20人ずつ、疾患を持っている人と、持っていない人が検査を受けたという状況としたときに、疾患がある20人のうち2人が陰性と出てしまいました。これは先程の定義通り疾患がある20人のうち18人は正しくあてることができたので、感度90%となる。
一方で特異度の方は3人間違えて陽性となっている。この場合は3人間違えてしまう。
ということなので、20人中17人を正しく陰性とあてられることなので、特異度85%ということになります。

例えば、腫瘍マーカーみたいな陽性陰性をはっきり出ないもので、腫瘍マーカーみたいにその数字が高いか低いかみたいなものがあった時に、これも感度特異度をだすことができる。
ちょっとここをどういうふうに出していくかっていうところについて、もう少しお話をしたいと思います。

先ほど見たように、あたっているか外れているかはそこまで自明ではないので、 ここはもう少し深掘りした話をしていきたいと思います。
まずこの40人中20人が疾患がある人で疾患がない人が20人になった時に、この値、それぞれが検査を受けたときに何点だったか。という値をプロットをしていきます。

縦軸がスコアで、横軸が1人1人が何点だったかをあらわしているので、みての通り疾患がある人がなんとなく高そうという数字がでているという数字が出ていると思うんですけど、これをグラフにしていくと、確かに疾患がある人の方が、高くなっていて、疾患がない人が50点以下の人が多い。

この検査を使ってどうやってその人が陽性か判定していくかなんですが、あるところに線を引いてこの点数以上だったら陽性ですよ、この点数未満だったら陰性ですよ。
そういった形でカットオフ値というものを設定して判定をしていく。

例えばこの例で言うと、50点で線を引くと、陽性の人は2人間違えてしまっている。
だから、20分の18で90%の感度で疾患がある人を見分けている。
一方で特異度の方を見ると、5人間違えてしまっているので、特異度としては20人中15人を正しく当てられているので、75%。
なので、どこに線をひいていくかによって感度、特異度はかわっていく。

今の例ですと50のところの場合は感度90%、75%の特異度というところを示したんですけど、例えば、より疾患の見逃しを防ぎたいケースにおいては、この線を少し低くしてあげることによって、見逃しを防ぐことができる。
そうすると、感度は100%になるし、特異度が少し下がってしまいます。
逆に偽陽性、間違えて陽性ですよという判定を絶対したくないというときには、 このバーを上げてあげて、75%のところに引いてあげると感度は40%に下がってしまうんですが、特異度が100%にすることができる。

ポイントはいくつかある。
一つが検査によって、どこにカットオフ値を持ってきたかによって、感度特異度が変わりうることがある。
新しい検査を開発をした際、あるところで線を引いた時にそのような値になるよってこういう目的によって見逃しを防ぎたいのか、偽陽性を防ぎたいのかによって、どこに線を引くかがかわってくる。

ここで新しいもう一つの指標。もしかしたらこれも聞いたことある方もいらっしゃると思う。ROC曲線というものがよくその検査の精度を示す指標として、使われている。
ROC曲線っていうのは、検査全体で、この検査こういうふうにわけることができる、疾患がある疾患がない人をこの程度わけられるような、検査自体の精度がどれくらいあるかということを示すような指標になる。

どういうふうに算出するかということを簡単にご紹介します。

先ほど申し上げた通りどこにカットオフ値を設けるかによって、感度特異度が変わってくる。ROC曲線というのは、このカットオフ値を一番下から一番上まで少しずつずらしていく。
感度と特異度の関係がどういうふうになるかということを、こういうふうにプロットしていった曲線のことをROC曲線といいます。
なのでどこにカットオフをひいたとしても、このROC曲線のどこかにその点がプロットされるので、 その検査全体の指標をあらわすことができます。

少しイメージしづらいと思うんですけれども、具体例を出して説明します。
検査の分類性能が少しずつ違うような四つの例を出してみました。

一番左に行けばいくほど疾患がある人と、疾患がない人の分布がわかれていって、一番右になってしまうと、ほとんどかわらない分布になってしまっている。
この四つのパターンで同じようにROC曲線を引いて見ると、一番左の性能が高いものはこのよう大きな曲線になっていて、 一番右みたいにあまり区別がほとんどできないものは、直線に近い形になってしまう。

この関係性を利用して、ここの下の面積がどのくらいサイズなのかということをいっているのがROC曲線のAUCという指標。AUCはArea under the curveで、曲線の下の面積といった指標。

これを用いて比べることによって、この検査自体が分類が良くできるのか、ほとんと分類ができないかというのを、このAUCの数字で比べることができる。
実際に論文とか検査の精度を示すのは、感度と特異度とROC曲線のAUC、こういった指標を用いるっていうのが多い。

この三つの指標をしっかり押さえていただくと、検査の概要の数字といいますか、検査精度を表す基本的な数字のところがわかる指標になっている。AUCは少し難しいですが、どれぐらいの疾患がある人と、ない人がわけられる分類性能が違うものを比較するときには、感度、特異度を比べるよりAUCを比べた方が、同じ指標で比べることなので、 そういった理由でここは検査の性能を語る上で用いられる指標となっている。

ここまでのまとめは検査の精度指標を考える時は陽性陰性の両面で考えなければいけない。
それをあらわす指標として感度と特異度というものがよく使われている。
ただ感度と特異度のどこにカットオフ値を設定するかによって、数字がかわってしまうので、カットオフ値によらない検査全体の精度をあらわすときには、ROC曲線あるいはその下の面積であるAUCを用いる指標をもちいる。
ということがここまでのご紹介でした。

次に進ませていただきたいと思います。
もう少し突っ込んだ話をしていきたいと思います。

有病率1%のXという疾患というものがあって これに対して、感度98%と特異度98%と分類性能が良い検査を開発することができました。
これはもうすごい検査で、1万人の人に使ってもらって結果はどうだったかということです。
陽性っていう結果が出た人のうち、実際に疾患Xに罹患している人はどれぐらいいるのかということを聞いてみたいです。

1番だと思う方、2番だと思う方、3番だと思う方、ちょっとネタばらしはもう少し先にしたいと思います。

ちょっと前提を一緒に確認していきたいのですけれども、1%の有病率を持っている疾患で1万人受けた、これはどういう人たちになるかと言うと、1万人いて疾患がある人は1%なので、100人が疾患を持っていて、残りの9900人は疾患を持っていない人たちになります。

この100人の疾患を持った人の内訳を考えていくと、感度が98%なので、100人のうち98人は陽性として判定できるが、2人は間違えてしまう。
なので98人正解がいて、2人間違えてしまう。
一方で疾患がない9900人を考えてみると、9900人のうち98%の9702は正解。
あなたは疾患がないですといえます、2%の198人は間違えて陽性っていう結果になる。

この二つで疾患がある人は98人が陽性、2人が陰性で、疾患がない人は9900人のうち9702人が陰性とでて、陽性は198人。
陽性と出た人は合計でこことここを合わせて297人。
そのうちの陽性の人、本当に陽性の人は98人しかいないので、正解は3番の33%。
すごく不思議なんですが、感度も特異度も98%の検査なんですが、すごく良い検査だと思うんですが、実際に陽性とでた人、結果があっている人 は33%しかいない。

今お話したように、実際に陽性と結果が出た人のうち本当に陽性な割合の指標を陽性的中率だったりPPVといったりするんですけれども、この指標っていうのも、一つ検査をする上では、考慮にいれておきたい指標となります。意外と少ないというふうに思われた方もいらっしゃるかと思いますが、ここまでのまとめとしまして、 陽性と判定された人のうち、実際に疾患を有してる人のことを、陽性的中率といいます。

またあらたな指標がでてきたので、少し難しいかと思いますが、検査するうえでは重要な指標です。
ここは直感と少しズレるところだと思いますが、感度特異度が高くても陽性的中率が想像以上に小さいといったケースがみられます。
これはどういう意味かということを次の章でお話ししたいと思います。

精度だけではなく、誰が受けるかが大切という内容です。
陽性的中率というのが、どこが変わってくるとどのように変化するのかいくつかパターンをみていきたいと思います。

例えば、先ほどの検査の98%の感度、特異度も98% という形だったんですが、少し感度を高めて、特異度を減らした変化の場合、この陽性のところは変化して陽性は99人、陰性は1人。
一方で、疾患なしの9900人のうち、陽性の人、間違えて陽性出てしまう人が495人。
正しく陰性とでる人が9405人となってくると、陽性的中率は17%。
感度を上げて、特異度を少し低くすると、 これだけ陽性的中率がかわってしまう。

逆に、感度が低くて、特異度が高くなると逆に陽性的中率が高くなって49%。
なので少し数字が違うだけで、この陽性的中率ってのはすごく大きく変わるといわれている。

さらに変化が大きいのは、例えば先ほど有病率1%の疾患でしたが、有病率50%だった場合、なので1万人中、疾患ありが5000人、疾患なしが5000人となった時に、98%あてられるのでほぼほぼ正解になってくる。
この場合だと、陽性的中率98%になる。
なので、陽性的中率っていう指標をみていく際には、有病率、誰が受けるか。によって、すごく結果がかわってくる。

先ほどその論文とかでは、感度特異度、ROCで大体完結してしまっていることが多いのですが、実際検査を世に出していって、それを受けたときに、何が起こるかということを、もう少し踏み込んで考えていくと、やっぱり陽性と出た人は、次どうするということが、どうしても切っても切り離せない存在だと思っている。
その陽性的中率っていうのは思ったより低いし、 誰が受けるかによって大きく変わってしまう、検査開発する上で、検査のことを、深掘って考えた時どうしてもさけられない。

まとめになるんですけれども、感度特異度とか、有病率がかわってくると、陽性的中率という指標で見た場合に、すごく大きな変化があって、実際に今お話したように、検査を世に出していくと考えると、 やはり感度と特異度だけじゃなくて、こちらの指標の方が重要になってくるケースっていうのもあるんじゃないかというふうに考えています。
実際にがんの検査と考えた時に、肺がんの罹患率は2019年ですと10万人あたり100人程度、0.1%。
この計算をしてしまうとPPVは4%。
たとえ、検査精度が98%だったとしても。
ここはその数字のトリックと申し上げましたけど、ロジカルに考えるともうこうなってしまう。
というのががん検査のすごく難しいところ。

なので、その有病率、誰が受けるかによって、このPPVというものが大きく変わってくる。
もう少し実際の場面を思い浮かべてもらうと、30代のたばこ全く吸っていませんということが検査を受けて、陽性かもしれない人と、 70代でヘビースモーカー歴50年の人が、肺がんの検査を受けて陽性かもしれないといわれた時にがんでありそうという、がんである確率は圧倒的に高いということが直感でもあるのではないかと。

実際に数字で考えても、誰がその検査を受ける、どういう集団がその検査を受けるかによって、その検査の陽性となった時に、本当にがんである確率が変わってくる背景がある。
なので日本で導入されてるがん検診と同じことを考えられていて、例えば年齢ですね。

50代60代から肺がんというのはすごく増えてくるので、年齢という因子もそうですし、 喫煙の習慣であったり、家族に肺がんの人がいるとか、こういったことが肺がんのリスクを高めることが知られているので、人口全員が肺がんの検診を受けるのではなく、検診の対象者としては40歳以上が胸部X線をしましょう、50歳以上かつヘビースモーカーの方は細胞診を受けましょうといった形です。

先ほどお話した誰が受けるかによって、その実際の検査の陽性となったときのあと、アクションも変わってくるので、できるだけリスクが高い人に絞って検査を受けましょう。
というのが対象者になっている。
なのですごく当たり前に聞こえるところかもしれないけど、リスクがある人っていうのは、ちゃんと検診を受けましょうっていうところがある。

数字の観点で、感度、特異度、陽性的中率という指標で見ていくと、少しその意味がより具体的にみえてくるところかと思います。

ここまでのまとめで、特にその有病率が低いがんみたいな検査の場合、感度特異度の検査自体の指標も大事なんですけれども、 実際の臨床場面や実際に社会でこれを使っていく場合には、陽性的中率っていうのは実態に即してるケースもあります。
それに関連してなんですけれども、検査自体の精度だけではなく、誰が検査をしているかが解釈にもすごく大きく影響している。
なので、実際のがん検診ではリスクが高い人を対象にすることで、この陽性的中率を高め、より意味のある検査にしているという背景がございます。
そういったがん検査の基本的な数字の見方とか、考え方というところを一通りお話しさせていただいた。

マイシグナルという我々の検査についても、どのような結果を出しているかということを簡単にご紹介させていただければと思います。

特徴的なのが、尿で簡単にがん種ごとのリスクが判定できることがポイント。
結果の出し方にもいろんな工夫があります。
まず2つの軸で結果を返しており、横軸がマイクロRNAがんリスク、縦軸がパーソナルがんリスクの2軸で結果を判定するという特徴がある。

横軸が何をあらわしているかというと、これが尿中のマイクロRNAを測って、どれだけマイクロRNAパターンががんの方に近いかどうか指標になっている。
がんの方と健康な方を研究段階でたくさんサンプル集めてきて、尿中のマイクロRNAのパターンの違いを解析して、 それを機械学習でがんかそうではないか判定するアルゴリズムを開発して、そのアルゴリズムでその人ががんのリスクスコアがどれぐらいあるかということを解析している。
なので、今の尿の状態で、肺がんだったら、肺がんのスコアがどれだけ肺がんの人と近いかといった軸になっている、いわゆるがん検査と聞いてイメージするところに近い。

先ほど話した通り、 これが30代のタバコを吸ったことがない人と、70代でずっとヘビースモーカーの人とでは、この意味合い自体が変わってきてしまう。
なので、もう一つの軸、縦軸のパーソナルリスクスコアといったものを、組み込んでいます。

パーソナルリスクスコアは何かと申し上げますと、ここによっているように、これは乳がんの例ですけれども、乳がんのリスクを高めるような指標、例えばBMIが高いとか、乳がんの家族歴があるとリスクが高いとか、その人自身の生活習慣や背景から、どれだけなりやすいリスクがあるか変わってくる。
それを指標にしたのがこのパーソナルがんリスクスコアであり、縦軸になっている。

なので、最初の総合評価に戻りますと、この横軸の今の尿の状態によるマイクロRNAの状態により、どれだけ変わってくるかという軸に加え、パーソナルリスクが高い人が受けた場合と低い人が受けた場合は意味合いがかわってくるので、その両軸をかけ合わせた形で、 総合判定する結果票になっております。

これはかなり独特な新しい結果票と思っており、先ほど話した通り、がんの検査の潜むリスクである、どうしても考慮しないといけない誰が受けるかによって、検査の意味合いがかわってくることを吸収した形で、より実際の現場で使いやすいような検査になるように工夫しました。

ということでまとめとなります。
マイシグナルの結果表はマイクロRNAスコアとパーソナルリスクスコアの2軸で、あらわしている特徴がある。
特に縦軸がユニークであり、がんのリスクを高めることが知られている背景情報を考慮にいれた上でがんのリスクを判定している結果票になっております。

今日の話のまとめをしたいと思います。
検査の精度を理解する上で、感度、特異度、ROC、これらの軸は基本的な数値として重要である。
ただし、ここの数字が高かったとしても実際に世の中で使っていく際には、それが意外とあたらないケースがある。

そういった場合に陽性的中率を考慮した方がよいと思う。
陽性的中率というのはがん検査を受けた人、どういう人が受けたのかで大きく変わってしまうので、誰が受けたかということも、がん検査を考えるうえでは、外すことができない指標である。

マイシグナルは、マイクロRNAパターンだけではなく、受けた人がどういったリスクを持っているかという軸を合わせて判定している。

\この記事を他の人にシェア/

記事URlをコピーしました。

この記事の監修者

水沼 未雅

博士(薬学)、薬剤師
京都大学薬学部卒業。東京大学大学院 薬学系研究科にて博士号(薬学)取得。ストラゼネカ株式会社のメディカルアフェアーズ部門にて、新製品の上市準備、メディカル戦略策定、研究企画、学術コミュニケーション等を経験後、Craifにて事業開発に従事。