uropatho’s diary

泌尿器病理医によるブログ

MENU

スポンサーリンク

病理医にとって理解しておきたい「ウィル・ロジャース現象」

こんにちは。

 

病理医の診断には良悪を決めるところから、悪性度やスコアをつけるところまで様々な(責任の)レベルがあります。

良悪については間違うと責任を問われる可能性があります。しかし、その悪性度(high grade / low grade や Grade 1~3 など)の判定や Gleason score などのスコアの付与については診断医によってズレるのが当たり前ですし、そもそも絶対的な基準もないためなにが正解でなにが間違いということもありません。

スコアがおかしいから責任をとれと言われることはありませんが、あまりに他の病理医から逸脱(deviate)していると信用をなくします。 

 

当然、病理医の中にもタカ派がいて、誤診といわれない範囲でですが悪性度の高いほうにつけたがる人がいます。 そういう人は、勉強家で熱心なタイプであることが多くて稀な疾患を診断したり癌でも特殊型やvariant を積極的に診断する傾向があるように思います。

私は中庸を目指していますが、どちらかというとハト派に入るかもしれません。保身を考えて、なるべく多数派の集合に入っていたいと思っています。

ここで、私をふくめ全ての病理医がタカ派の診断をすればすればどうなるのか、考えてみます。

 

 

 

ウィル・ロジャース現象について 

ウィル・ロジャース現象(Will Rogers phenomenon)と呼ばれるものがあります。私はとある学会でこれを聴いたときに、興味深い・面白いと同時に「統計のマジック・数字のごまかしには気をつけないとな」という思いを抱きました。

Wikipediaでは以下のように説明があります。

 

ウィル・ロジャース現象 - Wikipedia

ウィル・ロジャース現象(Will Rogers phenomenon)とは、ある集合の中の1つの数を別の集合に移した結果、両方の平均が高くなる現象のことである。アメリカ合衆国コメディアンであるウィル・ロジャースが、1930年代の世界恐慌の際に、「もしオクラホマ州の出稼ぎ労働者がカリフォルニア州に移動したら、両方の州の知的レベルが上がるだろう」と言った言葉に由来する。

この現象は、次の2つの条件がともに成り立つ時に起こる。

  • 移動する要素は移動前の集合の平均よりも小さい。
  • 移動する要素は移動先の集合の平均よりも大きい。

 

病期の移行の例[編集]

実際にこの現象が現れるのが、病期の移行区分に絡むケースである。移行期の人々は、診療技術の発達によって健康なグループから病気のグループへと移されるが、健康な人々のグループでは移行期の人々が除外されたことで平均寿命が上昇する。また移行期の人々は既に患者となっている人々よりも健康を害していないので、移行期の人々が患者に区分されることによって患者グループの平均寿命を上昇させることにもなる。

肺癌検査でフルオロデオキシグルコースPETスキャンを用いて早期癌と進行癌をより明瞭に描出できるようになったことで、ウィル・ロジャース現象が実際に生じた例が報告されている。

 

この説明では、FDG-PETを導入したことで「健康な人のグループで平均寿命が延びる」という現象と「患者グループの平均寿命が延びる」という現象が同時に起こるということを例に挙げています。

ここで恐ろしいのは、「個々の患者の寿命は変化していない」ということです。

各個人の寿命が変化していないにもかかわらず、両グループの平均寿命が延びてしまうんです。

病理医にとって重要なこと

病理医がこの現象を理解しておくべきだと私が思う理由は、「診断にかかわるからこそ無関係ではない」ためです。

病理医が「ある癌を診断する際にに境界病変をより高悪性度グループに診断することで、各グループの予後が改善する」 という現象が起きます。

高悪性度か低悪性度か迷う病変をみたときに、その病変は「低悪性度群に入ると予後の悪い症例」であると同時に「高悪性度群に入ると予後の良い症例」であるはずです。

ウィル・ロジャース現象を応用して考えると、タカ派の診断(=悪性度を高く診断) によって見かけ上予後の改善がおこり、ハト派の診断(=悪性度を低く診断)によって見かけ上予後の増悪がおこります。

そして、頻繁に行われる分類の改訂や分類する際の基準の改訂によって、診断医が意図せずともスコアがずれてくることがありえるのです。

 

 

 

 

例: 前立腺癌のGleason score

前立腺癌の診断において必ず記載する Gleason score (GS) についてもウィル・ロジャース現象が起こりえます。

ISUP2005の改訂によりGleason pattern の 1 や 2 はほぼつけることが無くなりました。とくに針生検においては必ず 3以上をつけることになっています。癌取扱い規約においてもそのように改訂されています。

また近年の改訂が影響したのか、3+3 に比べて 3+4 が増加したという話も耳にしました。

これによって何がおこるか、、スコアが大きくなれば予後不良群になりますので、基準の改訂(いわゆるreclassification) により、高悪性度寄りの診断になっていることが考えられます。であれば、各GSグループにおいて予後が改善する方向に作用しているはずです。

そのようなペーパーがないか探してみました。

The contemporary Gleason score readings were statistically significantly higher than the original readings (mean score increased from 5.95 to 6.8; difference = 0.85, 95% confidence interval = 0.79 to 0.91; P < .001).

https://www.researchgate.net/publication/7616519_Prostate_Cancer_and_the_Will_Rogers_Phenomenon

2005年なので古い論文ですが、1990-1992年と2002-2004年の症例を比較しています。

これによるとGSは平均で5.95から6.8に変化しています。 

the Gleason score-standardized contemporary prostate cancer mortality rate (1.50 deaths per 100 person-years) appeared to be 28% lower than standardized historical rates (2.08 deaths per 100 person-years), even though the overall outcome was unchange

そして全体でのアウトカムが変わらないのに、死亡率が28%も低下していると書かれています。

In this population, a decline in the reported incidence of low-grade prostate cancers appears to be the result of Gleason score reclassification over the past decade. This reclassification resulted in apparent improvement in clinical outcomes. This finding reflects a statistical artifact known as the Will Rogers phenomenon.

そしてその原因は Gleason score の再分類のためであり、(死亡率の低下は)統計上のアーチファクトであると締めくくっています。

2005年からこの2018年までの間にはGleason score の基準はさらに変わり続けています。それに対して批判する気はありませんが、基準の変更によって統計上のアーチファクトが無視できないレベルで起こりうるということは医師である以上理解しておく必要があります。

 

例: 胃癌の診断基準 

私の専門領域ではありませんが、 病理学会総会で聴講したセミナーでの話を思い出しました。

他の癌腫もそうですが、胃癌の診断は治療と密接に関わっています。胃癌の治療として近年の進歩の一つに内視鏡的切除(ESD)があり、これによる粘膜切除が一般的になりました。この治療法が進歩したことで、診断基準にも変化がおこっているようです。

そしてセミナーで聴いた「以前ならGroup3にしていた病変を現在はGroup5にしている」という言葉は今でも印象に残っています(ニュアンスを含めて私が聞き違えているかもしれません)。消化器を専門にしておられる大規模センターの病理医の先生の話だったので衝撃的でした。ESDによる粘膜切除が可能となる以前であれば、Group5と診断すれば、その患者は胃の開腹手術をうけることになります。しかし現在では患者の負担が少ない内視鏡的切除で病変を取り除くことができます。EMRやESDで取り除くことができるので、積極的にGroup5にして治療した方がいいという意見でした。(保険診療上、Group3ではESDができないという事情もあるとは思います。)

これを考えると以前であれば「低悪性度の癌だと思うが胃を摘除するのはやりすぎではないか」というような病変をあえてGroup3としていたと解釈することもできますし、現在のように悪性度の低い腺腫様病変をすべてGroup5にするのはタカ派の診断だと解釈することもできます。

このGroup3が放っておいてもいい病変なのかどうか、がわかればいいんですがわからないので大規模センターではGroup5にするという方針は納得できます。Group3の中には放置しておくと長期的に命にかかわる病変が混じっていると考えられるからです。

このケースでも、過去Group3であった病変がGroup5にアップグレードされることによって、統計上のアーチファクトが発生し、「胃癌でない人」と「胃癌の人」の両者で予後が改善します

前立腺癌の場合は、あくまで癌の中での分類であったので、癌全体としての予後改善がありませんでした。

しかし、胃癌の場合は癌全体としての予後改善がアーチファクトとして生じてしまいます。胃癌患者の生存率の向上は、低悪性度の癌と診断される症例が増えたことが一つの要因かもしれないと考えておく視点も必要かもしれません。

 

 

 

胃癌の診断で注意しておきたいこと

また、気を付けておきたいのは、上記のような精度管理がなされておりカンファレンスにおいて臨床医と病理医のコミュニケーションがとれている大病院における診断と、田舎の検査会社での診断(厳密には診断ではないですが)は同じようにできないということです。

えらい先生の講話を鵜呑みにして、ESDで切除できるadenoma様の病変をすべてGroup5としてしまうとどういうことが起きるのか?

検査の提出元がクリニックだったとすれば近隣の総合病院に送られて、送られた先が消化器外科であればそのまま胃の摘除になるかもしれません。また○○胃腸外科のような小規模の病院からの検体だと、Group5の結果をふまえて外科の○○院長が患者に癌だと告知して胃全摘をしてしまうということが起こりえます。そもそも病理医がいる病院はほぼ大病院に限られますので再チェックがなされる可能性は低いのです。

現在の医療水準であれば、当然内視鏡所見を加味したうえで治療方針を決定すべきであり、病理診断のGroup5のみで胃の摘除が容認される時代ではありません。が、自分自身がおかれている立場によっては同じ診断が同じ結果にならないということはリアルワールドではいくらでも起こりえます。

標本をみて、みたまま所見をつける。余計なことは考えない。というのはある意味では楽だと思いますが、わかっているのに考えることを放棄してしまうというのは無責任かもしれません。そして何より、そういうスタイルでは人間はAIに負けるでしょう。絵合わせだけをして考えることを放棄すれば、病理医は機械にまける時代が迫っているのは確実だと思っています。

最後に

自分の診断がタカ派であっても、それがスムーズな診療につながり、患者のメリットになるのであれば全く問題ないと思います。さらに見かけ上予後が改善したとして、だれの迷惑になることでもありません。ただし、「ウィル・ロジャース現象」が存在すること、そして統計というのは必ずしも真実を示していないということを自省の意味も含めて考えておきたいと思います。

 

それでは。

 

 

スポンサーリンク