岡山大学チーム原著論文に対する指摘・批判への、津田敏秀氏による回答集その2


以下は、岡山大学チームによる『Epidemiology』誌掲載の原著論文「Thyroid Cancer Detection by Ultrasound Among Residents Ages 18 Years and Younger in Fukushima, Japan: 2011 to 2014 」(日本語タイトル:2011年から2014年の間に福島県の18歳以下の県民から超音波エコーにより検出された甲状腺がん)に関して、津田氏に寄せられた批判や意見と、それに対する津田氏の回答集その2である。回答集その1はこちらである。文中にもあるように、この論文に対する回答集は、今回の回答集その2をもって終了となる。なお掲載にあたっては、津田氏の許可を得ている。

論文へのリンクはこちら
この回答集のPDFは、以下に埋め込んであるが、こちらからダウンロード可能。
論文発表時の記者会見関連記事はこちら






2015年10月30日                          津田 敏秀

 前回、下記のような回答を出させていただいた理由は、私どもが論文を出した弊害が明らかに出てきたからです。

「岡山大学チーム原著論文に対する医師らの指摘・批判への、津田敏秀氏による回答集」
http://fukushimavoice2.blogspot.com/2015/10/blog-post_19.html

 私や共著者以外の関係のない方々に、その方々には答えようのない批判や文句までを言う方たちが続出してきたようなのです。しかし、私どもへの文句を言われた関係のない方々が、「そんなことは津田ら著者に直接連絡してくれ」とお願いしても、私ども著者に連絡するのではなく、再度、関係のない方々に連絡するそうなのです。
 ちなみに、ブログ以外に前回の回答集の中に入れさせていただいたのは、そのような方々とは別で、何らかの回答をした方が良いと思われるある程度学術的な指摘をしてくださった先生方のみです。ご覧になればお分かりのように、単なる文句ではなく、それなりの指摘や批判です。
 そのような指摘に関しましては、このような回答形式で明示をさせていただくと、ある程度の質があれば蓄積して回答する私どもの姿勢だけでも示せます(ただ前回お願いしましたように『Epidemiology』に Letters として投稿していただく方が私の英語の勉強にもなり業績にもなります)。また、そもそも迷惑を被っておられる方々が、「津田に直接連絡してくれ」という以外に、「ここをとりあえず読んでね」と本回答集を紹介していただけるだけで迷惑連絡に対応したことになりますので、ずっとその負担を軽減していただけることが期待できます。なお、ブログやその他でご指摘をくださった先生方には心より感謝致します。なお、この件に関する回答は、この2回目で、一応、当分終了したことにさせていただきます。意外に手間がかかって、他の仕事をする時間が失われてしまったからです。また蓄積してきましたらまとめてお答えすることもあるかもしれません。
 上記のような迷惑連絡に加えて、例えば、抗インフルエンザ薬であるタミフル服用の影響において私が何か根拠もなく間違ったことを言ったかのように、私には聞こえない場所で主張されておられるかたがいるようです。私の著作でも触れたこともありますが、実はすでにこの件では、英文誌論文が私も共著者として2つ出ております。この件もまた、陰で根拠も挙げずに主張されるのではなく、これらの査読付き雑誌に Letter を出して、根拠と共にご指摘いただければ幸いです。タミフルを製造したロシュ社からも Letter を頂戴致しました。さすが国際的な一流製薬会社だけあり、対応がしっかりしていると思いました。

Yorifuji T, Tsuda T, Kashima S, Suzuki E, Doi H.: Implications for future adverse effect studies of neuraminidase inhibitors (Rapid response to Neuraminidase inhibitors for preventing and treating influenza in healthy adults: systematic review and meta-analysis by Jefferson et al. BMJ 2009; 339: b5106). BMJ (published online at 17 December 2009).
Yorifuji T, Suzuki E, and Tsuda T: Oseltamivir and abnormal behaviors: True or not? Epidemiology 2009; 20: 619-621. 

 しかし不思議です。私どもへ直接質問を寄せる人はほとんど皆無です。メディアを除けば、せいぜい3-4件、英語の質問もあるので苦労しましたが。それなのに、岡山に住んでおられるのでもない、私や共著者とは縁もゆかりもない方々が、私と同意見かもしれないというだけで、いろいろと質問攻めというか苦情のはけ口になっているという被害に遭っておられるようなのです。この現象を日本の陰口文化が満開だというふうにネガティブな現象として見る向きもありますが、岡山大学には、このような現象を Twitter や Google 検索などのネット上で捉えて日本の今後のリスクコミュニケーションに役立てていこうとする若い研究者たちがいます。彼らは、前回の回答が公開された翌日の研究会で、早速、研究計画を議論しあっていました。私も、リスクコミュニケーションに役立つ論文を少なくとも1つは思い付いておりまして、データを記録しようと思っております。今回のように、リスクコミュニケーションが成り立たないと、公衆衛生はどうしようもないわけですから。
 今回、前回の回答へのコメントを神戸大学の岩田健太郎先生が公開されましたので、それにまず答えさせていただき、その後で、その他のご意見にお答えします。岩田先生ありがとうございます。http://georgebest1969.typepad.jp/blog/2015/10/津田先生からコメントいただきました.html

1. 先のブログについて津田先生からコメントをいただいたと聞きました。良いことだと思います。日本には議論の文化がなく、一方的に演説するのみ、というパターンが多かったですから。日本の学術誌の中にはレターすら存在しない、受け付けてくれないレベルのものまであるのですから、いまだに。
津田先生(ら)が当ブログをお読みになっていただいているようなので、こちらでのコメントにします。他の方のご意見についてはぼくはノーコメントです。

回答:私は定期的には拝読しておりません。これからは機会を見て定期的に拝見するようにいたします。今回は、お知らせを受けて拝見致しました。ただ、私へのご指摘でしたら、本人にも知らせていただきたいです。初回だけでもお願いしたいところです。そうでないと議論も始まりませんので。連絡先は論文に載っています。

2. はい、これはぼくの論考の一番弱いところで、20-50という数字の大きさそのものを克服できる前例を知りません。なにしろ一般的にスクリーニングがもめている領域、乳がんとか前立腺がんとかでは両者の違いは「微妙」であり、故にもめているのですから。しかし、甲状腺がんスクリーニングがそのようにもめている領域「ですらない」ために、このようなプラクティスが「スクリーニングをしない群」との違いを検討するデータが、他のがんに比べて少ないのは当然だと思います。

回答:多くはないですが、回答では3研究を示しております。それでも計 47,000人あまりの対象者数では不足ですか?つまり、チェルノブイリ周辺で行われた非曝露群、もしくは曝露が比較的少ない群での甲状腺スクリーニング検査では、甲状腺がんが1例も見つかっていません。「ぼくの論考の一番弱いところ」と言われていますが、そうではなく、これでは岩田先生は示されたエビデンスをご覧にならずに、結果としてエビデンスに反する論考をされているに過ぎないわけです。

3. しかし、文献21の比較対照がスクリーニングをしない incidence であり、福島のそれが全例調査であるスクリーニング (prevalence) である以上、そこにスクリーニングのバイアスがない、と考えるのもまた無理筋だとは思います。あ、ぼくは疫学業界の人間ではないのでどのへんが一般的でどのへんが一般的でない業界用語なのかは存じませんが、いずれにしても  screening biasというタームそのものは存在します。また、言及されている韓国の「15 倍」という数字を考えても、なぜ 15 ならよくて、20-50 ならダメなのか、そのへんの線引の根拠は分かりません。

回答:上記の 3 事例は甲状腺エコーを使った事例であり、prevalence です。当然、スクリーニング効果が入っているはずなのに、一人も見つかっていません。韓国の 15 倍よりも、ずっと状況が似た、直接比較できるデータです。韓国の 15 倍は、スクリーニング効果以外の要因は考察されていませんので、それがあれば、倍率は下がります。また韓国のこの論文では、手術例の 4 分の 1 が 5mm以下の腫瘍径だったと記載されています。しかし、福島県のスクリーニングの対象者では、そのような腫瘍径では手術されません。そもそも、韓国のデータはがん検診を受けるような大人のデータであり、福島のデータとは全く重なり合いません。
ちなみに「なぜ 15 ならよくて、20-50 ならダメなのか」というご質問に関しては簡単です。もちろん年齢層がまったく異なる韓国のデータと福島のデータを直接比較はできないのですが、もし直接比較できるとすれば、15 より 20-50 が大きな数だからです。不等式で書けば、1<15<20、1<15<50です。その違いは、引き算もしくは割り算で求めることができます。なぜ岩田先生がお分かりにならないのか私には分かりません。統計的推論(推測統計学)をしなさいということでしょうか?それなら信頼区間を与えて、確率分布の重なりがあるかどうか見れば良いだけです。今日では薬剤等を扱う以上、岩田先生もよくご存じのはずです。もし韓国のデータ観察数が大きいのならば、信頼区間ではなく、点推定値だけでも良いと思います。
 線引きが「分かりません」とのことですが、これは線引きがあるとしてもそれをはるかに超えるので、Sufficient evidence であり、査読者ら結論には Sufficient と判断したのでacceptしてもらえたわけです。それに対して Sufficient evidence ではないという主張の根拠は、まだ示されていません。これだけ根拠がはっきりしているのに分からないのであれば、岩田先生は、臨床現場で治療効果等の何らかの因果判断はしておられないのでしょうか。そして、今回も岩田先生からは根拠は示されませんでした。

4. 超音波に限らず画像検査は「ある」と思ってさがすのと、ルーチンで検査をするのでは探し方、見つけ方が異なるようにも思いますが、僕自身は甲状腺の超音波の素人なのでどのくらいの差がつくのかは分かりません。ただ、福島では調べる者も調べられる者も一所懸命になって探索したであろうことは想像します。・・・・・・、あと、僕の感覚でいうと80年代の超音波と21世紀の超音波は「全く別物」と思いますが、これは個人の「感じ方の違い」なので、なかなか難しいですね。
https://www.hitachi-aloka.co.jp/images/library/technology12.pdf 

回答:どうか「なかなか難しい」と諦めずに、5.1mmの結節を検出できるかどうかで考えてみてください。たとえ超音波エコー装置が「全く別物」でも、福島だけが「一生懸命」でも(チェルノブイリの非曝露群を調べた先生方も「一生懸命」だったと思いますが)、それでこれだけ増えるかどうかです。これなら、どなたでも簡単に判断できます。
また、実際に 3 事例の調査当時の中古甲状腺超音波機器が残っていれば、データを集めてもらっても良いです。科学は難しいと諦めずに実際にやってみることが肝要です。それが仮説になり論文になります。もしかしたら現在のエコーは、径 5mm前後の結節の 1mmの違いを鮮明に見極めるというような理由で、逆に数が減るかもしれません。いずれにしても、桁違いに大幅に増えると予測するという人はいないでしょう。それにしても、カラーが付いたり羊水に浮かぶ胎児が立体像で捉えられたりするようになりましたが、臓器の中の腫瘤影を見る分には、1980 年代終わり頃に私がエコーをしていた頃の鮮明度とさほど明瞭にはなっていないと思います。手術で開いて対象臓器を直接見るわけではないですからね。5.1mmあたりの解像度にあくまでもこだわって検証なさりたい方は、1980年代後半のエコーと並べて、当時の保存写真ではなく、動画を見る必要があります。1980年代後半、デジカメさえほとんど存在していない世の中で、動画を残すシステムのあったところはほとんど無かったと記憶しておりますので、そのような検証を厳密にするためには、今に残る1980年代後半のエコー機を動かして動画を撮る必要があると思います。日立メディコ、東芝メディカルシステムズやGEヘルスケア・ジャパンなどのメーカーさんなら当時のエコー機を保存されているかもしれません。

5. EBM 的という用語はぼくが知るかぎり EBM における一般的な用語ではないと思いますが、absence of evidence is not the evidence of absence と言われるように、ぼくのバイアスの懸念は「バイアスがない」という反論ではなく、「これがバイアスであると示すに足る前例がない」という反論になっています。水掛け論ですね。もう一度確認すると、
20-50 倍という数字にバイアスが入っている可能性は(inferenceとしては)高い。
ただし、20-50 を全てバイアスとして片付けるには前例(エビデンス)に乏しい。
といったところでしょうか。もちろん、ぼくらはサイエンスを議論しているのでお役人ではないのですから、「前例がないから間違っている」と結論づけてはいけないのは言うまでもありません。EBM 至上主義(evidence biased medicine) もまた問題ってことで、結局「なんとか」至上主義は全て非科学的な態度ってことですね。

回答:繰り返しますが、「前例」エビデンスは、チェルノブイリの 3事例、47,000人余りの観察データでは不足ですか?もちろん私どもの研究で用いたデータでもバイアスは入っていると思いますよ。バイアス(誤差)の入っていない科学的研究などあり得ないと思います。考察でも limitation としてくどくどと書いています。すでに Sufficient evidence である今回のような場合にはあまり言及しても意味がないですけれども、特に過小評価が結構はっきりしています。バイアスの程度も考慮して、20-50倍には、真の効果が残っているのかどうかを考えてみてください。いまだに、バイアスを考慮しても真の効果が残っていないというエビデンスは今のところないのです。
ちなみに岩田先生の、「EBM 至上主義 (evidence biased medicine) もまた問題ってことで、結局『なんとか』至上主義は全て非科学的な態度ってことですね」という文章は、日本語に直して要約しますと「『科学的根拠に基づいた医学』至上主義は、全て非科学的な態度ってことですね」という文章になり、文章内で矛盾が生じています。EBM という略語を使った私にも非はありますが、「サイエンスを議論している」ときには、このような論理矛盾は誤解を招きます。今一度、検討し直してしてみてください。

6. たしかに統計的有意差「だけ」で議論するのは危険です。ご指摘の Rothman のなかでも、Hill emphasized that causal inferences cannot be based on a set of rules, condemned emphasis on statistical significance testing, and recognized the importance of many other factors in decision making. とあります。ピーチ、ピーチ(p value)とそれだけで決めつけんな、てことですね。
で、The significance test refers only to the superpopulation, not the observed groups. To say that the difference is not statistically significant means only that one cannot reject the null hypothesis that the superpopulation groups are the same; it does not imply that two observed groups are the same. とも書いています。Rothman では統計的有意差だけが問題ではない、とは述べていますが、「統計的有意差が問題ではない」とか「大きな問題ではない」とは書いていないです。統計的有意差がないために、地域差の帰無仮説は否定できない(少なくとも統計学的には)ことは意味します。有意差がないことと影響がないことは同義ではありませんが、有意差がないから、影響があるとも結論付けられないのは当然です。そもそも、「キモ」の external comparison では統計的有意差を根拠(の一つ)にされているわけですから、ここで統計解析を過小評価するのはダブルスタンダードということになります。

回答:私どもは「『キモ』の External comparison では統計的有意差を根拠(の一つ)になど」していませんよ。『Epidemiology』では「統計的有意差」を書くことを避けるように言っていますので、有意差などあるもないも含めて一言も論文中には書いてないはずです。それなのに多くの皆さんが、論文中には触れていない紙一重で単に統計的有意差がないことに(無料ソフト EpiInfo の普通のオッズ比で95%信頼区間の下限が 0.9931、MLEオッズ比(Mid-P)で 0.9885 です)注目されてしまうのですから、皆さんのこのこだわりには興味津々です。これがもし、95%信頼区間の下限が 0.9885 ではなく 1.0114 なら有意差があり、それゆえに地域差があったと大騒ぎされるのでしょうか?このわずかの変化がどの程度の症例や対象者数の変化によって生じるかは、ご自分で検証されると良いと思います。ここで少しだけ有意差があったところでご意見を変えられる方はほとんど皆無でしょうから、実際にはそんなに有意差にこだわっている人は誰もいらっしゃらないはずです。懐疑的な方々の今の雰囲気は、エビデンスもなく単に対策を取らない別の理由を探されるだけですから。普段の生活では有意差検定などせずに平気で因果判断をされている皆さんが、この件においてだけ因果判断したくない理由を一生懸命探しておられるのです。それは、去年より0.1センチ身長が伸びただの縮んだだのと大騒ぎするのにも似て、それなりにほほえましい光景です。ところが実際は昨年より髪型が変わっていただけだったりしましてね。これは、大学入試ではありませんので、合格圏か否かを議論しても意味がありません。ましてや付け足しであり、かつ2番目に低い有病割合の地区を基準にした Internal comparison の結果にすぎないのです。
 そもそも、有意差判断は推定された確率分布の裾野の部分の問題です。確率分布の最も高い部分でもなければ、確率の大部分を把握する範囲を示すものでもありません。多くの皆さんの態度は、確率分布の山の裾野にばかり注目して、確率の一番高いところの値や確率分布の大部分を把握する範囲を見ないようにしている態度と同じ様なものです。登山口で行ったり来たりして、どこからが山なのかを思案し、山を見たり登ったりしようとしない、いわば「登山食わず嫌い」とでもいうような方の態度にすら見えます。それに両側 5 %有意など、研究者が恣意的に決めた切れ目に過ぎず、慣習に過ぎません。有害物質の健康影響の研究では、片側 5 %を選ぶ研究者が多いですが、本件での片側 5 %の有意差検定では Internal Comparison ではいくつかの有意差が出てきます。本件では、データが全部示されているのですから、ご自分で有意差検定をしてみてください。私はそのことを知っていても論文中には書かず、その一方、ご自分で検定をして  Internal comparisonで有意差があることに気づかれた方は、あまりいらっしゃらないようです。

7. Rothman は科学論において非常に(ぼくの)肝に落ちる議論をなさっていてとても勉強になります。特に(津田先生もよくやっている)「実験医学の優位性とか科学性に対する鋭い批判」は、そのとおりだと思います。他方、ヒューム以来の「科学的証明」に関する懐疑論とも誠実に取っ組み合っており、科学における「証明」というのがいかに不可能に近いか(疫学を含め)、impossibility of scientific proof、も誠実に言及しているはずです。我々にできることは、実験医学含め、「証明」というより degree of certainty に対する「近接」なのでしょう。

回答:不可能性は疫学に限らず、あらゆる科学において、突き詰めれば厳密な証明は不可能なんです。なにせそもそも自然現象が相手なわけですから。しかし証明不可能性が若干でもありながら、それでも、証明に基づいてビルは建ち、電車は走って、薬を飲んで、発がん物質をできるだけ避けて、皆さん科学の成果を享受されています。不可能性があるからといって何もせずに立ち止まっているのではなく、確率が高い方を採用することで、皆さんは平気で科学を享受しておられます。そして、その degree of certainty が確率です。データを示しておりますので、どうぞ degree of certainty をご自分で計算してみてください。これが偶然や見かけの多発である確率は、様々な条件を感度分析で割り当てたとしても天文学的数字の逆数であることがお分かりいただけると思います。それでも現在、本件においてすでに得られている、天文学的数字の逆数の方に賭けられますか?そんな人はいないと思います。

8. あと、ぼくがオープンにしなかったメールの文章も(なぜか)流れています。そこで操作変数(IV) について言及がありますが、ITT に見られる null towards null を根拠に IV の妥当性を主張されています。しかし、それは操作変数(地域)が曝露の代替として用いられる妥当性が高い場合には、という条件付きだと思います。両者に関連性が小さければ、もしくは他の影響が充分に大きければ、別の要因(地域以外の)曝露が結果に影響を与える可能性も十分にあります。また、ぼくが散見するところ、この点はメディアにコメントした他の疫学者のクリティークの根拠になっていると思います。もっとも、internal comparison においては地域差がでなかったので、この議論はあまりこだわらなくてもよいのかもしれません。

回答:岩田先生のご質問も入っていましたか。私や共著者以外の方に、論文に関する指摘をしていただいても、あまり意味はないことは冒頭にも記しました。特にこの件は単なる論文というよりも、現在進行形の問題として公共性と緊急性のある問題ですので、ブログで実名を添えておられる先生以外の様々な先生のご意見も、個人を特定できない形で、答えさせていただいております。ご容赦いただければ幸いです。責任は私にあります。
 話題にしていただいた IV ですが、図として前回の回答の後記に示しました DAG を再度添えさせていただきますので、再度ご検討いただければ幸いです。岩田先生のように「両者に関連性が小さければ、もしくは他の影響が充分に大きければ、別の要因(地域以外の)曝露が結果に影響を与える可能性も十分にあります。」というふうに考えられる方はほとんどいらっしゃらないと思います。下記の DAG を、今一度ご覧ください。



 この場合、Z と X や Z と W の関連が、成り立たない「可能性も十分ある」と考えられる方はいらっしゃらないでしょう。そして、U(何らかの要因、岩田先生の言われる [地域以外の] 別の要因)が W や Z に影響を与えていない場合(独立である場合)、Z もしくは Wは IV として成り立ちます。このような便利さが、IV が幅広く利用される理由でもあります。万一、独立でない可能性があるような要因を思いつかれたのであれば、具体的にご指摘ください。

9. 以上、「疫学入門の必須項目もご存じない」者からのコメントでした。

回答:岩田健太郎先生が疫学入門をご存じないとは思いません。ただ、IV に関するご意見などを拝見すると、妖怪ウォッチのウィスパーのような若干知ったかぶりをされる先生、もしくはお忙しくてじっくりと文章を読まない、いささか慌てんぼの先生だなとは感じました。ウィスパーや慌てんぼは、ほほえましいですが、知ったかぶりや過度な忙しさは、対話から情報を引き出すためには少々邪魔だと思います。

おわりに
 岩田先生からは今回もエビデンスを示していただけずにご指摘いただきましたが、やはり論理的な指摘か、定量的なエビデンスを示して議論していただきたいです。
 しかし、対話は考え方を深めますので、このようなご指摘はありがたいです。たぶん岩田先生は、私から回答を引き出すために、わざとこのようなご指摘をされているのだと思いますが。ちなみに、岩田先生以外のネット上でのご指摘は、今のところ私どもの論文の内容に対する批判は見つかっていません。そしてもちろん、感情の爆発だけというような指摘にはお答えしようがありません。


*************

 さて、岡山大学での私の因果判断に関する講義では、サリドマイド事件など国内外の過去のアウトブレイク事例のエビデンス(背景説明以外はたいがい 2×2 表1つ)を示しながら、次のような質問を大学院生の方々にいたします。
 「因果判断と対策実行は表裏一体で、切っても切り離せません。あなた方は厚生労働省の担当課長です。この 2×2 表を見て、現時点で因果関係があるとして対策実行に向かいますか、それとも現時点で因果関係がないとして対策を先延ばし、もしくは対策をしないようにしますか?答えてください。なお、因果関係が分からないという回答はなしですよ。現時点で因果関係がないと判断する場合と同じ現象(すなわち対策をしない現象)として表れるからです。少なくとも、今のエビデンスではなぜ不十分か、どんなエビデンスを集めて、その情報収集にどれぐらいの時間がかかり、その間にどれだけ被害や損失が拡がり、その結果がどうだったらどう判断するのかが付言されていない限りは、なしです。」
 ちなみに、私の友人や家族は皆認識しておりますが、私自身は決断することが苦手で優柔不断な人間です。したがって判断やら決断やらにはあまり向いておらず、いつも判断遅れで泣いております。
 そして岩田先生は、そして読者の皆さんは、現時点で、このエビデンスで、この質問にどのようにお答えになりますか?因果判断ができない理由や対策を取らなくてもよいのではという理由は、私の方がたくさん思いついたと思います。しかし、そのような理由を支持する根拠が今回は見つからなかったのです。数字とその数字が出てきた背景から、臨場感を交えて自分で考えて判断できないと、疫学入門を突破できているとは言えないと思います。
 人生における私的な場面では、「嫌いだから嫌い」、「判断したくないから判断したくない」と理屈なしに突っぱねるのも可能ですし、精神衛生的には一時的には良いことでもありますので、私はむしろ一時回避の手段として、理屈ぬきの拒否を勧めています。しかし、公衆衛生の現場では、逃げを打つにも理由が必要なのです。そして因果判断の一時回避をしても被害が拡がる場合があるのです。被害拡大リスクへの想像力がないのであれば、公衆衛生判断(つまり非判断)は、大きな迷惑をばらまき、恨みを買って行政の不信を招くことにつながります。これまでの日本での、食中毒事件、公害事件、感染症事件、薬害事件、職業病事件と同様に。ちなみに、有名な脚気による日露戦争での傷病者などの事例も同様です。

 さて、拙著『医学的根拠とは何か』(岩波新書)では、19 世紀から 20 世紀前半にかけて、ヨーロッパ各地で繰り広げられた3つ巴の医学論争を紹介致しました。「直感派」(医学は患者を直接診察してきた医師によるアートであるとして、職人芸としての医学を強調する派)、「メカニズム派」(動物や細胞モデルを用いて、実験室こそ医学的真実を見つける場所であるとした実験医学派)、「数量化派」(人のデータの数量化分析をする医師や研究者で、後の生物統計学者や疫学者がそれに相当し、今日では EBM とも呼ばれる派)が、医学的根拠に関して論争を繰り返してきました。今回、福島県での甲状腺がんで展開されている議論は、見方を変えれば、この3つ巴の医学論争が21世紀の日本で繰り返されていると見ることができます。医学的根拠(エビデンス)も示さずに主張をされる先生方や、あるいは過去の医学的判断がどのようなエビデンスで行われたのかも調べようともせず今回のような明瞭なエビデンスを無視してあくまでも「分からない」と因果判断を先送りにされたいご様子の岩田先生などは、さしずめ「直感派」ではないかと思います。また、この段になってもなお、この甲状腺がんの件で被ばく量からのみの推論に固執され、あまりにも不明瞭な被ばく量から議論をされている先生方は「メカニズム派」とも言えるでしょうか。ちなみに3つ巴の医学論争のいずれが、今日の医学的根拠になっているかは、私どもの岩波新書をお読みになった方々は、もうご存じだと思います。

*************


その他の指摘(10)



10. 第1巡目のエコー検査は、2011年10月から、2014年3月まで行われました。ここで発見された甲状腺癌は検診で発見されたものであり、検診期間に広がりがあるものの、ある一時点の有病率に相当します。そこで、平均潜伏期間(エコー検査上の診断と臨床的診断との間の latent period )で割り、日本の既知の年間発生率と比較されました。一方、第2巡目のエコー検査データは2014年4月から2015年3月頃までの結果の途中経過であり、『Epidemiology』論文中に記載したものより新しい資料を用いて、津田先生は科学2015年7月号に投稿されています。この科学7月号の論文では、先行検査からの期間を3年間とし比較したと記載されています。一方、『Epidemiology』では latent duration ないし latency という用語を使用しておられます。第2巡目で発見される新規甲状腺癌の指標には、時間の単位が含まれ発生率に相当すると私は考えます。科学7月号を読んだ時は、3年間に新規に発生した甲状腺癌を年の単位に直すために3で割ったのだと読みました。しかし、『Epidemiology』の論文では潜伏期という用語を用いているため、第1巡目と同じように、有病率から潜伏期間を用いて発生率に変換したように読めます。このため2つの異なる潜伏期が論文中で提示されることになってしまいました。小生の率直な意見を述べさせて頂くと、第2巡目の新規甲状腺癌は発生率を直接示すものであると明記した方が誤解されないのではないでしょうか。第1巡目の中間点 2013 年 0.5 月と第 2 巡目の中間点 2014 年 10 月との差は、1 年 9.5 ヶ月であり、この間に 15 例の新規甲状腺癌が発生し、エコー検診日が均等に割り振りされていると仮定して概算すると、IRR は 13.7 よりさらに高い 23 になると考えました。



回答:外部比較をする際の、第 1 巡目の時間の長さと、第 2 巡目の時間の長さとは、どのような名前を付けるかどうかはともかくも、ご指摘の通り両者は区別するべきだと思いました。そしてご指摘の通り、第 2 巡目の検診データは、有病割合に時間を与えて発生率を推定したよりむしろ、検診時期や手術時期等の詳細な情報が得られることにより発生率を直接的に推定しうるデータだと思われます。また、第 2 巡目の発生率比を推定するために、概算として与えた 3 年間という時間の長さは、ご指摘の通り、実際の状況を考えますとやや長すぎるかもしれません。手術決断時期等の情報が欲しいところですが、今のところやや短い 2 年間前後が妥当にも思えます。今後より詳しい情報公開がなされた場合には、しっかりと考察してまいりたいと思います。ただ、時間を長めに取れば null value の検証(多発しているかどうかの検証)には控えめな判断に基づくことになるのですが、あまり長めの時間を与えてしまいますと、発生率比をそれだけ過小評価することになりますので、できるだけ正確な発生率比を推定するという目的からは逸脱し過小評価しすぎる可能性が大きくなります。



*************



最初の回答集へのコメントより(11〜14)

内藤雅義弁護士からのコメント(11〜13)

11. 私自身、医療事件で、甲状腺の事件(穿刺吸引細胞診をしないままエコーのみで切除してしまい、甲状腺機能低下になった事件)を担当したこともあり、ご承知のことと思いますが、多数の微小潜在癌があることが認められました。リンク先の報告にあるように武部らの論文が掲載され、エコー後の穿刺吸引細胞診)による診断と、癌登録を基礎とする罹患率との間に大きな差があることは、広く認識されるようになりました。
また、その他微小癌については、5年10年後もそのままおおきくならないものもが圧倒的とされます。そして、アメリカのNCCNのガイドラインでは、超音波で10mm以下の結節については、そもそもFNAを実施しない、そして、15mm以下は、超音波で悪性が疑われるときみとされています。そして、甲状腺癌については、手術をすると、10mm以下でもかなりの率で転移がされているという報告がされています。そうすると、そもそも4年の先生の定義される甲状腺癌の潜伏期間は、少なくとも甲状腺癌の潜伏期間のこれまで集積されたデータと合わない、従って、外部比較をもってスクリーニング効果を否定できないと思いますが、如何でしょうか。

回答:内藤先生が「多数の微小潜在癌がある」根拠として示された論文を拝読しますと、剖検例や成人における観察のようです。それともこの論文の中には、未成年における観察が含まれているのでしょうか。私どもの論文や本回答等でお示ししてきましたように、これまでの報告では、甲状腺微小潜在癌の系統的な報告(すなわち症例報告ではなく発生率や有病割合が推定された報告)では、少なくとも  5mm程度以上や臨床的に検出されるものに関しましては、未成年においては非常に珍しいというものばかりです。eAppendixで引用しました Demidchik らの論文(2007)ではたくさんの論文が示されています。それらは決して「多数」という言葉で表現できるような頻度ではありません。
 私どもは、鈴木眞一教授などの福島県立医科大学グループから発表される症例報告を、つぶさに拝見することを続けてまいりました。さらに、県民健康調査の報告書やガイドライン等も参照させていただきました。その結果、問題とされるような過剰診断はほとんどありえないのではと判断いたしております。その詳細は、鈴木先生など福島県立医大の先生方から説明していただく方が良いと思いますので、ここでは省略させていただきます。そして私どもの論文とその eAppendix、岩波の月刊誌『科学』等で発表して参りましたように、外部比較、内部比較、チェルノブイリ等の先行論文・報告書等の内容から、スクリーニング効果だけではこの著しい多発をほとんど説明できないと結論づけております。
 しかし、医療事件の担当をされたご経験のある弁護士先生が、福島県立医科大学グループが手術不必要な微小がんを摘出している、すなわち医療事件の恐れがあると、もしご判断されるのであれば、私どもは、内藤先生をはじめ、法曹界や医学界の先生方を中心とした第三者グループが福島県立医大を外部調査されることをお止めすることができません。内藤先生にとってはお手数かも知れませんが、どうか、公正な外部調査が行われ、速やかに報告書が開示されることを期待致します。福島県立医大の先生方もまた、そのような、あらぬ「疑い」をかけられ福島県民の不信を被るより、報告書により「無実」が示される方を望まれると思います。

12. また、福島これまでのデータとチェルノブイリのデータとの最大の相違は、年齢が高いという点です。癌登録の罹患率等は、診断に行かないと出ない、むしろ、思春期に微小癌が現れるという説もあり(これもデータで出ないので分かりませんが)、先生の記者会見におけるチェルノブイリ指摘論文だけ(原著には記載がないようですが)で明らかに違うとは言えないと思います。いずれにしろ、成人でエコーから穿刺吸引細胞診という診断手順と罹患率との間には、かなりの差が出ており、18歳未満でも同じことが起こっているのではないかという気がしています。

回答:下記にまとめてお示ししますが、年齢に関しましては、事故後という点で福島県の 2011 年から 2014 年に相当するチェルノブイリ(ベラルーシ)の 1986 年から 1989 年のがん症例の年齢層は高く(Heidenreich 1999)、福島県の年齢層と酷似しています。また、ベラルーシ・ゴメリ州に限りましてもやはり酷似しています(山下 2000)。どうかデータをご確認下さい。先生のご見解は、「データで出ないので分かりませんが」であり、データ(科学的エビデンス)がないどころか、データに反するご見解ばかりです。外国特派員協会での記者発表で指摘させていただきました論文は、私どもの原著論文の eAppendix の eTable 1  (http://links.lww.com/EDE/A968)に示しております。原著論文と同様に、先行発表致しておりますので、ご参照下さい。お気持ちはお察し申し上げますが、科学的データに基づいて報告せねばならない私ども研究者としては、内藤先生がおっしゃるように「気がしています」というふうには論じることができないのです。

13. 危険をあおることが、家族崩壊を導くことは、ハンセン病訴訟で感じたことです。そして、家族崩壊が、様々な身体疾患を引き臆すデータもアメリカの疫学研究であると理解しています。これらについて、先生がどのようにお考えか、率直にお聞きしたいと思います。
日本でも、隈病院や有明のがんセンターなどでは、10mm以下は待つのが基本のようです。むしろ、福島では、本来必要もない手術を受けさせられているかもしれない(しかし、放射線をあびたのでやむを得ず、手術をしている)可能性はかなり高いと思っています。

回答:私どもは、決して危険を煽ってはいません。そんなことは公衆衛生関係者としてするべきではありません。そもそも根拠もなく危険を煽るような公衆衛生従事者などはいないでしょう。本来は、家庭崩壊などの重大な混乱が生じないように、できるだけ正確なリスクコミュニケーションと被災地の住民の方々への援助が必要であると思います。今回の件では、「100 mSv以下の被ばくでは被ばくによるがんが出ない、出たとしても検出不可能でわからない」という言い方に代表されますように、日本では海外とは異なる医学的に全く誤った情報に基づいてリスクコミュニケーションが行われていて不安をあおっているともいえます。私どもの論文も、リスクコミュニケーション再建の第一歩の一環としてご理解いただければ幸いです。特に本件のような甲状腺がんの問題では、明瞭な科学的な根拠があるのです。そして私どもは、実際に観察されているデータとその分析結果をお示しして、その妥当な考察を述べているだけです。これらは査読者を含め多数の内外の専門家によってチェックされています。
 この甲状腺がんの著しい多発は、2013 年 2 月 13 日発表のデータによりすでに予測できました。その後およそ 3 ヶ月毎に発表されるデータの分析結果は、その予測を裏付ける形でたどりました。信頼区間は狭まり、時に上方へと修正されていきました。これらの結果は、月刊『科学』に日本語で発表してきました。加えまして、1 年ごとに国際環境疫学会ISEEの総会において英文で発表し、世界の専門家からの批判も仰いできました。彼らの反応は、「重要な発表なので早く論文にして発表しなさい」というようなものです。共著者のみならず、多くの研究者のご意見を参考にして慎重にも慎重な対応をしてきて私どもが論文発表に至ったものです。これだけの時間的に長くそして慎重な検討を元に発表された多発を示す論文を、他にご存じでしたらご教示いただければ幸いです。そしてその結果は、過去の様々な疾患の多発の中でも際だって高い相対危険度を示し、原発事故との関連を示し、先行したチェルノブイリ周辺でのデータによって支持されるものでした。最初の 10 症例の発表から約 2 年半、日本語世界、英語世界でこれだけやり取りさせていただいても、定量的反論が出てこないのは、Sufficient evidence であると判断せざるを得ません。フィールド疫学からすると、十分過ぎます。3 度の国際学会発表等も含め、2 年半もやりとりをすることなど通常はあり得ないからです。
 このような結果を知り、そして慎重な検討も経ながら、「危険を煽る」というような理由で私どもが発表を控えたりすれば、この分野の研究者としての役割を果たさないだけでなく、「危険を知りながら隠蔽した」というような、公衆衛生関係者としては致命的な非難すら受けかねないと思います。この点は、必ずご理解を賜りますようお願い申し上げます。また加えまして、がんの患者さんが生じ、その手術のタイミングが遅れてしまうことによりそのご家族やご本人に増えるご負担もまた、想像していただければと存じます。
 内藤先生からのように、リスクを伝えることが不安をあおると言われてしまいますと、例えば、非常に厳しい警告を出して住民の避難までも勧告する天気予報などは、注意報・警報・あるいはそれ以上の厳しい情報を出すことは出来なくなります。天気予報にそのような危険を知らせることが許されるのは、科学的根拠に基づいているからです。私どもの論文発表等を通じた情報も、天気予報ほどの速報性には欠けるものの、そのような科学的根拠に基づいたものとしてご理解賜れば幸いです。

匿名の方、および parasite2006 さんのコメント

14. やはり結局,分母が違っていた,ということではないかと思うのですが。
こちらを津田先生にご紹介いただき,コメントを貰っていただけないでしょうか。(匿名氏)
あわせてこちらも。(parasite2006さん)

回答:このご質問の「分母が違っていた」という部分は、以下の 2 つの意味・解釈のうちのどちらを匿名氏が質問されたいのか分かりませんでした。1 つ目は、有病割合 P と発生率 I とが違うよというふうに質問がなされたという解釈です。これは、まさしく分母が(分母も)違いますが、あまりにも初歩的でしかも前回の回答でもお話したことですので、これはないだろう思っています。P≒I×D で、分母が「単位:なし」の有病割合 P と分母が「単位:時間分の1」の発生割合Iとが、違わないように揃えてあります。ご確認ください。
 もう 1 つの解釈としては、検診の1順目は、潜在がんが多く含まれるのを拾い出した有病割合 P なので、いくら上記のように P≒I×D で単位を補正していても、潜在がんを拾い出していない全国発生率 I と比較するのは違うのじゃないかというふうに質問を捉えることができるということです。これは分母の違いというよりも、拾い出しの方法の違いとか分子(潜在がんを含むか否か)の違いのほうが正確でしょうね。そして実は、この潜在がんという概念が、潜在しないがんも含めて、平均有病期間として D の中に入っているのです。潜在がんの割合が大きければ大きいほど D は大きくなります。ですから、P≒I×D の中に、潜在がんの話も入っているわけです。そして D をいくら大きくしても(100 年より大きくしても)、中通りの中地区では統計的有意差をもって多発しています。D の単位は時間で、I の単位は(1/時間)です。
 これまでも何度も述べさせていいただいてきたのですが、上記の点は、P≒I×D の式を用いて D を様々な値を与えて感度分析を行うことにより、補正できます。疫学理論をご存じない方にご理解いただくのに時間がかかると思いますが、平均有病期間 D の逆数は、病気が様々な理由で病気でなくなる速度(直るとかも含む)となります(単位 dimension が一致することから分かります)。従いまして、平均有病期間を数値として式の中に入れるということは、潜在がんの割合を式の中に入れているのと同じになります。違うのを放置しているのではなく、理論上合わせているのです。概念の世界で演繹ができる科学の特徴でもありますね。どうしても分母が同じようなもの(というよりむしろ拾い出しの方法の違いとか分子の違いがなさそうなもの)、すなわち超音波エコーによる未成年の検診結果でしたら、すでにお示ししましたようにチェルノブイリでの非曝露もしくは比較的低曝露の方たちを対象とした 47,000 名あまりのデータがあります。これではご不満でしょうか?これ以外のデータが必要でしたらご用意ください。
 URL でお示しいただいている 3 県調査(以下、「Hayashida 研究」というふうにも書いております)に関しましては、私どもの論文の Introduction においてレビューさせていただき引用文献も、表記の論文のうち論文執筆に間に合いました PLOS ONE の方をお示しして説明いたしております。また、この 3 県調査の結果は eTable 1 (http://links.lww.com/EDE/A968) にも載せております。しかしこの 3 県調査は、観察数が 4,365 人と、小児甲状腺がんの頻度を論じるにはあまりにも少なく、分散が大きすぎます。従いまして、この調査が与える情報は極めて少ないと言えます。このようなことは、科学研究者ならば誰もが知っておりますので、特に誰も問題にもしていないのは、観察数が 4,365 人 1 例であり、その有病割合の点推定値と区間推定値(100 万人あたり 229 人で 95%信頼区間は 100 万人あたり 6 人から 1,276 人です。これは D = 4 年の時ではもう年間 100 万人 3 人という発生率を十分に含んでしまいます)を私どもが示すだけで十分だからです。もちろん、専門誌の中で特にコメントを要するようなものではありません。
 分散が大きければ、推定する確率分布の幅がこのように拡がって誤差が大きくなるという知識は、今日では大学入試の出題範囲であり、従ってこれは高校数学の範囲内と言えます。またこのご質問やこの URL を示されているのは、人のデータで比較的珍しい事象を扱う際の基本分布であるポアソン分布もご存じないようなご質問です。ポアソン分布に従う事象が、どのように現実に現れて私たちがそれを認識するのかも、ご存じないようです。なお、この種の初歩的な統計的推論はご自分でなさっていただければ幸いです。私どもが皆さんに手取り足取りお教えするわけには行きませんので。
 なお、ご指摘になった http://thebreakthrough.org/index.php/issues/nuclear/nopetheres-no-thyroid-cancer-epidemic-in-fukushima の記事もまた、その後半に甲状腺がん 1 例を検出した Hayashida 研究を理由に、私どもの論文がそれに触れていないことや懐疑的な考え方を延々と書かれていますが、これもまた、どなたか専門家に尋ねられたのかどうかは分かりませんが、読んでいて気の毒なぐらいです。Hayashida 論文の内容が悪いといっているのではありません。Hayashida 論文は、4,365 人の子供たちの甲状腺をエコーで検診したら、福島県外の 3 県でも 1 例の甲状腺がんが発見されたということを示しているわけで、これ自体、他の症例報告でもあるように、ポアソン分布に従う現象としては不思議なことでもなんでもありません。これまで私は、英語圏の方は日本人より統計学をずっとよくご存じだと思っておりましたが、この記事のような見方も少し修正しなければならないのかとすら思っております。
 この匿名さんのような完全な第三者と思われる方は、「分母が違う、従って同じ分母を用意しなさい」と言い放つだけで、ただ分母が完全にそろったデータを待っておられるという態度でも許されるかもしれません。そして、そのような分母が完全にそろうようなことは、あり得ないということなどご存じではないからこそ、そのような冷やかしとも言える態度もまたおできになるのだと思います。しかし、一度きりの人生を生きる対象者にとっては(対象者だけでなく、実は誰もがそうなのですが)、そんなことは言っておれないのです。そのような非現実的で個人が思いついたお作法に従う必要はなく、テキストに示された科学的な推論に基づいて、因果関係を定量的に知りたいのです。問題となる因果関係がどうなのかを、科学的な方法に基づいて、できるだけ正確に知りたいわけです。この点においては、当然、健康問題に警告を発するのが仕事の 1 つである公衆衛生従事者も同じことになります。

*************

海外の研究者らによる指摘(14〜17)

14. 先行検査の最新データの表8によると、悪性ないし悪性疑いの割合は、2011 年度が 0.03%、2012 年度が 0.04%、2013 年度が 0.04%と安定しており、Jacob らが予測した有病割合とそんなに変わらない。

回答:前回の回答では、地域割りのご説明を致しました。そこでは、まず年度毎の地域(areas)割りをすることにより福島県内が 3 つに分割できることになります。この3地域割りを採用すべきだというご主張も、このご指摘の中に入っているようです。さて疫学では、できるだけ地域間の発生率や有病割合の違いを描出するために、地域割りをできるだけ細かくすることに越したことはありません。大雑把に分割していては、地域毎の疾患発生・検出の特徴を打ち消し合ってしまうからです。例えば、本件でいえば、市町村毎に有病割合を推定し、それを発生率に転換して発生率比を推定したり(外部比較)、有病割合から有病オッズ比を推定したり(内部比較)をする方が、3 つに大雑把に分割して推定するより、市町村毎に、よりたくさんの情報が得られます。しかしこれでは、人口の少ない町村においては、観察数が少なくなり、結果として分散が大きくなりすぎて、検証のために得られる情報が少なくなりすぎます。例えば、観察対象者数が 4,365 人と比較的少ない 3 県調査の結果なども、その典型例ですね。そこで、本件では、ある程度の人口規模を確保するために、市町村単位よりもう少し大規模な地区(districts)に分割しました。福島県の場合、3 つの比較的大きな人口を擁する市(福島市・郡山市・いわき市)がありますので、この 3 市を独立させますと(福島市だけはそれより以北の桑折町と国見町を含めました。この 2 町を独立させるには人口が少なすぎるからです)、論文のような福島県内の9地区への分割へと、だいたいどなたでも行き着くことができます。
 また、前回の回答でも触れましたように、福島県内では 2011 年 10 月ごろから超音波エコーを用いた甲状腺検診はスタートしました。2011 年度は避難地域も含む福島第一原子力発電所から最も近い地域の 18 歳以下の住民が検査対象となり、この年度末の 2012 年 3 月 31 日までに終了致しました。この対象者の方々は、事故から最大で1年程度以内で検診を受けられたことになります。2012 年度の検診は、2013 年 3 月 31 日までに終了しましたが、通常は中通りと呼ばれる福島第一原子力発電所から 50-80 km程度離れてはいるものの、やや空間線量率が高い地域の住民が対象となりました。この対象者の方々は、事故から最大で2年程度以内で検診を受けられたことになります。2013 年度の検診は、これまでの残りの地域の住民が検診を受けられ、2014 年 3 月 31 日までに終了しました。WHO (2012)は、この地域のほとんどを Least Contaminated Area と呼び、福島県内では比較的汚染が少なかった地域として分類しています。この地域の対象者の方々は、事故から最大で 3 年程度以内で検診を受けられたことになります。
 この検診を受けた時期を考慮しますと、論文で検証したい仮説、すなわち事故と甲状腺がんの発生との因果関係を検証する上で、5.1mmまで結節が成長する時間は、それぞれ、1 年、2 年、3 年と置くべきとなります。論文では、穿刺吸引細胞診で検出可能となり細胞診でがんと判断可能になる大きさに甲状腺がんが成長する時期から、手術もしくは臨床診断で甲状腺がんが発見されるであろう時期(下の図で③から④)まで、を latent duration として一律に 4 年を割り当てています。


図: 曝露によって生じたがんの成長における時系列;induction period、latent period、あるいは本研究での「latent duration」、 empirical induction timeの説明.
参照:Rothman KJ: Induction and latent period. Am J Epidemiol 1981;114:253-259.など

Induction period: ①から②.
本研究での「Latent duration」: ③から④.(注:論文では、「スクリーニングや細胞診でがんが検出可能になった時点」という曖昧な書き方でしたが、甲状腺がんが 5.1mm以上になる時点と書いた方が明確だったのではないかと今では考えています)
Latent period: ②から④.
甲状腺がんがエコー検診で検出できる期間:③から④.
Empirical induction time (induction period + latent period): ①から④(スクリーニングで検出されてしまった場合は①から③が Empirical induction time として認識).

  しかし、上に示したような検診時期を考慮に入れますと、一律 4 年の割り当てはやや大まかすぎます。少なくとも、検査年度で分けた3つの地域では、それぞれに時間的に傾斜を付ける方が、量-反応関係を見るという意味では、妥当と思われます。今、その傾斜を、2011 年度、2012 年度、2013 年度、でそれぞれ、1 年、2 年、3 年という割り当て方と、2 年、3 年、4 年という割り当て方をして、1 年ごとの傾斜をつけます。その結果を下記の表に示しました。そうしますと、推定された発生率比の値は決して福島県内での各地域相互において一定ではなく、量-反応関係すらはっきりと見えてきます。ちなみに Internal comparison もまた、症例数から分散を推定し、External comparison と同様に信頼区間が構築可能です。アメリカ疾病管理予防センターは、大人の甲状腺がんで 2.5 年、子どものがんでは 1 年を、最小潜伏期間として示していますので、検診による前倒しにより 1 年以内に甲状腺がんを検出しても、それほど驚くようなことではないでしょう。

(注:コメント14で言及されているJacob らの論文に関しては、末尾の「回答付記」を参照して下さい。2015年10月31日加筆)

15. 多発の発現には見えない。それに、放射線影響であるなら、なぜ、事故当時5歳以下だった人たちで甲状腺がんが見つかっていないのか?

回答:これまで説明してきましたように、福島県内での超音波エコーを用いた甲状腺検診で得られた甲状腺がんの検出割合は、はっきりとした多発を示しています。ところで、事故当時の年齢を見ますと、原子力発電所の事故から 4 年以内(チェルノブイリ原発事故では 1989 年まで)では、ベラルーシ・ゴメリ州のデータで、事故当時 5 歳以下は、1987 年から 1989 年まで(福島原発事故では 2012 年から 2014 年が相当)の甲状腺がん症例12例中 2 人(2 人とも 1989 年の症例で、事故当時 1 歳と 5 歳)だけです(山下 2000)。後で引用します Heidenreich らの論文(1999)の TABLE 2 のベラルーシ全体のデータでは、1987-1989 年の発症者数計 32 人中 4 人(1987 年 1 歳と 3 歳、1989 年 1 歳と 5 歳)です。福島県での事故当時の最低年齢は 6 歳ですので、分母と確率分布を考えますと十分に誤差の範囲内で説明できます。チェルノブイリにおいて、事故当時 5 歳以下で甲状腺がん症例が数多く見つかり出して目立ちだすのは 1990 年以降です。「放射線影響であるなら、事故当時5歳以下だった人たちで甲状腺がんが数多く見つかっているべき」という、根拠のないこのような誤った思い込みは、小児の甲状腺がんは事故後 4 年目以降に増加し始めるという誤った思い込みから生じています。さらに、福島県内では事故が起きたその年から、超音波エコーを用いた甲状腺検診が始まっていますので、事故後 4 年目以降に超音波エコーを用いた甲状腺検診が一部で始まったチェルノブイリ周辺とは異なり、甲状腺がんの発見が時間的に前倒しになっていることも考慮する必要があります。

参考文献
山下俊一 (2000):チェルノブイリ原発事故後の健康問題.In: 被爆体験を踏まえた我が国の役割-唯一の原子爆弾被災医科大学からの国際被ばく者医療協力-.平成12(2000)年2月29日、http://www.aec.go.jp/jicst/NC/tyoki/bunka5/siryo5/siryo42.htm 

16. この論文の著者らは、ホルミシス論者と同様に、教科書を書き換えようとしているだけだ。甲状腺がんの潜伏期間が1年以下で、5歳以下の子どもが放射線に対して一番強い耐性を持つ、と言わんばかりだ。

回答:科学研究者は、常に教科書の書き換えを狙って研究をし、論文を書きます。研究成果を出しそれに基づいた主張を全くしないホルミシス論者とは全く異なります。そして、教科書の大きな書き換えの必要性が根拠を持って示された論文ほど、高い評価を受けて、評判の良い医学雑誌に掲載されます。ちなみに、本件では超音波検診を受けていますので発見が前倒しになり、臨床発見や手術までの甲状腺がんの潜伏期間は、いずれの症例も1年を上回っている可能性は大きいです。また、「5歳以下の子どもが放射線に対して一番強い耐性を持つ」とは、チェルノブイリのデータでも、今回のデータでも読み取れないと思います。

17. 一番簡単な説明は、スクリーニングバイアスが起きているということであり、放射線影響は見られておらず、教科書を書き換える必要もない、と言うことだ。

回答:いわゆるスクリーニングによるバイアスは、起きているかもしれませんが、せいぜい全体の症例の中のわずかであることが、チェルノブイリのデータからも福島のデータからも見て取れます。スクリーニングバイアスだけで説明するのは、あまりにも無理があり、検証できる定量的根拠も全くありません。放射線影響は 2014 年末までに福島でのデータではっきりと見られています。今回の私どもの論文による教科書の書き換えは、せいぜいチェルノブイリのデータの裏付け程度ですので、必要はないと思います。


謝辞:
 最後に、様々なご指摘やご質問を賜りました皆様に感謝申し上げます。とりわけ、前回の回答集と今回の2回目の回答集を、ご自分のサイトで公開することに関しまして、ご快諾賜りました平沼百合先生に、心から感謝いたします。平沼先生には、私の雑な原稿の不備な点の指摘や誤字脱字のチェックなど、お手数のかかる作業もしていただきました。ありがとうございました。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

回答付記:Jacob らの論文 (2014) の内容について

 Jacobら (2014) のスクリーニング効果による甲状腺がん症例数の推定は、非汚染地区では超音波エコーによる甲状腺の検診で、13,127 人中 11.2 人(95%CI: 3.2人-22.5 人)の甲状腺がんが発見されるであろうという前提で書かれています。この値は、Tronkoらの論文 (2006) から得られています。さて、この11.2人という数字(検出割合で言うと、13,127 人中 11.2 人:100 万人中 853 人、95%信頼区間は 100 万人中 244 人- 1714 人)は、現時点において福島県内で観察されている超音波スクリーニングによる甲状腺がんの検出割合のいずれよりも高い数値です(私どもの論文の Table 2 の「Prevalence of Thyroid Cancer Cases per 106  (95% CI)」の項と見比べてみてください)。
 さて、この前提として用いられた高い数字はどのようにして得られたものか、引用元になった Tronko らの論文 (2006) を見てみました。Tronko らの論文は、ウクライナの最も重度に汚染された地域において、1998 年から 2000 年の間に、超音波エコーによる甲状腺検診を初めて受けた 13,127 人を分析対象としています。ここで、高濃度汚染地域の住民での甲状腺がん多発のデータからどうやって非汚染地区の甲状腺がん症例の人数を求めたかといいますと、対象者個々人の推定被ばく量を横軸に、甲状腺がんが見つかったかどうかを縦軸に位置づけて、ロジットモデルという曲線で線引きする方法(ロジスティック回帰分析とも言ったりします)を用いて、(小学校の頃は定規を当てて直線を引いたのですが)線をまず引きます。そして、この線を被ばく量ゼロまで延長して甲状腺がんが見つかる確率を推定したのです。推定値なので、人数に小数点下 1 桁まで数字が付いていて、しかも 95%信頼区間が付いています。従って、この数字が実際に非汚染地域の人数を数え上げた数字ではないことが分かります。ここで注意しておきたいのは、福島県の検診対象者と同じ事故時 18 歳以下のデータから線引きの延長で推定された数字とはいえ、事故から 12 年から 14 年後の非曝露者での甲状腺がん予測数を得ているわけです。
 しかし、このような方法で被ばく量ゼロの地域での予測数を求めるようなことは、絶対にするなとは言わないものの、通常はあまりしません。ましてや、このような方法で求められた被ばく量ゼロの地域での予測数を、曝露開始後の時期が全く異なり年齢も異なってきている集団にそのまま適用するような Jacob らのしたような方法を論文で実行する人はまずいらっしゃらないでしょう。今回のような失敗につながる可能性があることぐらいは、データを扱う研究者達は知っているからです。Jacob らは、数理モデルの意味を、おそらくほとんど理解されていないと思います。もちろん、数理モデルを少しでも知る人は、こんなことはしませんし、見抜くのも簡単です。ましてや、チェルノブイリでの被ばく量がほとんどない集団や地域での観察情報がある場合には、そちらの情報より重視されることなど、決してありません。しかもこれらのデータの中には、胎児となる前の母親の事故による被ばくは、出生後の発がんには影響を与えないというよく知られるチェルノブイリの知見の根拠となった論文もあります。
 一応、回帰モデルで被ばく量だけが補正されている単純なものとはいえ、チェルノブイリ事故から 12-14 年後にウクライナの高濃度地域で、Jacob らドイツの先生方によって得られたこんな数字を直接適用されたら、事故後 3 年後(Jacob らの論文が発表された 2014 年)の福島県の方たちにとってはちょっと気の毒です。前回の回答で表にしてお見せした、チェルノブイリ周辺での非曝露者もしくは比較的低線量地域での甲状腺検診において、計約 47,000 人から 1 人も甲状腺がんが見つからなかったということを示す 3 つの論文(Ito ら 1995、Shibata ら 2001、Demidchik ら 2007)は、Jacob らの論文 (2014) では 1 つも参考文献として挙げられていません。
 さらに、Jacob ら (2014) は、チェルノブイリ原子力発電所の事故後3年間は甲状腺がんの過剰発生がみられなかったことを Heidenreich ら (1999) の論文を根拠にして、福島県で論文の時点までに検診で発見された 44 例の甲状腺がん症例を、放射線とは関連しているとは仮定できないとしています。しかし、元になった Heidereich ら (1999) の論文を読んでも、曝露から(事故から)3年後までを最小潜伏期間とするという記述があるものの、なぜ 3 年以内の症例が事故によるものでないと言えるのかという理由は書いてありません。そして Heidereich ら (1999) の論文の Table 2 の年次別・年齢別のベラルーシにおける事故時 18 歳以下の甲状腺がん症例の発症数は、1987 年以降は  1986年に比べて毎年はっきりとした増加が見られるのです(もちろん統計的に有意です)。
 Jacob らの論文 (2014) は、結構難しげな数式(モデルと呼ばれます)がいくつも並んでいますので、何となく高尚に思えて信頼してしまう一方、熟読する気分にはなれなくなります。従って、中身をきちんと読まれた方は少ないでしょう。Jacob らの論文は実に大雑把なモデルに過ぎませんが、たとえいくら精密なモデルを構築して電子計算機で計算しても、Jacob らの論文のように前提が間違っていれば、その結果も間違っており、役に立ちません。従って、そのような間違った前提から得られた予測数と福島での値とを比較して「変わらない」と結論したところで、何の意味も無いわけです。Jacob らの論文は他にも指摘すべき点がありますが、このような単純な前提の間違いは、英語さえ分かれば誰にでも結構簡単に見つけられます。Jacob らは疫学研究者でいらっしゃらなさそうですが、前提がまちがっていることにも気づいておられないかのような論文です。モデルに頼る研究の落とし穴かもしれません。

参考文献
 Jacob P, Kaiser JC, and Ulanovsky A: Ultrasonography survey and thyroid cancer in the Fukushima Prefecture. Radiat Environ Biophys 2014; 53:391–401.
 Tronko MD, Howe GR, Bogdanova TI, Bouville AC, Epstein OV, Brill AB, Likhtarev IA, Fink DJ, Markov VV, Greenbaum E, Olijnyk VA, Masnyk IJ, Shpak VM, McConnell RJ, Tereshchenko VP, Robbins J, Zvinchuk OV, Zablotska LB, Hatch M, Luchyanov NK, Ron E, Thomas TL, Voilleque PG, and Beebe GW: A cohort study of thyroid cancer and other thyroid disease after the Chernobyl accident: Thyroid cancer in Ukraine detected during first screening. JNCI 2006; 98: 897-903.
 Heidenreich WF, Kenigsberg J, Jacob P, Buglova E, Goulko G, Paretzke HG, Demidchik EP, Golovneva A: Time trend of thyroid cancer incidence in Belarus after the Chernobyl accident. Rad Res 1999; 151: 617-625.










岡山大学チーム原著論文に対する医師らの指摘・批判への、津田敏秀氏による回答集


以下は、ある日本人医師たちから、岡山大学チームによる『Epidemiology』誌掲載の原著論文「Thyroid Cancer Detection by Ultrasound Among Residents Ages 18 Years and Younger in Fukushima, Japan: 2011 to 2014 」(日本語タイトル:2011年から2014年の間に福島県の18歳以下の県民から超音波エコーにより検出された甲状腺がん)に関して、津田氏に寄せられた批判や意見と、それに対する津田氏の回答集である。掲載は、津田氏の許可を得ている。

論文へのリンクはこちら
この回答集のPDFは、以下に埋め込んであるが、こちらからダウンロード可能。
論文発表時の記者会見関連記事はこちら




2015年10月19日                            

 日本人医師の方々から、論文に関して貴重なご指摘・ご批判を受け取りましたので、お答えさせていただきます。


 この回答集でお答えしたご指摘・ご批判は、太字で表示し、通し番号をつけさせていただきました。なお、回答中で使われている「EBM」とは、Evidence Based Medicine の略で、日本語では「科学的根拠に基づいた医学」とされます。EBMは、もともと Science Based Medicine というネーミングだったようです。この場合、科学的根拠とは、人を観察し人単位で分析された結果もしくはそれを記載した論文ということになります。つまり疫学方法論で分析された結果もしくはそれを記載した論文です。

 まず最初に、医師によるブログ記事2つを取り上げさせていただきます。


ブログ記事1(リンク:http://drmagician.exblog.jp/23772300/) 

1. この論文を見ると,まずethicsに関する記載がありませんのでこの時点で論外で,「はたして倫理委員会をちゃんと通して論文を書いたのだろうか?」という疑問があります(Epidemiology誌では記載が求められるはずですが査読でなぜひっかからなかったんでしょうね?).

回答:論文中に書いてありますので、ご確認ください。今日、医学論文は研究倫理に関する記述がなければなかなか掲載してもらえません。論文中に書いてある論文も結構あります。

2. そこは置いといて,中身を見ると,年齢調整がなされていない,

回答:全人口集団を対象にしていますので、全人口集団と比較する場合には、年齢調整をする必要はありません。年齢調整をしてもほとんど推定値は動きません。後注に書いた、操作変数IVを考えれば、もう年齢調整がなされているとも言えます。(非巡回有向グラフ Directed Acyclic Graph: 略称 DAGも添えて交絡成立の条件を書いておきます:段落末の説明をご覧ください。)年齢調整をする理由は、年齢が交絡要因として成立して交絡バイアスを引き起こしている可能性が高いからです。そうでない場合は調整してもデメリットすら出てきます。交絡要因が成立する条件は、以下の3つの条件が同時に成立している必要があります(Rothman 2008)。このような条件は書き方が微妙に異なっても、疫学入門の教科書においても必ずと言っていいほど記載されています(私が十年以上前に書いた『市民のための疫学入門-医学ニュースから環境裁判まで』にももちろん書いております)。繰り返しますが、いずれの条件も「ねばならない」か「あってはならない」(英語で言うと「must」もしくは「must not」)で終わっており、条件は「and」で繋がれています。ご理解いただきやすいように、図(DAG)でもお示しします。ちなみに、非巡回有向グラフDAGとは、因果関係を示すモデルの1つで、誰もが従来使っていた矢印図に、少しだけルールを付け加えたような図です。たとえそのルールを全く知らなくても、どんな因果関係があるのか良く把握することができます。

条件① ある交絡要因は、問題となっている病気に関して、外的なリスク要因でなければならない。
A confounding factor must be an extraneous risk factor for the disease.
条件② ある交絡要因は、問題となっている曝露と、研究対象の母集団(症例が生じてきたリスク状態の人口)において関連していなければならない。
A confounding factor must be associated with the exposure under study in the source population (the population at risk from which the cases are derived)
条件③ ある交絡要因は問題となっている曝露もしくは問題となっている病気によって影響を受けてはならない。特に、その交絡要因は、その曝露とその病気の間の因果経路において中間段階になることはできない。
A confounding factor must not be affected by the exposure or the disease. In particular, it cannot be an intermediate step in the causal path between the exposure ant the disease.

Rothman KJ, Greenland S, Lash TL: Chap. 9. Validity in Epidemiologic Studies. In: Rothman KJ, Greenland S, Lash TL eds. Modern Epidemiology. 3rd ed. Lippincott Williams &Wilkins, Philadelphia, 2008, pp. 128-147.



図:交絡要因成立のための3条件を説明する図.図中の①、②、③は、文中の①、②、③に対応している.

 今回の私どもの論文のデータでは年齢という変数は曝露とあまり関係しておらず、条件②を満たしていません。従って、年齢はこのデータで交絡要因として成立しにくく、たとえ少しでも交絡バイアスが働いているとしても、その影響はわずかです。このような考察の際には定量的な評価という科学の特徴の1つが生きてきますね。
 このデータでの年齢調整を要求される方は、このような交絡バイアス成立の簡単な条件のことをご存じない方です。さらに、年齢調整の前と後の推定値を比べたこともない方、つまり、具体的データで年齢調整をした経験のない方です。このような大きな影響の推定値を消したりするようなものではないからです。調整しても、点推定値は少ししか動かず、分散が少し大きくなるだけの効果しかないであろうことをもし経験しておられたら、大体わかるわけですから。疫学者はこのような分析を何度もやってきていますので、このような全人口集団を対象とした研究において取るに足らないことだと知っているのです。
 
3. 放射線量がより低い会津地方をベースにしていない,

回答:項目番号16に詳しく書いておりますし論文にも書いていますが、会津地方、特に人口集積地のあたりの放射線量がより低い地域という保証はないのです。会津地方の「放射線量がより低い」とは根拠は実はあまりありません、そもそも、放射性ヨウ素と空間線量の区別がついておられるでしょうか?

4. 多重比較になってしまっている等いろいろな統計解析上の問題が見えます.どんな論文にもなんらかの瑕疵があるとはいえちょっとこの解析はさすがにないんじゃないでしょうか.

回答:『Epidemiology』誌は、そもそも「統計的有意(statistically significance)」という言葉を避けるべきと念を押す医学雑誌です。疫学理論に厳しい医学雑誌です。先生が多重比較に言及されるのは検定(統計的有意性)のことを念頭に置いておられるようです。ちなみに推定する以上、点推定値と区間推定値(本論文では95%信頼区間)を書いて、確率分布の概要を示す必要があります。

5. External comparison においては国立がんセンターのデータを震災前のデータとして比較を行っており,結果は「甲状腺癌が震災前データの30倍」というもので,この数字がネットで多数流れています.この程度ならスクリーニング検査バイアスの可能性が高いと思われます.しかしなぜか津田先生は「30倍という数字はスクリーニングバイアスや誤差では説明できない」と述べておられ,その一方でなぜそう言えるのかについて根拠を示していません.この津田先生の比較のやり方を用いれば,平成24年から行われた甲状腺結節性疾患追跡調査事業結果と比較すると,青森県・山梨県・長崎県でも甲状腺癌発症率は70倍近くになってしまいます(極端な比較ではありますが).

回答:青森県・山梨県・長崎県では、4,365人が検診され1人しか甲状腺がんが見つかっていません。統計的推論 statistical inference をお願いします。10人見つかった調査結果と、1人しか見つからなかった調査結果とでは、割合は同じでも分散は同じでしょうか?それにどこをどう比較しても、分散を無視して点推定値だけでも、青森県・山梨県・長崎県の甲状腺癌発症率は70倍近くにはなりません。それに、青森県・山梨県・長崎県のデータは、スクリーニングの結果ですので、発症率ではなく、有病割合です。

6. また,昨年の the New England Journal of Medicine で,甲状腺癌のスクリーニング検査を行うだけで 30倍程度は簡単にいってしまうことが報告されています.これらから考えてもなぜあのような考察の表現になるのかおおいに疑問です.

回答:韓国の甲状腺がんに増加に関する論文(Ahn HS et al.: Korea's Thyroid-Cancer "Epidemic"--Screening and Overdiagnosis. N Engl J Med 2014; 371: 1765-7)でしょうか?論文には、15倍と書いてあります。研究倫理の話もそうでしたが、臨床で毎日お忙しいかもしれませんが、もう少し丁寧に論文をお読みいただければ幸いです。

7. この論文データから結論を得ることはできません.統計解析手法の不備を無視したとしても,多いとも多くないとも言えないはずの結果です.しかし,この論文の考察や結論は甲状腺癌増加ありきのかなりバイアスがかかった表現になっています.まあここまでは,ニュース等で震災後の津田先生の発言や考えを知っていれば想定の範囲内とも言えますし,私も「ああまたか」程度に思っていましたが.

回答:論文中に引用しています WHOの健康リスクアセスメント報告書(2013)もまた、甲状腺がんの増加をはっきりと示しています。元々、多くの専門家は甲状腺がんが福島県で増加すると予想していたと思います。それが実際に増加してきたということを示しただけの論文です。「○○の病気がこの程度増加するのでは?」と報告書に書いた専門家は、どんなに多発してその証拠を示しても、かなりのバイアスがかかっていると根拠もなく判断され、「ああまたか」になるのでしょうか?ちなみに、私は予測を文字にはしておらず、多発が見えてきた段階から岩波書店の月刊誌『科学』に医学的根拠と共に書き始めております。『科学』の2013年5月号です。それから約3ヶ月毎にデータや引用文献を元に『科学』に書いております。

ブログ記事2(リンク:http://georgebest1969.typepad.jp/blog/2015/10/福島で甲状腺がんが増えているという論文の考察.html

 このブログ記事で、20-50 倍という発生率比が論文で示され、それは福島県が公開したデータから、標準的な疫学分析方法で誰にでも推定できるにもかかわらず、何のエビデンスも示さずに、「この論文を持って福島で震災後甲状腺がんが増えた、という結論をつけるのは難しいと考えます」とブログの先生が結論づけておられます。(項目番号89でその内容を引用し、お答え致します。)
 私も長年、相当数の論文や、因果判断がなされた政策決定を数多く見てきました。しかし、18歳以下人口(論文の締めでは3歳から22歳人口)のほぼ全員をカバーされて得たデータを用いて標準的手法で推定された発生率比等の影響の指標が、20-50倍と大きな倍率で観察されているのに、何のエビデンスも提示せずに「結論をつけるのは難しいと考えます」と強引に結論づけた因果推論を、今回は初めて私は見ることになりました。そもそも、20-50倍が観察されること自体がまれなのですが。
 実際の因果判断ではありがちなのですが、政策決定に結びつく因果判断を自分自身で決定した経験のない医師や行政の方々は、しばしば因果判断を無用に先延ばしします。『医学と仮説-原因と結果の科学を考える』(岩波科学ライブラリー)に書きましたように、そのような事件が日本では歴史上繰り返され、そして無用に被害を拡大させてきました。そのような事件を見るにつけ、多くの皆さんが、因果判断をしない理由を、エビデンスもないのに一生懸命あげつらっておられるように私には見えます。
 公衆衛生の分野では、「sufficient evidence」 という言い方があります。現在進行形の状況で、これからもデータは集まり続けるが、現段階において、因果判断をしたり対策を考えたりする上において、十分な根拠があり、その根拠は対策の必要性を十分に示しているという時に用いる言い方です。これは、現時点で様々な対策を実行していかないと、被害が拡がってしまうことが避けがたいときに使われます。こういう言葉が使われてきた時に示されていた影響の指標(オッズ比や発生率比、リスク比などの○○倍という数字)を遥かに上回る値が、本件で示されている以上、本件もまた、「sufficient evidence」 があり、因果判断をして対策へと進み始める必要があります。対策がなされずに無為に経過する時間の進行もまた、被害が拡がる重要な原因なのですから。

8. さて、海外のメディアは、この論文の「キモ」として、福島で震災後に甲状腺がんが20~50倍増えている、ことを強調しているようです。例えばNYT
http://www.nytimes.com/aponline/2015/10/08/world/asia/ap-as-japan-nuclear-childrens-cancer.html?mwrsm=Email&_r=1
しかし、これはこの論文で行われている Internal comparison と External comparison の後者のほうで、比較する対象は日本国立がんセンターの2001-08年のデータです。当然、スクリーニングのバイアスがかかっていると見るべきです。論文では「However, the magnitude of the irrs was too large to be explained only by this bias」とありますが、なぜそういえるのか根拠は明示されていません。2回やっているスクリーニングについても、this result cannot be explained by the screening effect because most occult thyroid cancer cases would have been harvested in the first round screening. と書いていますが、やはり外的な比較とのバイアスの生じる余地については克服できていないと思います。

回答:スクリーニングのバイアス(一般にはスクリーニング効果と呼ばれています、今回の問題では、一部では過剰診断によるバイアスとも呼ばれていますが)の影響が定量的に示されている論文を、ぜひご教示ください。すなわち、20-50 倍の影響の推定値の上昇をカバーしてしまうような論文です。そうでないと EBM的な意見ではありませんね。以下の3論文などは、チェルノブイリ周辺で行われた、非曝露集団もしくは比較的低汚染地域での甲状腺がんエコー検診の結果です。論文の eAppendixhttp://links.lww.com/EDE/A968)の eTable1 にも示しています。これらの論文の対象者には甲状腺エコーによるスクリーニングがおこなわれていますので、これらの結果にはスクリーニング効果も含まれています。非曝露あるいは比較的低曝露の地域でのスクリーニング結果を示す論文が他にありましたらご教示いただければ幸いです。また、他のがんを含めて、20-50 倍というような大きなスクリーニング効果が示された論文をご教示賜れば幸いです。


表:非曝露あるいは比較的低曝露の地域での甲状腺スクリーニングの結果


 なお、これらの研究が行われた当時の超音波エコーと現在の超音波エコーの性能の違いで福島県での結果とこれらの研究の結果の違いを指摘する意見もありますが、2次検査に回される 5 mm の結節を検出するという点においては、超音波エコーの性能の違いでは全く説明できません。私は、1980年代後半、臨床医として 2000 例ぐらいの腹部エコーをこなしてきましたが、当時の研修医や医師、臨床検査技師達の腹部エコーを習熟する上での最初の目標は、正常膵管の内径を描出することでした。正常膵管の内径は、1~2 mm 程度です。従って、当時のエコーは誰もがそれを描出する能力を、すでに十分に持っていました。エコーの検出能力が飛躍的に進歩したのは、1980年代前半と思われます。
 また、論文や福島県・福島県立医大の発表にも書いてありますように、手術された甲状腺がんのリンパ節転移の割合は、発表毎に 75%前後で推移しています。それは通常予想されるリンパ節転移の割合より大きなものだそうです。浸潤や遠隔転移なども決して少なくないと思っています。ご家族もしくはご本人の希望によりおこなわれた 3例を除いては、手術は経過観察の中で必要に応じておこなわれたものと発表されています。これらもまた、スクリーニング効果で多発の大部分を説明してしまうことの限界があります。

9. さらに、放射線曝露の程度に差があると想定される(この想定はざっくり、ですが)、福島県内の比較(Internal comparison)、こちらはスクリーニングが徹底しており比較的バイアスのリスクが低いのですが、有意差は出ていません。Least contaminated area を reference にしていますが、1番近いところでも差が出ていない。ただし、測定年が各コンパートメント異なるので、そこは議論の余地があると思います。

回答:有意差がないことと影響がないこととは異なります。統計的有意差の有無は大きな問題ではありません。これは疫学理論のテキスト(『Modern Epidemiology』)や国際医学誌編集者会議 ICMJE でも statistics(統計学)の中で明確に警告が発せられています。
http://www.icmje.org/recommendations/browse/manuscript-preparation/preparing-for-submission.html 
すでに書きましたように測定年の異なりを補正すれば、よりはっきりと地域の違いが見えてきます。

(ネットで流布するこのような疫学入門の必須項目もご存じない方々の指摘のお陰で、私は入門テキストを作るくらいの説明を打ち込むことができました。のちのち、テキストを作りやすくなります。ありがとうございました。)

********************************************************


ここからは、他の医師の方たちから間接的に、あるいは直接に寄せられたご指摘やご質問です。

10. Abstractの Results/Conclusion が、(著者の結論をサポートする)恣意的なデータのみを元に構成されているように思えます。

回答:この論文あるいはこの論文の著者(すなわち私ども)をサポートしない、あるいは反駁・反証する論文やデータが見当たらないのです。何も恣意的なデータのみを下に校正したわけではありません。あったら Introduction の部分にレビューします。探して見当たらないのです。あれば教えていただきたいのです。私どもも、参考文献数や字数制限内で載せられなかったのですが、参考文献以外もたくさん探しました。ほぼ全部を網羅して読んだつもりです。そして見つからなかったのです。あれば、ご教示いただければ幸いです。根拠もないのに他にもデータがあるかのように書かれるのは EBM的ではありません。


11.Dose-Response Relationship が見られません。

Dose-Response(量反応)も論文の考察の中に若干触れておりますが、実は、量反応関係がこのデータにはあるのです。平成23年度、平成24年度、平成25年度の地域(area)は、それぞれ潜伏期間が、1年、2年、3年ですが、論文の中では一律に4年を与えています。この潜伏期間のずれをそれぞれの地域で補正すれば、はっきりと見えてきます。これは私が表やグラフ等でお示ししてもいいですが、論文で示された推定値にそれぞれ、4、2、3分の4をかければ、誰にでも計算できてすぐに得ることができますので、どうぞ計算してみてください。


12. 事故後4年間は放射線影響が出ないという仮定でスクリーニングの一巡目をベースラインとみなすという前提だと理解していますが、この論文の結果を受けても、一巡目をベースラインと呼べるのでしょうか。

回答:チェルノブイリ原発事故後は、事故の次の年において、甲状腺がんの有意な多発が観察され、そしてその多発は徐々に大きくなりました。なお、チェルノブイリでは最初に甲状腺エコースクリーニングが行われたのは 1990年のようですので、この時は、甲状腺エコースクリーニングは行われていませんでした。そしてチェルノブイリでは、4年目や5年目に一気に多発の程度が大きくなりました。これを確認しておけば、事故半年後から3年後にかけて行った甲状腺エコースクリーニングの結果を、ベースラインと呼ぶことはなかったと思います。そしてその結果も、予想されたよりも著しい多発が得られ、ベースラインという呼び方が不適切であったことが確認されました。

13.Analysis内で、IRR(発生率比)を計算する過程で、 “we divided the prevalence by the latent duration of disease”と説明されています。ここでは、「P=I x D」(有病率=発生率x有病期間)の式を使われたと思いますが、なぜ「D=4年」とされたのですか?また、「latent duration」と、Discussionで出てくる「empirical induction time」の違いを教えてください。

回答:スクリーニングから得られる有病割合(P:単位はなし)と全国発生率から得られる発生率(I:単位は時間分の1)とを直接比較するためには、何らかの D(単位は時間)を当てはめねば、単位が合わないので比較ができないわけです。高校の時の物理学の問題を解く際には、単位 dimension を合わすというのは問題を解く際のヒントになりましたね。そしてここでは単位を合わせるのは簡単で、単に時間を掛け合わすだけで良いのです。しかし、どんなD(時間)を当てはめてもいいわけですが、現実の人間を考えた場合、Dは50年以下ぐらいにしないといけないわけです。そして、50年以下のどの有理数を割り当てても、似たような結論、すなわち福島県内で甲状腺がんが有意に多発しているということになります。中通りの中地区では、D=100年を与えても、統計的に有意な関連を見いだすことができます。
 ただ、「事故による甲状腺がん発生に与える影響の定量的評価」という、この論文の主たる目的を達成するためには、この数字は、一巡目のデータには、3年10ヶ月以下である必要があります。
 同様に、2巡目のデータに D=3年を論文では与えていますが、これは2年前後でなければなりません。しかも、1巡目と同じ様に「latent duration」を与えてはならず、何らかの違う単語(時間を表す)を与えて1巡目の「latent duration」とは区別しなければなりません。これは、論文公開後、ある先生に指摘されて気づいた次第です。私は、1巡目は4年、2巡目は3年と、切れの良い長めの時間を与えてきましたが、少々反省しています。特に2巡目は、個別データがあれば観察しようと思えば観察できますので、もう少し短めを与えるべきだったと思います。より短いDを与えますと、その分、影響の指標は大きくなります。つまり推定される多発の程度は、より大きなものとなるわけです。


図: 曝露によって生じたがんの成長における時系列;induction period、latent period、あるいは本研究での「latent duration」、 empirical induction timeの説明.(参照:Rothman KJ: Induction and latent period. Am J Epidemiol 1981;114:253-259.など)

Induction period: ①から②.
本研究での「Latent duration」: ③から④.(注:論文では、「スクリーニングや細胞診でがんが検出可能になった時点」という曖昧な書き方でしたが、甲状腺がんが5.1mm以上になる時点と書いた方が明確だったのではないかと今では考えています)
Latent period: ②から④.
甲状腺がんがエコー検診で検出できる期間:③から④.
Empirical induction time (induction period + latent period): ①から④(スクリーニングで検出されてしまった場合は①から③が Empirical induction timeとして認識).

14.Methodology や論理の展開に一見して問題が多くあり、精密さや客観性に欠けています。

回答:この点は、調査対象者個々のデータに入手できていないので、不十分な点もありますが、この論文の研究目的を達成する分には精密さは十分と思われます。そもそも、この論文は、専門家 3人から査読チェックを受けましたので、一応、精密さや客観性に関して不十分と思われたとしても、それはクリアーされていると思っていただけますでしょうか?そうではないと考えられたとしたら、具体的に理由をお知らせいただければ幸いです。もし以下の諸項目が、精密さや客観性の具体的指摘でしたら、以下に書きました理由でクリアーできていると思われます。


15.Multiple Comparisonの補正がされていません。

回答:これは、この場合にあまり問題にならないと思いますし、このような補正などをしている論文はあまり見かけないないと思います。特に、この論文で示している信頼区間(つまり Multiple Comparison の弊害である検定判断の判断判断材料)の数自体はそんなに数多くはないです。そして、そもそも Multiple Comparison の問題はこの論文では生じないと思います。Multiple Comparison の問題が偶然により生じるよりずっと多くの有意差が出ているからです。そして、そもそも私たちが知りたいのは定量的推定値、すなわち点推定値と区間推定値の高さ(指標の大きさ magnitude of effect)が問題ですので、有意差の問題ではないのです。点推定値と区間推定値は、分析によって得られた確率分布を簡略化して示しているだけで、有意差の有無を示すために示しているわけではありません。それゆえに『Epidemiology』という雑誌は疫学理論に厳しい専門誌ですので、統計的有意差(statistically significant)という単語を使わないようにということまで要求しています。点推定値と区間推定値が示す確率分布の考え方と、有意差検定のみの結果で論じる弊害をもう少し習得していただければ幸いです。特に、後者は後述しますように、医学雑誌に論文を投稿する際にも重要な問題ですので、習得されていた方が良いと思います。

16. Reference 地域の選び方が恣意的に見えます。(Least Contaminated の中で、もっとも Incidence が低いところを Reference に選んだように読めるのです。)

回答:あのように地域分けをしました経緯を簡単に説明します。地域分けをすることにより、分散をある程度安定させるという目的のもと、平成23年度、平成24年度、平成25年度を分離して、そして福島市、郡山市、大都市を独立させると、だいたいはあのわけ方になると思います。そして、放射性プルームの流れの分布を見ると、あそこを対照地域にしたくなります。要するに地域の分け方や選び方には私の恣意と言えるようなものはほとんど入っておらず、あそこを対照地域にした根拠も明らかです。例えば、群馬大学の早川教授が作成したプルーム分布の推定図(http://kipuka.blog70.fc2.com/blog-entry-535.htmlに掲載のマップ裏面)ですが、対照地域には比較的プルームが流れていないのが分かります。またこの図では、会津地方には、会津若松市などの人口集積地である会津盆地にプルームが流れているのも分かります。なお、早川教授と私は何の関係もなく、この図も私の研究が始まる前に作成されました。早川教授は火山学がご専門で私とは専門が異なりますが、むしろ私の研究結果に批判的でいらっしゃるようです。

17. External Comparisonが、Internal Comparison で有意な結果が出なかったため、取ってつけたように読めます。(Introduction や Methods を読むに、Internal Comparison が予定された主な解析方法だったと推察されます。)

回答:実は External comparison の結果が論文のメインなんです。External comparison から読者が計算できますので、Internal comparison の結果は付け足しみたいなものです。環境疫学や職業病の疫学では、External comparison と Internal comparison の両方を示した論文を時々見かけます。それぞれに互いに相反する長所と短所があるからです。その長所と短所をご存じでしたら、事故後の放射性物質の放出による甲状腺がん発生に対する影響を定量的に把握するというふうに論文の研究目的を設定していることを考慮していただいた場合、External comparison を重視する理由がご理解いただけるのではないかと思います。論文では、この点の考察にも結構字数を割いていますが、これがなぜか多くの日本人の方々にご理解いただけていないみたいです。もちろん専門家相手の雑誌ですのであまりに教科書的なことを詳しくは書かず短い文章で指摘しているだけなので読み取っていただけなかったのかもしれませんし、それでしたら致し方ないと思います。しかしなぜ、論文を批判される方々が Internal comparison にしか興味を持たれないのか、私は本当に不思議です。

18.甲状腺がん(特に乳頭がん)は Detection Bias が非常に大きいです。

回答:Detection Biasと呼ばれる現象によると思われる発生率上昇の可能性の件は、論文の中で分析していますし、考察もしています。それが読み取っていただけていないようです。Detection Biasと呼ばれているのは、潜在しているがんが多いということのようですが、これは大人の甲状腺がんの話です。すでに示しましたように、あるいは論文の中でも示しましたように、小児から青少年に関しましては、エコー検診をやっても甲状腺がんはほとんど見つかっていないのです。根拠と反することをおっしゃるのは、EBM的ではありませんね。


19. 甲状腺がんの成長速度を考えると、一巡目で見つかったがんが被ばくによる「initiation (イニシエーション)」の結果だとは考えにくいと思えます。がんが見つかった人たちの約半数は事故当時10代後半でした。これは、事故前から存在していた潜在がんが、放射線による「promotion(プロモーション)」によって成長したのではないでしょうか。もしそうであれば、放射線誘発性がんと呼べますか?

回答:下記の Rothmanによる入門テキストの記載をご覧ください。Initiator も Promoter  も同じ発がん物質であることが分かります。従来の Initiator と Promoter という区別は、実験医学の考え方に基づき実験室というコントロール下で、区別できていると勘違をされているに過ぎません。実際に社会で生きる人間の発がんにおいて、Initiator が Promoter ではない保証はどこにもありません。Initiator と表現されている発がん物質の原因曝露は、注目できている原因のうち最も時間的に先行している原因(構成原因 component cause)の曝露に過ぎないわけです。Initiator が Initiator なのか、それとも Promoter なのか、私たちが観察する上で区別が付かない以上、Initiator か Promoter かを論じたところで意味はないことになります。つまり、認識できるもので何が論じられるのかという科学の対象外ということになります。このような区別は、現代医学の考え方をご存じない、古い医学に基づいた質問ですね。

"Rothman KJ: Epidemiology: An Introduction. 2nd ed. Oxford University Press, New York, 2012, pp.28-29"より。

 発がん現象において、イニシエーター(initiator)とプロモーター(promoter)は因果メカニズムにおいて使われる用語で、それぞれ初期と後期に作用するがんの構成原因(component causes)を指す。がん自体は、しばしば、誘導時間(induction time)が長い疾病プロセスであると考えられてきたが、これは誤解である。プロモーター(promoter)のように因果プロセスの後期に作用する構成原因の誘導時間は短いとされ、最後の構成原因(例えば、先の、突風による大腿骨骨頭骨折の例)の誘導時間は常にゼロとなる。これは、最後の構成原因の作用後に、疾病が起こるからである。しかしその時点で、疾病の存在が必ずしも明らかなわけではない。大腿骨骨頭骨折はすぐに明らかになるかもしれないが、発生したばかりのがんは、かなりの時間が経たないと、気づかれたり診断されたりしないかもしれない。疾病の発生と、その後、疾病が医学的検査や症状発現により検出されるまでの経過時間は、潜伏期間(latent period)と呼ばれる。潜伏期間の長さは、疾病の検出方法の改善により、短くすることができる。しかし、誘導期間 (induction period)は、疾病の早期検出によって短くできない。これはなぜかというと、誘導期間が終了するまでは検出すべき疾病が存在しないからである。現実的には、疾病がもっと後にならないと検出されないのであれば、疾病プロセスがいつ始まったのかを確定できないため、誘導期間(induction period)と潜伏期間(latent period)の区別をつけることは困難かもしれない。成長の遅いがんのような疾病が、多くの原因に関して長い誘導期間を持つように見えるのは、潜伏期間が長いためである。 

20. 統計解析手法にかなり注意すべき点が多数ある論文かと思われます。疫学者としての津田先生がこのような統計解析手法を行っているとなると,誠に言いづらいことではありますが執筆者のバイアスが相当かかっていると考えざるを得ません(あの震災後の津田先生のお考え等はニュース等で報道されており、ある程度は存じております)。

回答:この論文で用いている統計解析手法は、極めて基本的で教科書的でシンプルな統計解析手法です。「執筆者のバイアス」という言葉で、何を意味されているのかは分かりませんが、どなたがやっても同じデータならば基本的な統計解析手法ですので、お互い計算間違いがなければ同じ結果に至ります。ちなみに、「執筆者バイアス」という用語は疫学テキストには載っていません。そして標準的なテキストでは、バイアスとは推定値、特にオッズ比や発生率比に系統的誤差が及ぼされることおよび、その要因として使われ、原著論文では主に、選択バイアス、情報バイアス、交絡バイアスに分類されます。「執筆者バイアス」というのは、これらのいずれに属しているバイアスなのでしょうか?テキストに載っていない用語を独自に使って説明される理由は何でしょうか?執筆者バイアスはどうやって定量的に示されるのでしょう?これではEBM的ではありません。

21. この論文の主旨は、スクリーニング活動の outcome とそのことが持つ implication を示すことにあると思います。External comparison の対象も国立がんセンターのもの以外により適したものがないのですから、妥当な判断ではないでしょうか。この手の大規模長時間を要する調査では、有意差が出ていないので意味のないデータであると解釈するのはむしろ危険です。

回答:補足ですが、External comparison の対照とする非被ばく者における小児甲状腺がんの発生頻度は、国立がんセンターのもの以外の論文やテキストでいくらでも見つかります。ハリソン内科学書第 18版にも載っています。18歳以下の甲状腺がんの発生率は、年間1,000,000人に3人とするのはやや高めなくらいです。年間1,000,000人に 6人とか 10人とかというレベルすらみつかりませんでした。ましてや 30人や 100人というような記載は成人ではともかくも若年者や 20代前半ではないと思います。それぐらいはっきりしているのです。

22. 「4年という短期間でのスクリーニングで当然バイアスがあるにしろ 30倍は高いと思います」というのが Discussion 内容で、さらなる調査の必要性を示した論文としてよくまとまっていると思いました。”(...) the observed excess alerts us to prepare for more potential cases within a few years. Furthermore, we could infer a possibility that exposure doses for residents were higher than the official report or the dose estimation by the World Health Organization, because the number of thyroid cancer cases grew faster than predicted in the World Health Organization’s health assessment report”
海外のメディアのとらえ方も、これら多面的な要素を盛り込んだ、割とフェアな内容が多いです。

回答:日本人に褒めていただくと、何か不思議な気分です。この研究は、2013年8月のスイス・バーゼルの国際環境疫学会 ISEE(International Society for Environmental Epidemiology)、2014年のアメリカ・シアトルでの ISEE、2015年のブラジル・サンパウロでの ISEE で発表してきました。海外の疫学の研究者とは、この 2年間以上、いろいろな意見を交換してきました。今回の論文も、海外の研究者から重要な研究なので早く論文にしろと言われて、今年に入って書き出して投稿し、そして受理されたものです。ISEE に参加している数少ない日本人研究者も学会発表を興味深く見てくださいました。それなのに、日本国内でのネットなどからの反応は、特に医学的根拠のないものばかりでしたが、批判が多かったのです。しかし、批判が多いということは、論文にした価値がそれだけあるということで、それもまた私どもの励みになります。


23. 津田医師自身は、福島県が公開している情報に基づいて自分なりの計算をしただけで、自分が調べたデータは(多分)一つもないはずです。なので、情報公開したわけではありません。

回答:このような研究倫理的な側面は、論文に書いているとおりです。分析をしないと情報やデータは伝える意味がありません。その意味では、意味のある情報公開をしたとお考えいただければ幸いです。

24. 一般的な感覚として、通常の状態よりも2−3倍程度の増加ならすぐに気付かないかもしれませんが、20−50 倍の増加があるとすれば、誰でも簡単にわかると思います。例えばもともと年間 10人しかいない病気だとして、それが 200−500人になるということと同じです。もともと 100人なら、2000−5000人です。そんな増加があれば、その地域にいれば簡単にわかるでしょう。


回答:この病気は、市町村レベルでは、もともとゼロ人か1人、せいぜい当たり年に2-3人止まりの病気です。発生の期待値(expected number: 平常時の予測人数のこと)は、もちろん1人以下でしょう。それが20-50倍に増えていますので、ご指摘の前提が間違っておられます。それに、地域にいても分からないからこそ、サベイランスシステムやがん登録、あるいは日本動態統計があるわけです。

25. それだけの影響があるなら、風下の隣県である栃木県や茨城県でもそれなりの増加があってしかるべきです。

回答:すでに北茨城市(福島県境のいわき市の南側)では、平成 25-26年度の事故当時0歳から 18歳を対象に 4,777人の受診者から3例の甲状腺がんが検出されました。北茨城市のホームページにもまだ載っていると思います。すでに数十倍の多発でもちろん統計的に有意です。いわき市より若干高く推定されているように見える理由は平成 26年度受診者が多く、大部分の受診者が受診した年度が、いわき市より1年遅いためでしょう。他の隣県の各地域も調べれば恐らく多発が見えてくると思います。私が周辺の県も症例把握をできるだけ早くしたほうがいいというのは、福島県だけでなく、周辺でも見つかり始めているからです。症例把握とは何も検診をするという意味に限定しているのではありません。被ばく者手帳システムを充実したり、がん登録システムを充実させたり、費用のかからない症例把握方法があり、実際に日本国内では機能しています。なお症例把握という点では、事故当時19歳以上の方々には一切なされていませんので、早急に把握を始めるべきだと考えます。発症する数自体は、チェルノブイリの経験から 19歳以上の方が多くなりそうなのです。


26. ここの病院には多くの医師が福島県立医大から派遣されています。今のところそんな増加があるという話を聞いたことはなく、この論文も全く話題になりません。一番神経質になっているはずのこの地域では、そんな感じです。

回答:福島県立医大から派遣の先生方には、福島県や福島県立医大のホームページもたまにはご覧くださいとお伝えください。私自身は、自分の大学のホームページを頻繁に見ているわけではありませんが、たまには拝見します。すでにお話ししましたように、病院で捉えられない地域の問題があるからこそ、サベイランスシステムや地域がん登録などのシステムが日本だけでなく先進諸国にはあるのです。


27. 勘違いしてほしくないのですが、「大丈夫だ」などとは思っていません。増えるかもしれないと思いながら地道な努力をしています。

回答:データの示すところは、桁違いの増え方がもう起こっています。特に、多発を否定するエビデンスがないのであれば、対策を遅まきながらも立案し始めねばなりません。決断がまだできなくても立案だけでもすべきです。対策の立案は、それだけでも時間がかかります。どうかせっかく集められたデータとその分析結果をご覧ください。決して目をそらさないでください。

28. 原発がまた壊れなければ、新たな放射性ヨード被曝を起こすことはありません。今できることは早期発見しかなく、大変な思いをしながらみなさん受けています。地道な検診を行っていくことで、原発事故の 10年後くらいには推論ではない事実がわかるでしょう。

回答:この問題は、甲状腺がんの2桁倍の著しい多発が現時点ですでに示された以上、数多くの対策が必要とされていることになり、その具体的立案と実行が急がれます。まずは、行政の信頼を回復させるためにリスクコミュニケーションをきちんと行なう必要があります。事故当初から、多くの専門家がこれまでの医学的エビデンスに基づいて、福島県では甲状腺がんの多発が起こり、それが分かってくるだろうという意見を出しており、その意見でさえ、私どもも含め非常に甘く低めすぎたということも、2013年2月13日の最初の10例の発表以降に分かってきました。その後は、予測通りあるいはそれを上回るペースで発見が続いています。それにもかかわらず、事故当初に「福島県内では事故によるがんの多発は起きない」もしくは「起きたとしても分からない」というあまりにもエビデンスに反する極端なアナウンスがなされてきたため、通常なら一応準備されているはずの対策も、立案すらなされていません。これは福島県内やその隣県において、この件に関する公衆衛生がほとんど機能していないことを示しています。

29. 問題はマンパワー不足です。福島県は全国ワースト 4位の医師不足県です。そうでなくても大変なのに、甲状腺のスクリーニングもしなければなりません。

回答:マンパワー不足を補足するために工夫していくこともまた公衆衛生の役割ですし、このような情報を知っていただくことにより、現実に合わせた適切な工夫も可能になると思います。

30. 「対策をとるべきだ」と言われたようですが、今の福島に検診以外の何があるのでしょう。それとも、川内原発が再稼働した鹿児島県のような、他の原発立地県に向けての発言でしょうか?

回答:私は原発稼働の有無にはほとんど関心がありません。ニュースで知っている程度です。私の周りの者も、川内原発の風下ではありますが、遠く離れている点もあり、ほとんど話題には上っていません。無関心で申し訳ございません。これからもう少し勉強します。一方、福島県の件は、単に、通常なら行われている分析や対策立案が全くなされていないために、お節介とは思いながらも、専門家として先進諸国では誰でも無料で受けられるはずのエビデンスに基づいた説明を、できるだけ簡潔に岩波の月刊誌『科学』での論考や論文にして示す必要を感じた次第です。まだ行われていない実効性のある安上がりの対策は、いくらでもあります。誰にでも議論すれば思いつきそうなそのような対策を、「福島県内では事故によるがんの多発は起きない」もしくは「起きたとしても分からない」という言葉が、完全に阻害させてしまっているのです。先生の「今の福島に検診以外の何があるのでしょう」というお言葉は、先生ご自身が思考停止を起こしておられるのを感じさせます。先生のご意見は、対策がないから因果関係を認めないというロジックに見えます。これは転倒した考え方です。対策がないなら、あきらめるか、対策を作り出せば良いだけです。対策がないから因果関係を認めないに論じることは誰もしませんし、決してするべきではありません。対立する意見の延長戦上で公衆衛生的対策を論じることもまた、すべきではありません。
 外部被ばくは、100 mSv 閾値論という完全に誤った風説の流布により、実質的な放射線防護を一切させない方向へと作用しているのが現状です。これからの被ばくによるがんリスクの上昇を個人レベルの確率で考えればたとえ小さな上昇でも、被ばくする人数を考えると、がんの増加分の人数は無視できない数となります。低年齢者・胎児だけでも県内の低線量の場所への移動をさせるという選択はしないと、たとえ決断したとしても、このような移動はなしでも実行できるコストのかからない簡便な方法はいくらでも思いつくのです。こういう多様なアイデアを出し合うことすら、今の誤った100 mSv 閾値論は完全にブロックしています。そして国際放射線防護委員会 ICRP が唱える ALARA の原則もリスクコミュニケーションも福島県内では全く守られないままです。乳がんの自己検診よりずっと簡単にできそうな、甲状腺がん自己検診方法の開発と普及もまた、考慮さえされずに時間だけが経過しています。

31. 実際に当地で調べることもなく、地域のこともよくわからないまま書かれたのではないですか?ほとんどの日本人にはこの地域のことはわかりませんし、外国の人ならなおさらです。相馬市を「least」にしていること自体ナンセンスです。そうしたらたまたま数字が大きくなったんでしょうね。

回答:以前、東京医科大学の哲学の先生がテレビで言っておられたのですが、「富士山に登っている人だけが富士山のことをよく知っているのでしょうか?富士山に登ったことはなくても、富士山を遠くから眺め続けている人もまた、富士山のことをよく知っていると言えるのではないでしょうか?」というたとえ話があります。ましてや現在、福島県内では、福島県内で生じている疾患状況を数字として把握しそれを分析するという先進国では当たり前に行われている調査がほとんど行われず、そしてわずかな種類の集められたデータすらもほとんど分析されていません。ましてや分析結果や論文に基づいた、すなわちエビデンスに基づいたリスクコミュニケーションは全く行われていません。これでは科学的根拠に基づいた医学 EBM に、全く反する行政が結果として行われなかったというそしりを、後々、県の内外から受けるのは避けがたい状態です。症例把握のデータを通常の分析方法で分析し、そして示すこともまた、その地域を分かることのアプローチ法の1つです。ちなみに、相馬市をLeastの地域と同じように平成25年度に分類したのは私ではなく、福島県当局あるいは福島県内で現在進行している検診計画を立てられた先生方です。

32. スクリーニングバイアスを考慮しても 30 倍もの増加は高すぎるとの件ですが,津田先生の論文ではその高すぎるとする根拠が特に示されているわけではありません。参考までに,昨年の NEJM に,韓国ではありますが,スクリーニングによって甲状腺癌の“エピデミック”が起こったとする過剰診断の問題を見た報告が出ています。これを見るとスクリーニングで 30 倍程度増加することは想定範囲内ともとれます。
Korea's thyroid-cancer "epidemic"--screening and overdiagnosis. N Engl J Med 2014; 371: 1765-7

回答:高すぎるという根拠は、他のがんのスクリーニング効果の論文ならびに、本稿の表(非曝露あるいは比較的低曝露の地域での甲状腺スクリーニングの結果)これは論文に付随する eTable 1 でも示しているのですが、このようなスクリーニング効果込みの定量的な論文の見ていただければ幸いです。これだけの高さのスクリーニング効果を示す論文がないのです。ところで、New England Journal of Medicine の論文のご紹介ありがとうございました。この話しは学会等のスライドや配付資料で見ておりましたが、おかげさまで論文になっているのを知ることができました。この論文でも書いてありますように、観察されたスクリーニング効果はせいぜい15倍ぐらいと思われます。しかも、この論文の観察集団は、がん検診を受けるような年齢の方々です。例えそのようながん検診受診者の年齢層の方々のデータを、事故後 0-18歳(2014年12月31日時点では 3-22 歳)にあてはめることができたとしても 15倍程度なのです。福島県での 20-50 倍の一部しか説明できません。そもそも、甲状腺がんのように、年齢によって大きくその発生率が異なるがんのデータを、全く異なる年齢層にあてはめるのは注意を要します。そしてすでに本稿でも表にして説明しましたように、福島県のスクリーニング対象者と同じような年齢層におきましては、甲状腺がんのエコースクリーニングをおこなっても、ほとんど見つからないのです。論文ではせっかく定量的に推定しているのですから、その定量的な値を比べていただきたいものです。それが EBM の第一歩と思われます。


33. 元論文では甲状腺がんと確定されたのは 86例と記載され、これはすでに公表されている数と同じです。これが今回の論文の根拠となっているので、比較して数十倍、という数字そのものはありうると思います。スクリーニングで見つかったものなので、一般実臨床でそうと実感できないとも思います(数年で 86例、一般診療の外側で見つかったものですから、通常は気づかないと思います)。
 また、近年のビッグデータを扱った研究もそうですが、公表されているデータを応用して研究を行うこと「そのもの」はまっとうな方法だと考えます。今回の論文の研究者たちが自分たちで生データをとらない、ということが論文の妥当性に傷をつけているわけではないと考えます。メタ分析とかもそうですよね。
 それから、この論文にバイアスのリスクがあるからといって、この論文を全否定するのもよくないとは思います。どんな論文にもなんらかの瑕疵があるのは当たり前です。それをクリティークするのは正しい態度ですが、瑕疵がある=論文全否定もまた正しい態度とはいえません。実際、バイアスの可能性はあると思いますが、RR が本当でない、という根拠も充分ではありません。大抵の論文がそうであるように、この論文もさらなる評価を促すような論文なのだと思います。
 チェルノブイリに関するがんの評価でもたくさんの多様な意見が(いまだに)あります。この問題は人災が故にとても政治化しやすいので、今回の論文も 「one of them」として中立的に見続けることが大事だと思います。

回答:この部分に関しましては、特に回答させていただくことはありません。ただ、「one of them」と言っても、エビデンスに基づいたり影響の推定値を示したりした論文は、まだ「one」しかなく「them」 になっていないのです。今後、「them」になることを期待したいところです。
 
34. 最後に、この研究は、放射線曝露「そのもの」とガン発症の関係を調べたものではないので、「因果」という説明に関しては弱いものだと思います。ただ、因果の厳密性を要求し過ぎるときの弊害(公害やたばこの害でそれは行われました)もあるので、実臨床的なロバストネス(ざっくりという意味での)も、ときに大切です。

回答:論文の原稿段階では当初書いていたのですが、操作変数 Instrumental Variable (IV)という考え方があります。元々は 1900年代前半に計量経済学の分野から出てきた考え方のようですが、現在では因果関係や交絡バイアスの影響を考える上で非常に重要な考え方で、IV を利用した疫学研究論文がたくさん出てきており、総説論文もあります。もちろん疫学理論のテキストにも記載されています。
 IV 分析の、医師なら誰もが知る代表例は、第3相治験の際の ITT 分析(intention-to-treat analysis)です。治験でランダムに新薬と偽薬(もしくは従来薬)がそれぞれの群に無作為で割り当てられますが、治験の実施段階ではしばしばこの割り当て通りには行かず、実際に治験に参加した患者さんは、それぞれまちまちに薬を服用したり服用しなかったりあるいは逆の群の薬を服用したりすることが起こり得ます。そのことは、治験が終わってからある程度知ることができますが、たとえ実際のどのように薬を服用したのかということがかなり正確に分かったとしても、治験においては、その実際に服用したか否かの情報を用いずに、元々の割り当て通りに患者さんが服用したかのように分析します。この分析方法は ITT 分析と呼ばれます。この時、実際に服用したか否かの情報で分析し計測される影響の指標(オッズ比、リスク比、発生率比)よりも、割り当てされた情報に基づいて分析されて計測された影響の指標の方が、1の方向(toward the null)にバイアスされます。この結果、割り当てられた情報に基づいて因果判断しても(新薬を認可しても)、真の影響はもっと極端な値のはずですので、因果判断には間違いが生じないことになります。つまり、IVを用いて分析をすれば因果判断に関して慎重な態度になるとはいえ、因果関係があるという判断をした際には、実際に対象者個々人の曝露情報に基づいて分析するより相対危険度1の方向に揃って「正確」になることが期待できます。
 環境疫学では特に地域などが、IV として曝露の代わりに用いられます。これは個別曝露測定がない場合に、個別曝露を測定した変数の代わりに地域での居住歴がIVとして用いられて影響の指標(オッズ比や発生率比)の推定に用いられるのです。ここで、地域での居住歴を代わりにIVとして用いますと、真の曝露測定値を用いた時とは結果が異なることになります。しかしこの情報バイアス(曝露の誤分類)の入った結果は、病気の発生とは独立して起こりますので、情報バイアスの分類の中の non-differential misclassification に分類され、そのバイアスの方向は toward the null、つまりこの場合IVを用いると、影響の指標が過小評価する方向にバイアスされます。つまり真の曝露に関する測定値があったとして、それを用いた時の真の影響の指標(オッズ比や発生率比)は、IVを曝露指標として用いた場合の結果よりももっと極端な、この場合は、より大きな影響を示していたはずであることが論理的に分かります。これはIVを用いた時の結果で影響を判断しても、判断しすぎは生じないことになります。私どもの考察においても、元々はこのようなIVについての説明も含めてもう少し詳しく関連文献も挙げながら書いておりました、しかし、この論文の simpleさや straightforwardさで十分なので、そこまで書かなくても良いと査読者から指摘され、字数の関係もあり、削られてしまいました。
 後記に、私が別の機会に作成した簡単なIVに関する解説を貼り付けておきます。IV の考え方を用いれば、未知の交絡要因によるバイアスも調整していることになることがご理解いただけると思います。本研究は操作変数 IV の考え方が適用できる典型的な事例の1つと思われます。

______________________

最後に

 個々のご指摘に丁寧に答えさせていただくことにより、私自身も点検になりますし、また論文の内容を専門外の先生方にもご理解いただけるようになります。ご指摘やご批判を感謝致します。ただ、私どもの論文が掲載された『Epidemiology』にも、他の国際誌と同様に Lettersという形で、論文への批判や指摘点を投稿するシステムがありますので、できましたらそちらをご利用いただければ幸いです。
http://edmgr.ovid.com/epid/accounts/ifauth.htm ( 『Epidemiology』投稿規定)
『Epidemiology』は専門誌の中ではインパクトファクターが高い方の学術誌です。学術雑誌上でのご質問として投稿していただくことにより、質問をされる先生方にとっても、私にとっても、Letterとはいえ、若干の業績として残ります。従って、このようなやりとりよりも仕事をしたことになると思います。ご質問いただきましたこと、御礼申し上げます。

                                     津田敏秀





後記:操作変数 IV について

 疫学関係分野で現在、最も包括的なテキストとして有名な Rothman KJ, Greenland S, and Lash TL編、『Modern Epidemiology』第3版(Lippincott-Raven Publisher 2008)の第12章(Glymour MM and Greenland S著)には、「Instrumental variable」(IV:操作変数)と題した節が、次のような書き出しで始まっている。

    観察研究は、制御されない交絡と選択バイアスの疑いに常に曝されている。このこと  は、多くの人々がランダム実験からの根拠を好む動機となっている。しかし、治療継続    の中断(治療を順守できない)や追跡不能例の頻度が上がると、ランダム化試験それ自    身が、かなりの交絡や選択バイアスに悩まされる可能性がある。図12-9は両方の現象を    描出している。観察研究では、Uは、X-Y関係の未知の交絡要因を表している。ランダム    化試験においては、Uは治療の割り当てを守ることに影響する変数、それゆえに治療Xを    受けることに影響を及ぼす変数を表している。図12-9では、Zは、YへのXの影響を推定    するための操作変数(もしくは操作)と呼ばれる。



 その上で Rothmanらのテキストでは、周産期の事例で、次のような4つの操作変数の使用例を示している。

1.症状発現の日は、受けた病院治療の質を決定する可能性がある。しかし症状発現の日に関する以外の健康状態に影響を与える理由はほとんどない。症状発現の日はこの時、健康状態に対する病院治療の質の影響に関して、自然の操作となる。
2.産婦と新生児の出産での結果との関連において、分娩後の入院期間を研究するための操作として、出生時刻は用いることができる(Malkin et al. 2000)。
3.授乳カウンセリングをおこなっている病院において出産する母親は、母乳栄養をおこなう可能性がより高い。そのような病院における出生が子供の健康にそれ以外の影響をもっていない場合は、病院でのカウンセリングの有無(Yes/No)が、子供の健康における母乳の影響に関する操作となる。
4.乳がんを患った親戚を持つ女性は、閉経期ホルモン治療を受ける可能性は低い。乳がんを患った親戚を持つことが心血管疾患との他の要因との連結を持たない場合は、乳がんを患った親戚を持つことは、心血管疾患へのホルモン療法の影響に関して操作である。

 また、疫学辞典第5版(A Dictionary of Epidemiology fifth edition)(Porta M, Greenland S, & Last JM編集、Oxford University Press 2008)には、以下のように記してある。訳は、日本公衆衛生協会の記載そのままである。

 もともと計量経済学やある種の社会科学で用いられる分析方法であるが、曝露と効果に関して測定不可能な交絡因子が知られているような場合でも、一定の仮説のもとで因果関係を推測するものである。機器変量もしくは機器は、(1)曝露と関連があること、(2)曝露を通してのみ帰結に影響を及ぼすこと、(3)(コントロールできない)一般的な原因と帰結を共有しないこと、という条件を満足すべきである。

 ちなみに、「操作変数もしくは操作」を、「機器変量もしくは機器」と訳しているが、操作という使い方の方が一般的で、「機器」という訳は通常しないので誤訳と言って良いだろう。(3)の部分も誤訳であり「帰結と何らかの(調整されていない)共通原因を共有していない」と訳さないと意味が通じない。これらの誤訳は、訳者が操作変数を初め、DAGという因果関係モデルに習熟していないことから生じていると思われる。DAGの知識は、疫学・生物統計学を学ぶ者にとっては今日基本的知識となっている。

 現代疫学理論に基づくと、地域という操作変数を用いることによりIV分析では、non-differential な曝露の誤分類による過小評価があるものの、観察研究において交絡(未知の交絡要因を含む)や選択バイアスに悩まされることから、ほぼ解放されていると言うことができる。