以下は、ある日本人医師たちから、岡山大学チームによる『Epidemiology』誌掲載の原著論文「Thyroid Cancer Detection by Ultrasound Among
Residents Ages 18 Years and Younger in Fukushima, Japan: 2011 to 2014
」(日本語タイトル:2011年から2014年の間に福島県の18歳以下の県民から超音波エコーにより検出された甲状腺がん)に関して、津田氏に寄せられた批判や意見と、それに対する津田氏の回答集である。掲載は、津田氏の許可を得ている。
論文へのリンクはこちら。
この回答集のPDFは、以下に埋め込んであるが、こちらからダウンロード可能。
論文発表時の記者会見関連記事はこちら。
2015年10月19日
日本人医師の方々から、論文に関して貴重なご指摘・ご批判を受け取りましたので、お答えさせていただきます。
この回答集でお答えしたご指摘・ご批判は、太字で表示し、通し番号をつけさせていただきました。なお、回答中で使われている「EBM」とは、Evidence
Based Medicine の略で、日本語では「科学的根拠に基づいた医学」とされます。EBMは、もともと Science Based Medicine というネーミングだったようです。この場合、科学的根拠とは、人を観察し人単位で分析された結果もしくはそれを記載した論文ということになります。つまり疫学方法論で分析された結果もしくはそれを記載した論文です。
まず最初に、医師によるブログ記事2つを取り上げさせていただきます。
1. この論文を見ると,まずethicsに関する記載がありませんのでこの時点で論外で,「はたして倫理委員会をちゃんと通して論文を書いたのだろうか?」という疑問があります(Epidemiology誌では記載が求められるはずですが査読でなぜひっかからなかったんでしょうね?).
回答:論文中に書いてありますので、ご確認ください。今日、医学論文は研究倫理に関する記述がなければなかなか掲載してもらえません。論文中に書いてある論文も結構あります。
2. そこは置いといて,中身を見ると,年齢調整がなされていない,
回答:全人口集団を対象にしていますので、全人口集団と比較する場合には、年齢調整をする必要はありません。年齢調整をしてもほとんど推定値は動きません。後注に書いた、操作変数IVを考えれば、もう年齢調整がなされているとも言えます。(非巡回有向グラフ Directed Acyclic Graph: 略称 DAGも添えて交絡成立の条件を書いておきます:段落末の説明をご覧ください。)年齢調整をする理由は、年齢が交絡要因として成立して交絡バイアスを引き起こしている可能性が高いからです。そうでない場合は調整してもデメリットすら出てきます。交絡要因が成立する条件は、以下の3つの条件が同時に成立している必要があります(Rothman 2008)。このような条件は書き方が微妙に異なっても、疫学入門の教科書においても必ずと言っていいほど記載されています(私が十年以上前に書いた『市民のための疫学入門-医学ニュースから環境裁判まで』にももちろん書いております)。繰り返しますが、いずれの条件も「ねばならない」か「あってはならない」(英語で言うと「must」もしくは「must not」)で終わっており、条件は「and」で繋がれています。ご理解いただきやすいように、図(DAG)でもお示しします。ちなみに、非巡回有向グラフDAGとは、因果関係を示すモデルの1つで、誰もが従来使っていた矢印図に、少しだけルールを付け加えたような図です。たとえそのルールを全く知らなくても、どんな因果関係があるのか良く把握することができます。
条件① ある交絡要因は、問題となっている病気に関して、外的なリスク要因でなければならない。
A confounding factor must be an extraneous risk factor for the disease.
条件② ある交絡要因は、問題となっている曝露と、研究対象の母集団(症例が生じてきたリスク状態の人口)において関連していなければならない。
A confounding factor must be associated with the exposure under study in the source population (the population at risk from which the cases are derived)
条件③ ある交絡要因は問題となっている曝露もしくは問題となっている病気によって影響を受けてはならない。特に、その交絡要因は、その曝露とその病気の間の因果経路において中間段階になることはできない。
A confounding factor must not be affected by the exposure or the disease. In particular, it cannot be an intermediate step in the causal path between the exposure ant the disease.
Rothman KJ, Greenland S, Lash TL: Chap. 9. Validity in Epidemiologic Studies. In: Rothman KJ, Greenland S, Lash TL eds. Modern Epidemiology. 3rd ed. Lippincott Williams &Wilkins, Philadelphia, 2008, pp. 128-147.
図:交絡要因成立のための3条件を説明する図.図中の①、②、③は、文中の①、②、③に対応している.
今回の私どもの論文のデータでは年齢という変数は曝露とあまり関係しておらず、条件②を満たしていません。従って、年齢はこのデータで交絡要因として成立しにくく、たとえ少しでも交絡バイアスが働いているとしても、その影響はわずかです。このような考察の際には定量的な評価という科学の特徴の1つが生きてきますね。
このデータでの年齢調整を要求される方は、このような交絡バイアス成立の簡単な条件のことをご存じない方です。さらに、年齢調整の前と後の推定値を比べたこともない方、つまり、具体的データで年齢調整をした経験のない方です。このような大きな影響の推定値を消したりするようなものではないからです。調整しても、点推定値は少ししか動かず、分散が少し大きくなるだけの効果しかないであろうことをもし経験しておられたら、大体わかるわけですから。疫学者はこのような分析を何度もやってきていますので、このような全人口集団を対象とした研究において取るに足らないことだと知っているのです。
3. 放射線量がより低い会津地方をベースにしていない,
回答:項目番号16に詳しく書いておりますし論文にも書いていますが、会津地方、特に人口集積地のあたりの放射線量がより低い地域という保証はないのです。会津地方の「放射線量がより低い」とは根拠は実はあまりありません、そもそも、放射性ヨウ素と空間線量の区別がついておられるでしょうか?
4. 多重比較になってしまっている等いろいろな統計解析上の問題が見えます.どんな論文にもなんらかの瑕疵があるとはいえちょっとこの解析はさすがにないんじゃないでしょうか.
回答:『Epidemiology』誌は、そもそも「統計的有意(statistically significance)」という言葉を避けるべきと念を押す医学雑誌です。疫学理論に厳しい医学雑誌です。先生が多重比較に言及されるのは検定(統計的有意性)のことを念頭に置いておられるようです。ちなみに推定する以上、点推定値と区間推定値(本論文では95%信頼区間)を書いて、確率分布の概要を示す必要があります。
5. External comparison においては国立がんセンターのデータを震災前のデータとして比較を行っており,結果は「甲状腺癌が震災前データの30倍」というもので,この数字がネットで多数流れています.この程度ならスクリーニング検査バイアスの可能性が高いと思われます.しかしなぜか津田先生は「30倍という数字はスクリーニングバイアスや誤差では説明できない」と述べておられ,その一方でなぜそう言えるのかについて根拠を示していません.この津田先生の比較のやり方を用いれば,平成24年から行われた甲状腺結節性疾患追跡調査事業結果と比較すると,青森県・山梨県・長崎県でも甲状腺癌発症率は70倍近くになってしまいます(極端な比較ではありますが).
回答:青森県・山梨県・長崎県では、4,365人が検診され1人しか甲状腺がんが見つかっていません。統計的推論 statistical inference をお願いします。10人見つかった調査結果と、1人しか見つからなかった調査結果とでは、割合は同じでも分散は同じでしょうか?それにどこをどう比較しても、分散を無視して点推定値だけでも、青森県・山梨県・長崎県の甲状腺癌発症率は70倍近くにはなりません。それに、青森県・山梨県・長崎県のデータは、スクリーニングの結果ですので、発症率ではなく、有病割合です。
6. また,昨年の the New England Journal of Medicine で,甲状腺癌のスクリーニング検査を行うだけで 30倍程度は簡単にいってしまうことが報告されています.これらから考えてもなぜあのような考察の表現になるのかおおいに疑問です.
7. この論文データから結論を得ることはできません.統計解析手法の不備を無視したとしても,多いとも多くないとも言えないはずの結果です.しかし,この論文の考察や結論は甲状腺癌増加ありきのかなりバイアスがかかった表現になっています.まあここまでは,ニュース等で震災後の津田先生の発言や考えを知っていれば想定の範囲内とも言えますし,私も「ああまたか」程度に思っていましたが.
回答:論文中に引用しています WHOの健康リスクアセスメント報告書(2013)もまた、甲状腺がんの増加をはっきりと示しています。元々、多くの専門家は甲状腺がんが福島県で増加すると予想していたと思います。それが実際に増加してきたということを示しただけの論文です。「○○の病気がこの程度増加するのでは?」と報告書に書いた専門家は、どんなに多発してその証拠を示しても、かなりのバイアスがかかっていると根拠もなく判断され、「ああまたか」になるのでしょうか?ちなみに、私は予測を文字にはしておらず、多発が見えてきた段階から岩波書店の月刊誌『科学』に医学的根拠と共に書き始めております。『科学』の2013年5月号です。それから約3ヶ月毎にデータや引用文献を元に『科学』に書いております。
ブログ記事2(リンク:http://georgebest1969.typepad.jp/blog/2015/10/福島で甲状腺がんが増えているという論文の考察.html)
このブログ記事で、20-50 倍という発生率比が論文で示され、それは福島県が公開したデータから、標準的な疫学分析方法で誰にでも推定できるにもかかわらず、何のエビデンスも示さずに、「この論文を持って福島で震災後甲状腺がんが増えた、という結論をつけるのは難しいと考えます」とブログの先生が結論づけておられます。(項目番号8と9でその内容を引用し、お答え致します。)
私も長年、相当数の論文や、因果判断がなされた政策決定を数多く見てきました。しかし、18歳以下人口(論文の締めでは3歳から22歳人口)のほぼ全員をカバーされて得たデータを用いて標準的手法で推定された発生率比等の影響の指標が、20-50倍と大きな倍率で観察されているのに、何のエビデンスも提示せずに「結論をつけるのは難しいと考えます」と強引に結論づけた因果推論を、今回は初めて私は見ることになりました。そもそも、20-50倍が観察されること自体がまれなのですが。
実際の因果判断ではありがちなのですが、政策決定に結びつく因果判断を自分自身で決定した経験のない医師や行政の方々は、しばしば因果判断を無用に先延ばしします。『医学と仮説-原因と結果の科学を考える』(岩波科学ライブラリー)に書きましたように、そのような事件が日本では歴史上繰り返され、そして無用に被害を拡大させてきました。そのような事件を見るにつけ、多くの皆さんが、因果判断をしない理由を、エビデンスもないのに一生懸命あげつらっておられるように私には見えます。
公衆衛生の分野では、「sufficient evidence」 という言い方があります。現在進行形の状況で、これからもデータは集まり続けるが、現段階において、因果判断をしたり対策を考えたりする上において、十分な根拠があり、その根拠は対策の必要性を十分に示しているという時に用いる言い方です。これは、現時点で様々な対策を実行していかないと、被害が拡がってしまうことが避けがたいときに使われます。こういう言葉が使われてきた時に示されていた影響の指標(オッズ比や発生率比、リスク比などの○○倍という数字)を遥かに上回る値が、本件で示されている以上、本件もまた、「sufficient evidence」 があり、因果判断をして対策へと進み始める必要があります。対策がなされずに無為に経過する時間の進行もまた、被害が拡がる重要な原因なのですから。
8. さて、海外のメディアは、この論文の「キモ」として、福島で震災後に甲状腺がんが20~50倍増えている、ことを強調しているようです。例えばNYT
http://www.nytimes.com/aponline/2015/10/08/world/asia/ap-as-japan-nuclear-childrens-cancer.html?mwrsm=Email&_r=1
しかし、これはこの論文で行われている Internal comparison と External comparison の後者のほうで、比較する対象は日本国立がんセンターの2001-08年のデータです。当然、スクリーニングのバイアスがかかっていると見るべきです。論文では「However, the magnitude of the irrs was too large to be explained only by this bias」とありますが、なぜそういえるのか根拠は明示されていません。2回やっているスクリーニングについても、this result cannot be explained by the screening effect because most occult thyroid cancer cases would have been harvested in the first round screening. と書いていますが、やはり外的な比較とのバイアスの生じる余地については克服できていないと思います。
回答:スクリーニングのバイアス(一般にはスクリーニング効果と呼ばれています、今回の問題では、一部では過剰診断によるバイアスとも呼ばれていますが)の影響が定量的に示されている論文を、ぜひご教示ください。すなわち、20-50 倍の影響の推定値の上昇をカバーしてしまうような論文です。そうでないと EBM的な意見ではありませんね。以下の3論文などは、チェルノブイリ周辺で行われた、非曝露集団もしくは比較的低汚染地域での甲状腺がんエコー検診の結果です。論文の eAppendix(http://links.lww.com/EDE/A968)の eTable1 にも示しています。これらの論文の対象者には甲状腺エコーによるスクリーニングがおこなわれていますので、これらの結果にはスクリーニング効果も含まれています。非曝露あるいは比較的低曝露の地域でのスクリーニング結果を示す論文が他にありましたらご教示いただければ幸いです。また、他のがんを含めて、20-50 倍というような大きなスクリーニング効果が示された論文をご教示賜れば幸いです。
表:非曝露あるいは比較的低曝露の地域での甲状腺スクリーニングの結果
なお、これらの研究が行われた当時の超音波エコーと現在の超音波エコーの性能の違いで福島県での結果とこれらの研究の結果の違いを指摘する意見もありますが、2次検査に回される 5 mm の結節を検出するという点においては、超音波エコーの性能の違いでは全く説明できません。私は、1980年代後半、臨床医として 2000 例ぐらいの腹部エコーをこなしてきましたが、当時の研修医や医師、臨床検査技師達の腹部エコーを習熟する上での最初の目標は、正常膵管の内径を描出することでした。正常膵管の内径は、1~2 mm 程度です。従って、当時のエコーは誰もがそれを描出する能力を、すでに十分に持っていました。エコーの検出能力が飛躍的に進歩したのは、1980年代前半と思われます。
また、論文や福島県・福島県立医大の発表にも書いてありますように、手術された甲状腺がんのリンパ節転移の割合は、発表毎に 75%前後で推移しています。それは通常予想されるリンパ節転移の割合より大きなものだそうです。浸潤や遠隔転移なども決して少なくないと思っています。ご家族もしくはご本人の希望によりおこなわれた 3例を除いては、手術は経過観察の中で必要に応じておこなわれたものと発表されています。これらもまた、スクリーニング効果で多発の大部分を説明してしまうことの限界があります。
9. さらに、放射線曝露の程度に差があると想定される(この想定はざっくり、ですが)、福島県内の比較(Internal comparison)、こちらはスクリーニングが徹底しており比較的バイアスのリスクが低いのですが、有意差は出ていません。Least contaminated area を reference にしていますが、1番近いところでも差が出ていない。ただし、測定年が各コンパートメント異なるので、そこは議論の余地があると思います。
回答:有意差がないことと影響がないこととは異なります。統計的有意差の有無は大きな問題ではありません。これは疫学理論のテキスト(『Modern Epidemiology』)や国際医学誌編集者会議 ICMJE でも statistics(統計学)の中で明確に警告が発せられています。
http://www.icmje.org/recommendations/browse/manuscript-preparation/preparing-for-submission.html
すでに書きましたように測定年の異なりを補正すれば、よりはっきりと地域の違いが見えてきます。
(ネットで流布するこのような疫学入門の必須項目もご存じない方々の指摘のお陰で、私は入門テキストを作るくらいの説明を打ち込むことができました。のちのち、テキストを作りやすくなります。ありがとうございました。)
********************************************************
ここからは、他の医師の方たちから間接的に、あるいは直接に寄せられたご指摘やご質問です。
10. Abstractの Results/Conclusion が、(著者の結論をサポートする)恣意的なデータのみを元に構成されているように思えます。
回答:この論文あるいはこの論文の著者(すなわち私ども)をサポートしない、あるいは反駁・反証する論文やデータが見当たらないのです。何も恣意的なデータのみを下に校正したわけではありません。あったら Introduction の部分にレビューします。探して見当たらないのです。あれば教えていただきたいのです。私どもも、参考文献数や字数制限内で載せられなかったのですが、参考文献以外もたくさん探しました。ほぼ全部を網羅して読んだつもりです。そして見つからなかったのです。あれば、ご教示いただければ幸いです。根拠もないのに他にもデータがあるかのように書かれるのは EBM的ではありません。
11.Dose-Response Relationship が見られません。
Dose-Response(量反応)も論文の考察の中に若干触れておりますが、実は、量反応関係がこのデータにはあるのです。平成23年度、平成24年度、平成25年度の地域(area)は、それぞれ潜伏期間が、1年、2年、3年ですが、論文の中では一律に4年を与えています。この潜伏期間のずれをそれぞれの地域で補正すれば、はっきりと見えてきます。これは私が表やグラフ等でお示ししてもいいですが、論文で示された推定値にそれぞれ、4、2、3分の4をかければ、誰にでも計算できてすぐに得ることができますので、どうぞ計算してみてください。
12. 事故後4年間は放射線影響が出ないという仮定でスクリーニングの一巡目をベースラインとみなすという前提だと理解していますが、この論文の結果を受けても、一巡目をベースラインと呼べるのでしょうか。
回答:チェルノブイリ原発事故後は、事故の次の年において、甲状腺がんの有意な多発が観察され、そしてその多発は徐々に大きくなりました。なお、チェルノブイリでは最初に甲状腺エコースクリーニングが行われたのは 1990年のようですので、この時は、甲状腺エコースクリーニングは行われていませんでした。そしてチェルノブイリでは、4年目や5年目に一気に多発の程度が大きくなりました。これを確認しておけば、事故半年後から3年後にかけて行った甲状腺エコースクリーニングの結果を、ベースラインと呼ぶことはなかったと思います。そしてその結果も、予想されたよりも著しい多発が得られ、ベースラインという呼び方が不適切であったことが確認されました。
13.Analysis内で、IRR(発生率比)を計算する過程で、 “we divided the prevalence by the latent duration of disease”と説明されています。ここでは、「P=I x D」(有病率=発生率x有病期間)の式を使われたと思いますが、なぜ「D=4年」とされたのですか?また、「latent duration」と、Discussionで出てくる「empirical induction time」の違いを教えてください。
回答:スクリーニングから得られる有病割合(P:単位はなし)と全国発生率から得られる発生率(I:単位は時間分の1)とを直接比較するためには、何らかの D(単位は時間)を当てはめねば、単位が合わないので比較ができないわけです。高校の時の物理学の問題を解く際には、単位 dimension を合わすというのは問題を解く際のヒントになりましたね。そしてここでは単位を合わせるのは簡単で、単に時間を掛け合わすだけで良いのです。しかし、どんなD(時間)を当てはめてもいいわけですが、現実の人間を考えた場合、Dは50年以下ぐらいにしないといけないわけです。そして、50年以下のどの有理数を割り当てても、似たような結論、すなわち福島県内で甲状腺がんが有意に多発しているということになります。中通りの中地区では、D=100年を与えても、統計的に有意な関連を見いだすことができます。
ただ、「事故による甲状腺がん発生に与える影響の定量的評価」という、この論文の主たる目的を達成するためには、この数字は、一巡目のデータには、3年10ヶ月以下である必要があります。
同様に、2巡目のデータに D=3年を論文では与えていますが、これは2年前後でなければなりません。しかも、1巡目と同じ様に「latent duration」を与えてはならず、何らかの違う単語(時間を表す)を与えて1巡目の「latent duration」とは区別しなければなりません。これは、論文公開後、ある先生に指摘されて気づいた次第です。私は、1巡目は4年、2巡目は3年と、切れの良い長めの時間を与えてきましたが、少々反省しています。特に2巡目は、個別データがあれば観察しようと思えば観察できますので、もう少し短めを与えるべきだったと思います。より短いDを与えますと、その分、影響の指標は大きくなります。つまり推定される多発の程度は、より大きなものとなるわけです。
図: 曝露によって生じたがんの成長における時系列;induction period、latent period、あるいは本研究での「latent duration」、 empirical induction timeの説明.(参照:Rothman KJ: Induction and latent period. Am J Epidemiol 1981;114:253-259.など)
Induction period: ①から②.
本研究での「Latent duration」: ③から④.(注:論文では、「スクリーニングや細胞診でがんが検出可能になった時点」という曖昧な書き方でしたが、甲状腺がんが5.1mm以上になる時点と書いた方が明確だったのではないかと今では考えています)
Latent period: ②から④.
甲状腺がんがエコー検診で検出できる期間:③から④.
Empirical induction time (induction period + latent period): ①から④(スクリーニングで検出されてしまった場合は①から③が Empirical induction timeとして認識).
14.Methodology や論理の展開に一見して問題が多くあり、精密さや客観性に欠けています。
回答:この点は、調査対象者個々のデータに入手できていないので、不十分な点もありますが、この論文の研究目的を達成する分には精密さは十分と思われます。そもそも、この論文は、専門家 3人から査読チェックを受けましたので、一応、精密さや客観性に関して不十分と思われたとしても、それはクリアーされていると思っていただけますでしょうか?そうではないと考えられたとしたら、具体的に理由をお知らせいただければ幸いです。もし以下の諸項目が、精密さや客観性の具体的指摘でしたら、以下に書きました理由でクリアーできていると思われます。
15.Multiple Comparisonの補正がされていません。
回答:これは、この場合にあまり問題にならないと思いますし、このような補正などをしている論文はあまり見かけないないと思います。特に、この論文で示している信頼区間(つまり Multiple Comparison の弊害である検定判断の判断判断材料)の数自体はそんなに数多くはないです。そして、そもそも Multiple
Comparison の問題はこの論文では生じないと思います。Multiple Comparison の問題が偶然により生じるよりずっと多くの有意差が出ているからです。そして、そもそも私たちが知りたいのは定量的推定値、すなわち点推定値と区間推定値の高さ(指標の大きさ magnitude
of effect)が問題ですので、有意差の問題ではないのです。点推定値と区間推定値は、分析によって得られた確率分布を簡略化して示しているだけで、有意差の有無を示すために示しているわけではありません。それゆえに『Epidemiology』という雑誌は疫学理論に厳しい専門誌ですので、統計的有意差(statistically significant)という単語を使わないようにということまで要求しています。点推定値と区間推定値が示す確率分布の考え方と、有意差検定のみの結果で論じる弊害をもう少し習得していただければ幸いです。特に、後者は後述しますように、医学雑誌に論文を投稿する際にも重要な問題ですので、習得されていた方が良いと思います。
16. Reference 地域の選び方が恣意的に見えます。(Least Contaminated の中で、もっとも Incidence が低いところを Reference に選んだように読めるのです。)
回答:あのように地域分けをしました経緯を簡単に説明します。地域分けをすることにより、分散をある程度安定させるという目的のもと、平成23年度、平成24年度、平成25年度を分離して、そして福島市、郡山市、大都市を独立させると、だいたいはあのわけ方になると思います。そして、放射性プルームの流れの分布を見ると、あそこを対照地域にしたくなります。要するに地域の分け方や選び方には私の恣意と言えるようなものはほとんど入っておらず、あそこを対照地域にした根拠も明らかです。例えば、群馬大学の早川教授が作成したプルーム分布の推定図(http://kipuka.blog70.fc2.com/blog-entry-535.htmlに掲載のマップ裏面)ですが、対照地域には比較的プルームが流れていないのが分かります。またこの図では、会津地方には、会津若松市などの人口集積地である会津盆地にプルームが流れているのも分かります。なお、早川教授と私は何の関係もなく、この図も私の研究が始まる前に作成されました。早川教授は火山学がご専門で私とは専門が異なりますが、むしろ私の研究結果に批判的でいらっしゃるようです。
17. External Comparisonが、Internal Comparison で有意な結果が出なかったため、取ってつけたように読めます。(Introduction や Methods を読むに、Internal Comparison が予定された主な解析方法だったと推察されます。)
回答:実は External comparison の結果が論文のメインなんです。External comparison から読者が計算できますので、Internal comparison の結果は付け足しみたいなものです。環境疫学や職業病の疫学では、External comparison と Internal comparison の両方を示した論文を時々見かけます。それぞれに互いに相反する長所と短所があるからです。その長所と短所をご存じでしたら、事故後の放射性物質の放出による甲状腺がん発生に対する影響を定量的に把握するというふうに論文の研究目的を設定していることを考慮していただいた場合、External comparison を重視する理由がご理解いただけるのではないかと思います。論文では、この点の考察にも結構字数を割いていますが、これがなぜか多くの日本人の方々にご理解いただけていないみたいです。もちろん専門家相手の雑誌ですのであまりに教科書的なことを詳しくは書かず短い文章で指摘しているだけなので読み取っていただけなかったのかもしれませんし、それでしたら致し方ないと思います。しかしなぜ、論文を批判される方々が Internal comparison にしか興味を持たれないのか、私は本当に不思議です。
18.甲状腺がん(特に乳頭がん)は Detection Bias が非常に大きいです。
回答:Detection Biasと呼ばれる現象によると思われる発生率上昇の可能性の件は、論文の中で分析していますし、考察もしています。それが読み取っていただけていないようです。Detection Biasと呼ばれているのは、潜在しているがんが多いということのようですが、これは大人の甲状腺がんの話です。すでに示しましたように、あるいは論文の中でも示しましたように、小児から青少年に関しましては、エコー検診をやっても甲状腺がんはほとんど見つかっていないのです。根拠と反することをおっしゃるのは、EBM的ではありませんね。
19. 甲状腺がんの成長速度を考えると、一巡目で見つかったがんが被ばくによる「initiation (イニシエーション)」の結果だとは考えにくいと思えます。がんが見つかった人たちの約半数は事故当時10代後半でした。これは、事故前から存在していた潜在がんが、放射線による「promotion(プロモーション)」によって成長したのではないでしょうか。もしそうであれば、放射線誘発性がんと呼べますか?
回答:下記の Rothmanによる入門テキストの記載をご覧ください。Initiator も Promoter も同じ発がん物質であることが分かります。従来の Initiator と Promoter という区別は、実験医学の考え方に基づき実験室というコントロール下で、区別できていると勘違をされているに過ぎません。実際に社会で生きる人間の発がんにおいて、Initiator が Promoter ではない保証はどこにもありません。Initiator と表現されている発がん物質の原因曝露は、注目できている原因のうち最も時間的に先行している原因(構成原因 component cause)の曝露に過ぎないわけです。Initiator が Initiator なのか、それとも Promoter なのか、私たちが観察する上で区別が付かない以上、Initiator か Promoter かを論じたところで意味はないことになります。つまり、認識できるもので何が論じられるのかという科学の対象外ということになります。このような区別は、現代医学の考え方をご存じない、古い医学に基づいた質問ですね。
"Rothman KJ: Epidemiology: An Introduction. 2nd ed. Oxford University Press, New York, 2012, pp.28-29"より。
発がん現象において、イニシエーター(initiator)とプロモーター(promoter)は因果メカニズムにおいて使われる用語で、それぞれ初期と後期に作用するがんの構成原因(component causes)を指す。がん自体は、しばしば、誘導時間(induction time)が長い疾病プロセスであると考えられてきたが、これは誤解である。プロモーター(promoter)のように因果プロセスの後期に作用する構成原因の誘導時間は短いとされ、最後の構成原因(例えば、先の、突風による大腿骨骨頭骨折の例)の誘導時間は常にゼロとなる。これは、最後の構成原因の作用後に、疾病が起こるからである。しかしその時点で、疾病の存在が必ずしも明らかなわけではない。大腿骨骨頭骨折はすぐに明らかになるかもしれないが、発生したばかりのがんは、かなりの時間が経たないと、気づかれたり診断されたりしないかもしれない。疾病の発生と、その後、疾病が医学的検査や症状発現により検出されるまでの経過時間は、潜伏期間(latent period)と呼ばれる。潜伏期間の長さは、疾病の検出方法の改善により、短くすることができる。しかし、誘導期間 (induction period)は、疾病の早期検出によって短くできない。これはなぜかというと、誘導期間が終了するまでは検出すべき疾病が存在しないからである。現実的には、疾病がもっと後にならないと検出されないのであれば、疾病プロセスがいつ始まったのかを確定できないため、誘導期間(induction period)と潜伏期間(latent period)の区別をつけることは困難かもしれない。成長の遅いがんのような疾病が、多くの原因に関して長い誘導期間を持つように見えるのは、潜伏期間が長いためである。
20. 統計解析手法にかなり注意すべき点が多数ある論文かと思われます。疫学者としての津田先生がこのような統計解析手法を行っているとなると,誠に言いづらいことではありますが執筆者のバイアスが相当かかっていると考えざるを得ません(あの震災後の津田先生のお考え等はニュース等で報道されており、ある程度は存じております)。
回答:この論文で用いている統計解析手法は、極めて基本的で教科書的でシンプルな統計解析手法です。「執筆者のバイアス」という言葉で、何を意味されているのかは分かりませんが、どなたがやっても同じデータならば基本的な統計解析手法ですので、お互い計算間違いがなければ同じ結果に至ります。ちなみに、「執筆者バイアス」という用語は疫学テキストには載っていません。そして標準的なテキストでは、バイアスとは推定値、特にオッズ比や発生率比に系統的誤差が及ぼされることおよび、その要因として使われ、原著論文では主に、選択バイアス、情報バイアス、交絡バイアスに分類されます。「執筆者バイアス」というのは、これらのいずれに属しているバイアスなのでしょうか?テキストに載っていない用語を独自に使って説明される理由は何でしょうか?執筆者バイアスはどうやって定量的に示されるのでしょう?これではEBM的ではありません。
21. この論文の主旨は、スクリーニング活動の outcome とそのことが持つ implication を示すことにあると思います。External comparison の対象も国立がんセンターのもの以外により適したものがないのですから、妥当な判断ではないでしょうか。この手の大規模長時間を要する調査では、有意差が出ていないので意味のないデータであると解釈するのはむしろ危険です。
回答:補足ですが、External comparison の対照とする非被ばく者における小児甲状腺がんの発生頻度は、国立がんセンターのもの以外の論文やテキストでいくらでも見つかります。ハリソン内科学書第 18版にも載っています。18歳以下の甲状腺がんの発生率は、年間1,000,000人に3人とするのはやや高めなくらいです。年間1,000,000人に 6人とか 10人とかというレベルすらみつかりませんでした。ましてや 30人や 100人というような記載は成人ではともかくも若年者や 20代前半ではないと思います。それぐらいはっきりしているのです。
22. 「4年という短期間でのスクリーニングで当然バイアスがあるにしろ 30倍は高いと思います」というのが Discussion 内容で、さらなる調査の必要性を示した論文としてよくまとまっていると思いました。”(...) the observed excess alerts us to prepare for more potential cases within a few years. Furthermore, we could infer a possibility that exposure doses for residents were higher than the official report or the dose estimation by the World Health Organization, because the number of thyroid cancer cases grew faster than predicted in the World Health Organization’s health assessment report”
海外のメディアのとらえ方も、これら多面的な要素を盛り込んだ、割とフェアな内容が多いです。
回答:日本人に褒めていただくと、何か不思議な気分です。この研究は、2013年8月のスイス・バーゼルの国際環境疫学会 ISEE(International Society for Environmental Epidemiology)、2014年のアメリカ・シアトルでの ISEE、2015年のブラジル・サンパウロでの ISEE で発表してきました。海外の疫学の研究者とは、この 2年間以上、いろいろな意見を交換してきました。今回の論文も、海外の研究者から重要な研究なので早く論文にしろと言われて、今年に入って書き出して投稿し、そして受理されたものです。ISEE に参加している数少ない日本人研究者も学会発表を興味深く見てくださいました。それなのに、日本国内でのネットなどからの反応は、特に医学的根拠のないものばかりでしたが、批判が多かったのです。しかし、批判が多いということは、論文にした価値がそれだけあるということで、それもまた私どもの励みになります。
23. 津田医師自身は、福島県が公開している情報に基づいて自分なりの計算をしただけで、自分が調べたデータは(多分)一つもないはずです。なので、情報公開したわけではありません。
回答:このような研究倫理的な側面は、論文に書いているとおりです。分析をしないと情報やデータは伝える意味がありません。その意味では、意味のある情報公開をしたとお考えいただければ幸いです。
24. 一般的な感覚として、通常の状態よりも2−3倍程度の増加ならすぐに気付かないかもしれませんが、20−50 倍の増加があるとすれば、誰でも簡単にわかると思います。例えばもともと年間 10人しかいない病気だとして、それが 200−500人になるということと同じです。もともと 100人なら、2000−5000人です。そんな増加があれば、その地域にいれば簡単にわかるでしょう。
回答:この病気は、市町村レベルでは、もともとゼロ人か1人、せいぜい当たり年に2-3人止まりの病気です。発生の期待値(expected number: 平常時の予測人数のこと)は、もちろん1人以下でしょう。それが20-50倍に増えていますので、ご指摘の前提が間違っておられます。それに、地域にいても分からないからこそ、サベイランスシステムやがん登録、あるいは日本動態統計があるわけです。
25. それだけの影響があるなら、風下の隣県である栃木県や茨城県でもそれなりの増加があってしかるべきです。
回答:すでに北茨城市(福島県境のいわき市の南側)では、平成 25-26年度の事故当時0歳から 18歳を対象に 4,777人の受診者から3例の甲状腺がんが検出されました。北茨城市のホームページにもまだ載っていると思います。すでに数十倍の多発でもちろん統計的に有意です。いわき市より若干高く推定されているように見える理由は平成 26年度受診者が多く、大部分の受診者が受診した年度が、いわき市より1年遅いためでしょう。他の隣県の各地域も調べれば恐らく多発が見えてくると思います。私が周辺の県も症例把握をできるだけ早くしたほうがいいというのは、福島県だけでなく、周辺でも見つかり始めているからです。症例把握とは何も検診をするという意味に限定しているのではありません。被ばく者手帳システムを充実したり、がん登録システムを充実させたり、費用のかからない症例把握方法があり、実際に日本国内では機能しています。なお症例把握という点では、事故当時19歳以上の方々には一切なされていませんので、早急に把握を始めるべきだと考えます。発症する数自体は、チェルノブイリの経験から 19歳以上の方が多くなりそうなのです。
26. ここの病院には多くの医師が福島県立医大から派遣されています。今のところそんな増加があるという話を聞いたことはなく、この論文も全く話題になりません。一番神経質になっているはずのこの地域では、そんな感じです。
回答:福島県立医大から派遣の先生方には、福島県や福島県立医大のホームページもたまにはご覧くださいとお伝えください。私自身は、自分の大学のホームページを頻繁に見ているわけではありませんが、たまには拝見します。すでにお話ししましたように、病院で捉えられない地域の問題があるからこそ、サベイランスシステムや地域がん登録などのシステムが日本だけでなく先進諸国にはあるのです。
27. 勘違いしてほしくないのですが、「大丈夫だ」などとは思っていません。増えるかもしれないと思いながら地道な努力をしています。
回答:データの示すところは、桁違いの増え方がもう起こっています。特に、多発を否定するエビデンスがないのであれば、対策を遅まきながらも立案し始めねばなりません。決断がまだできなくても立案だけでもすべきです。対策の立案は、それだけでも時間がかかります。どうかせっかく集められたデータとその分析結果をご覧ください。決して目をそらさないでください。
28. 原発がまた壊れなければ、新たな放射性ヨード被曝を起こすことはありません。今できることは早期発見しかなく、大変な思いをしながらみなさん受けています。地道な検診を行っていくことで、原発事故の 10年後くらいには推論ではない事実がわかるでしょう。
回答:この問題は、甲状腺がんの2桁倍の著しい多発が現時点ですでに示された以上、数多くの対策が必要とされていることになり、その具体的立案と実行が急がれます。まずは、行政の信頼を回復させるためにリスクコミュニケーションをきちんと行なう必要があります。事故当初から、多くの専門家がこれまでの医学的エビデンスに基づいて、福島県では甲状腺がんの多発が起こり、それが分かってくるだろうという意見を出しており、その意見でさえ、私どもも含め非常に甘く低めすぎたということも、2013年2月13日の最初の10例の発表以降に分かってきました。その後は、予測通りあるいはそれを上回るペースで発見が続いています。それにもかかわらず、事故当初に「福島県内では事故によるがんの多発は起きない」もしくは「起きたとしても分からない」というあまりにもエビデンスに反する極端なアナウンスがなされてきたため、通常なら一応準備されているはずの対策も、立案すらなされていません。これは福島県内やその隣県において、この件に関する公衆衛生がほとんど機能していないことを示しています。
29. 問題はマンパワー不足です。福島県は全国ワースト 4位の医師不足県です。そうでなくても大変なのに、甲状腺のスクリーニングもしなければなりません。
回答:マンパワー不足を補足するために工夫していくこともまた公衆衛生の役割ですし、このような情報を知っていただくことにより、現実に合わせた適切な工夫も可能になると思います。
30. 「対策をとるべきだ」と言われたようですが、今の福島に検診以外の何があるのでしょう。それとも、川内原発が再稼働した鹿児島県のような、他の原発立地県に向けての発言でしょうか?
回答:私は原発稼働の有無にはほとんど関心がありません。ニュースで知っている程度です。私の周りの者も、川内原発の風下ではありますが、遠く離れている点もあり、ほとんど話題には上っていません。無関心で申し訳ございません。これからもう少し勉強します。一方、福島県の件は、単に、通常なら行われている分析や対策立案が全くなされていないために、お節介とは思いながらも、専門家として先進諸国では誰でも無料で受けられるはずのエビデンスに基づいた説明を、できるだけ簡潔に岩波の月刊誌『科学』での論考や論文にして示す必要を感じた次第です。まだ行われていない実効性のある安上がりの対策は、いくらでもあります。誰にでも議論すれば思いつきそうなそのような対策を、「福島県内では事故によるがんの多発は起きない」もしくは「起きたとしても分からない」という言葉が、完全に阻害させてしまっているのです。先生の「今の福島に検診以外の何があるのでしょう」というお言葉は、先生ご自身が思考停止を起こしておられるのを感じさせます。先生のご意見は、対策がないから因果関係を認めないというロジックに見えます。これは転倒した考え方です。対策がないなら、あきらめるか、対策を作り出せば良いだけです。対策がないから因果関係を認めないに論じることは誰もしませんし、決してするべきではありません。対立する意見の延長戦上で公衆衛生的対策を論じることもまた、すべきではありません。
外部被ばくは、100 mSv 閾値論という完全に誤った風説の流布により、実質的な放射線防護を一切させない方向へと作用しているのが現状です。これからの被ばくによるがんリスクの上昇を個人レベルの確率で考えればたとえ小さな上昇でも、被ばくする人数を考えると、がんの増加分の人数は無視できない数となります。低年齢者・胎児だけでも県内の低線量の場所への移動をさせるという選択はしないと、たとえ決断したとしても、このような移動はなしでも実行できるコストのかからない簡便な方法はいくらでも思いつくのです。こういう多様なアイデアを出し合うことすら、今の誤った100 mSv 閾値論は完全にブロックしています。そして国際放射線防護委員会 ICRP が唱える ALARA の原則もリスクコミュニケーションも福島県内では全く守られないままです。乳がんの自己検診よりずっと簡単にできそうな、甲状腺がん自己検診方法の開発と普及もまた、考慮さえされずに時間だけが経過しています。
31. 実際に当地で調べることもなく、地域のこともよくわからないまま書かれたのではないですか?ほとんどの日本人にはこの地域のことはわかりませんし、外国の人ならなおさらです。相馬市を「least」にしていること自体ナンセンスです。そうしたらたまたま数字が大きくなったんでしょうね。
回答:以前、東京医科大学の哲学の先生がテレビで言っておられたのですが、「富士山に登っている人だけが富士山のことをよく知っているのでしょうか?富士山に登ったことはなくても、富士山を遠くから眺め続けている人もまた、富士山のことをよく知っていると言えるのではないでしょうか?」というたとえ話があります。ましてや現在、福島県内では、福島県内で生じている疾患状況を数字として把握しそれを分析するという先進国では当たり前に行われている調査がほとんど行われず、そしてわずかな種類の集められたデータすらもほとんど分析されていません。ましてや分析結果や論文に基づいた、すなわちエビデンスに基づいたリスクコミュニケーションは全く行われていません。これでは科学的根拠に基づいた医学 EBM に、全く反する行政が結果として行われなかったというそしりを、後々、県の内外から受けるのは避けがたい状態です。症例把握のデータを通常の分析方法で分析し、そして示すこともまた、その地域を分かることのアプローチ法の1つです。ちなみに、相馬市をLeastの地域と同じように平成25年度に分類したのは私ではなく、福島県当局あるいは福島県内で現在進行している検診計画を立てられた先生方です。
32. スクリーニングバイアスを考慮しても 30 倍もの増加は高すぎるとの件ですが,津田先生の論文ではその高すぎるとする根拠が特に示されているわけではありません。参考までに,昨年の NEJM に,韓国ではありますが,スクリーニングによって甲状腺癌の“エピデミック”が起こったとする過剰診断の問題を見た報告が出ています。これを見るとスクリーニングで 30 倍程度増加することは想定範囲内ともとれます。
Korea's thyroid-cancer "epidemic"--screening and overdiagnosis. N Engl J Med 2014; 371: 1765-7
回答:高すぎるという根拠は、他のがんのスクリーニング効果の論文ならびに、本稿の表(非曝露あるいは比較的低曝露の地域での甲状腺スクリーニングの結果)これは論文に付随する eTable 1 でも示しているのですが、このようなスクリーニング効果込みの定量的な論文の見ていただければ幸いです。これだけの高さのスクリーニング効果を示す論文がないのです。ところで、New England Journal of Medicine の論文のご紹介ありがとうございました。この話しは学会等のスライドや配付資料で見ておりましたが、おかげさまで論文になっているのを知ることができました。この論文でも書いてありますように、観察されたスクリーニング効果はせいぜい15倍ぐらいと思われます。しかも、この論文の観察集団は、がん検診を受けるような年齢の方々です。例えそのようながん検診受診者の年齢層の方々のデータを、事故後 0-18歳(2014年12月31日時点では 3-22 歳)にあてはめることができたとしても 15倍程度なのです。福島県での 20-50 倍の一部しか説明できません。そもそも、甲状腺がんのように、年齢によって大きくその発生率が異なるがんのデータを、全く異なる年齢層にあてはめるのは注意を要します。そしてすでに本稿でも表にして説明しましたように、福島県のスクリーニング対象者と同じような年齢層におきましては、甲状腺がんのエコースクリーニングをおこなっても、ほとんど見つからないのです。論文ではせっかく定量的に推定しているのですから、その定量的な値を比べていただきたいものです。それが EBM の第一歩と思われます。
33. 元論文では甲状腺がんと確定されたのは 86例と記載され、これはすでに公表されている数と同じです。これが今回の論文の根拠となっているので、比較して数十倍、という数字そのものはありうると思います。スクリーニングで見つかったものなので、一般実臨床でそうと実感できないとも思います(数年で 86例、一般診療の外側で見つかったものですから、通常は気づかないと思います)。
また、近年のビッグデータを扱った研究もそうですが、公表されているデータを応用して研究を行うこと「そのもの」はまっとうな方法だと考えます。今回の論文の研究者たちが自分たちで生データをとらない、ということが論文の妥当性に傷をつけているわけではないと考えます。メタ分析とかもそうですよね。
それから、この論文にバイアスのリスクがあるからといって、この論文を全否定するのもよくないとは思います。どんな論文にもなんらかの瑕疵があるのは当たり前です。それをクリティークするのは正しい態度ですが、瑕疵がある=論文全否定もまた正しい態度とはいえません。実際、バイアスの可能性はあると思いますが、RR が本当でない、という根拠も充分ではありません。大抵の論文がそうであるように、この論文もさらなる評価を促すような論文なのだと思います。
チェルノブイリに関するがんの評価でもたくさんの多様な意見が(いまだに)あります。この問題は人災が故にとても政治化しやすいので、今回の論文も 「one of them」として中立的に見続けることが大事だと思います。
回答:この部分に関しましては、特に回答させていただくことはありません。ただ、「one of them」と言っても、エビデンスに基づいたり影響の推定値を示したりした論文は、まだ「one」しかなく「them」 になっていないのです。今後、「them」になることを期待したいところです。
34. 最後に、この研究は、放射線曝露「そのもの」とガン発症の関係を調べたものではないので、「因果」という説明に関しては弱いものだと思います。ただ、因果の厳密性を要求し過ぎるときの弊害(公害やたばこの害でそれは行われました)もあるので、実臨床的なロバストネス(ざっくりという意味での)も、ときに大切です。
回答:論文の原稿段階では当初書いていたのですが、操作変数 Instrumental Variable (IV)という考え方があります。元々は 1900年代前半に計量経済学の分野から出てきた考え方のようですが、現在では因果関係や交絡バイアスの影響を考える上で非常に重要な考え方で、IV を利用した疫学研究論文がたくさん出てきており、総説論文もあります。もちろん疫学理論のテキストにも記載されています。
IV 分析の、医師なら誰もが知る代表例は、第3相治験の際の ITT 分析(intention-to-treat analysis)です。治験でランダムに新薬と偽薬(もしくは従来薬)がそれぞれの群に無作為で割り当てられますが、治験の実施段階ではしばしばこの割り当て通りには行かず、実際に治験に参加した患者さんは、それぞれまちまちに薬を服用したり服用しなかったりあるいは逆の群の薬を服用したりすることが起こり得ます。そのことは、治験が終わってからある程度知ることができますが、たとえ実際のどのように薬を服用したのかということがかなり正確に分かったとしても、治験においては、その実際に服用したか否かの情報を用いずに、元々の割り当て通りに患者さんが服用したかのように分析します。この分析方法は ITT 分析と呼ばれます。この時、実際に服用したか否かの情報で分析し計測される影響の指標(オッズ比、リスク比、発生率比)よりも、割り当てされた情報に基づいて分析されて計測された影響の指標の方が、1の方向(toward the null)にバイアスされます。この結果、割り当てられた情報に基づいて因果判断しても(新薬を認可しても)、真の影響はもっと極端な値のはずですので、因果判断には間違いが生じないことになります。つまり、IVを用いて分析をすれば因果判断に関して慎重な態度になるとはいえ、因果関係があるという判断をした際には、実際に対象者個々人の曝露情報に基づいて分析するより相対危険度1の方向に揃って「正確」になることが期待できます。
環境疫学では特に地域などが、IV として曝露の代わりに用いられます。これは個別曝露測定がない場合に、個別曝露を測定した変数の代わりに地域での居住歴がIVとして用いられて影響の指標(オッズ比や発生率比)の推定に用いられるのです。ここで、地域での居住歴を代わりにIVとして用いますと、真の曝露測定値を用いた時とは結果が異なることになります。しかしこの情報バイアス(曝露の誤分類)の入った結果は、病気の発生とは独立して起こりますので、情報バイアスの分類の中の non-differential misclassification に分類され、そのバイアスの方向は toward the null、つまりこの場合IVを用いると、影響の指標が過小評価する方向にバイアスされます。つまり真の曝露に関する測定値があったとして、それを用いた時の真の影響の指標(オッズ比や発生率比)は、IVを曝露指標として用いた場合の結果よりももっと極端な、この場合は、より大きな影響を示していたはずであることが論理的に分かります。これはIVを用いた時の結果で影響を判断しても、判断しすぎは生じないことになります。私どもの考察においても、元々はこのようなIVについての説明も含めてもう少し詳しく関連文献も挙げながら書いておりました、しかし、この論文の simpleさや straightforwardさで十分なので、そこまで書かなくても良いと査読者から指摘され、字数の関係もあり、削られてしまいました。
後記に、私が別の機会に作成した簡単なIVに関する解説を貼り付けておきます。IV の考え方を用いれば、未知の交絡要因によるバイアスも調整していることになることがご理解いただけると思います。本研究は操作変数 IV の考え方が適用できる典型的な事例の1つと思われます。
______________________
最後に
個々のご指摘に丁寧に答えさせていただくことにより、私自身も点検になりますし、また論文の内容を専門外の先生方にもご理解いただけるようになります。ご指摘やご批判を感謝致します。ただ、私どもの論文が掲載された『Epidemiology』にも、他の国際誌と同様に Lettersという形で、論文への批判や指摘点を投稿するシステムがありますので、できましたらそちらをご利用いただければ幸いです。
http://edmgr.ovid.com/epid/accounts/ifauth.htm ( 『Epidemiology』投稿規定)
『Epidemiology』は専門誌の中ではインパクトファクターが高い方の学術誌です。学術雑誌上でのご質問として投稿していただくことにより、質問をされる先生方にとっても、私にとっても、Letterとはいえ、若干の業績として残ります。従って、このようなやりとりよりも仕事をしたことになると思います。ご質問いただきましたこと、御礼申し上げます。
津田敏秀
後記:操作変数 IV について
疫学関係分野で現在、最も包括的なテキストとして有名な Rothman KJ, Greenland S, and Lash TL編、『Modern Epidemiology』第3版(Lippincott-Raven Publisher 2008)の第12章(Glymour MM and Greenland S著)には、「Instrumental variable」(IV:操作変数)と題した節が、次のような書き出しで始まっている。
観察研究は、制御されない交絡と選択バイアスの疑いに常に曝されている。このこと は、多くの人々がランダム実験からの根拠を好む動機となっている。しかし、治療継続 の中断(治療を順守できない)や追跡不能例の頻度が上がると、ランダム化試験それ自 身が、かなりの交絡や選択バイアスに悩まされる可能性がある。図12-9は両方の現象を 描出している。観察研究では、Uは、X-Y関係の未知の交絡要因を表している。ランダム 化試験においては、Uは治療の割り当てを守ることに影響する変数、それゆえに治療Xを 受けることに影響を及ぼす変数を表している。図12-9では、Zは、YへのXの影響を推定 するための操作変数(もしくは操作)と呼ばれる。
その上で Rothmanらのテキストでは、周産期の事例で、次のような4つの操作変数の使用例を示している。
1.症状発現の日は、受けた病院治療の質を決定する可能性がある。しかし症状発現の日に関する以外の健康状態に影響を与える理由はほとんどない。症状発現の日はこの時、健康状態に対する病院治療の質の影響に関して、自然の操作となる。
2.産婦と新生児の出産での結果との関連において、分娩後の入院期間を研究するための操作として、出生時刻は用いることができる(Malkin et al. 2000)。
3.授乳カウンセリングをおこなっている病院において出産する母親は、母乳栄養をおこなう可能性がより高い。そのような病院における出生が子供の健康にそれ以外の影響をもっていない場合は、病院でのカウンセリングの有無(Yes/No)が、子供の健康における母乳の影響に関する操作となる。
4.乳がんを患った親戚を持つ女性は、閉経期ホルモン治療を受ける可能性は低い。乳がんを患った親戚を持つことが心血管疾患との他の要因との連結を持たない場合は、乳がんを患った親戚を持つことは、心血管疾患へのホルモン療法の影響に関して操作である。
また、疫学辞典第5版(A Dictionary of Epidemiology fifth edition)(Porta M, Greenland S, & Last JM編集、Oxford University Press 2008)には、以下のように記してある。訳は、日本公衆衛生協会の記載そのままである。
もともと計量経済学やある種の社会科学で用いられる分析方法であるが、曝露と効果に関して測定不可能な交絡因子が知られているような場合でも、一定の仮説のもとで因果関係を推測するものである。機器変量もしくは機器は、(1)曝露と関連があること、(2)曝露を通してのみ帰結に影響を及ぼすこと、(3)(コントロールできない)一般的な原因と帰結を共有しないこと、という条件を満足すべきである。
ちなみに、「操作変数もしくは操作」を、「機器変量もしくは機器」と訳しているが、操作という使い方の方が一般的で、「機器」という訳は通常しないので誤訳と言って良いだろう。(3)の部分も誤訳であり「帰結と何らかの(調整されていない)共通原因を共有していない」と訳さないと意味が通じない。これらの誤訳は、訳者が操作変数を初め、DAGという因果関係モデルに習熟していないことから生じていると思われる。DAGの知識は、疫学・生物統計学を学ぶ者にとっては今日基本的知識となっている。
現代疫学理論に基づくと、地域という操作変数を用いることによりIV分析では、non-differential な曝露の誤分類による過小評価があるものの、観察研究において交絡(未知の交絡要因を含む)や選択バイアスに悩まされることから、ほぼ解放されていると言うことができる。