海外の動き

アメリカのがんデータベースを比較 ーFlatiron Health/SEER/NPCRー

はじめに

近年、がん領域の臨床研究・医薬品開発においても、リアルワールドデータ(RWD)の利活用が進んでいます。1)特にアメリカではRWDの整備が進み、実際の臨床研究での利用においても日本を先行しています。2), 3)

これまでアメリカでは、がん研究におけるRWDのデータソースとして Surveillance, Epidemiology, and End Results program (SEER)およびNational Program of Cancer Registries (NPCR)がよく使用されてきました。近年は、電子カルテがその急速的な普及とデータマイニング技術の進歩によって、重要な情報源となってきています。特に、最近のがん研究ではFlatiron Health社の提供する電子カルテ由来のデータベースを利用するものが増えています。

今回は、これら3つのデータベースを比較した文献(Xinran Maらの報告4))を参考にして、その特徴や違いを紹介します。

電子カルテ由来データベースとレジストリの違い

がん領域研究で使われるRWDとして、患者レジストリ(疾患登録データ)や電子カルテ由来のデータベースがあります。4)

患者レジストリとは、ある特定の疾患に罹患した患者について、

  • 患者数や分布の把握
  • 臨床所見、治療内容、予後などの疾患データ収集
  • 治験・臨床研究へのリクルート

といった目的のために構築されたものです。5)

RWDが注目される以前から整備が進められ、医薬品等の治験・臨床研究などに用いられています。一般に特定の疾患ごとに作成され、その研究目的に必要な項目が一定の登録ルールの元で収集されるため、研究に必要なアウトカムが収集されることが多いと考えられます。6)

その半面、レジストリの構築や運用のコストが高く、また、データを入力する医師等の負担も大きくなりがちです。

一方、電子カルテ由来のデータベースは、電子カルテの普及および医療ICTの発展により近年急速に整備が進みました。処方・処置・病名・症状など日常診療を反映した大量で詳細な医療情報が時系列で得られます。日常的に使用する電子カルテから収集するため、導入した医療機関の全患者を対象にでき、網羅性が高いデータとなります。しかし、構造化されていないテキストデータも多く含まれ、実際に研究に用いるには構造化やクレンジングが必要なケースが多くなります。6)

Flatiron Health/SEER/NPCR の比較

Xinran Maらの報告4)を基に、3つのデータベースの特徴をまとめました。

概要

Flatiron Health database

Flatiron Health社は、がん領域に特化した電子カルテである「OncoEMR®」を開発運用し、全米の医療機関に提供しています。また、電子カルテから集めた膨大な臨床データを構造化して研究開発用のデータベースを構築しています。全米50州の280以上のがんセンターから得た、220万人を超える患者の記録が含まれています。

SEER

アメリカのNational Cancer Institute (NCI)によるレジストリのプログラムです。1973年より開始され、現在、米国の人口の約34.6%をカバーする人口ベースのがん登録から、がんの発生率と生存率のデータを収集して公開しています。SEERは、前年11月のデータ提出に基づいて、毎年春に新しい研究データを公表しています。また、様々ながんレジストリのデータだけでなく、がん統計の分析と解釈のための専門的な手法とソフトウェアを提供しています。

NPCR

NPCRは、疾病管理予防センター (CDC)による全米におけるがん登録プログラムです。1992年に成立したがん登録修正法により、SEERプログラムを全米に拡大する形で組織されました。46の州を含む全米のがん人口の97%をカバーしています。NPCRは、資金提供、技術支援、およびデータ収集および処理用のソフトウェアの開発を通じて、医療機関などによるデータ収集をサポートしています。

データベースの主な特徴の比較

  SEER NPCR Flatiron Health
データの取得に関して
データソース
  • 州の疾病レジストリが、医療機関などから、がんの診断および治療に関する情報を受け取る。
  • 特定の地域や人種の代表的な分布となるように、事前に調整されている。
  • 死亡率の情報は、CDCのNational Center for Health Statistics (NCHS) の National Vital Statistics System (NVSS)から得ている。
  • 46の州とワシントンD.C.の疾病レジストリから、専門の医療従事者から得たがんの診断データが集められる。
  • 死亡率の情報は、CDCのNVSSから得ている。
  • Flatiron社のネットワークに参加する地域がんセンター、アカデミックのがんクリニックの電子カルテ。
  • がん以外の医療現場や参加クリニック以外の施設から日常的に収集された情報。
  • 死亡率は、複数のデータソース(電子カルテ情報、商用の死亡データソース、Social Security Death Index)を統合した複合変数によって評価。
データ収集のアプローチ
  • SEERおよびNorth American Association of Central Cancer Registries(北米中央がん登録協会: NAACCR)のデータ基準に基づいてデータを収集。
  • データの質と完全性の基準を満たすように作成。
  • データの完全性の基準を満たすように作成。
  • 医師が日常的に記録・入力しているものを元とする。
データの分類・整理方法
  • 非構造化データおよび構造化データは、専門の腫瘍登録担当者によって抽出され、データ収集テンプレートにテキスト入力する。
  • データの登録を容易にするために、NAACCRによって文書化され統一化されたデータ項目およびコードを使用している。
  • 非構造化データおよび構造化データは、専門の腫瘍登録担当者によって抽出され、データ収集テンプレートにテキスト入力する。
  • 一部の病理報告書は電子的に受信される。
  • データの登録を容易にするために、NAACCRによって文書化され統一化されたデータ項目およびコードを使用している。
  • 構造化済みのデータは共通の単位や用語の基にまとめられ、手作業により抽出された非構造化データと結合される。
  • がんの専門家の監督の下に訓練された専門の担当者が抽出作業を行っている。
  • ICD-9またはICD-10のがんコードを少なくとも1つ持つ。
公開までの期間 2年 2年 通常30日後
データの登録内容について
人口統計 年齢、性別、人種、民族、保険の種類、地理的位置 年齢、人種、民族、地理的位置 年齢、人種、民族、保険の種類、地理的位置
がんの詳細 初診日、原発腫瘍部位、限定的なバイオマーカー情報、診断時の形態・組織、性状、側方性、ステージ 初診日、原発腫瘍部位、限定的なバイオマーカー情報、診断時の形態・組織、ステージ 初診日、原発腫瘍部位、診断時の形態・組織・ステージ、標準的バイオマーカー情報、進行・転移診断日、転移部位
治療法

初診時の最初の治療方針

  • 診断・処置
  • 手術
  • 放射線治療
  • 全身療法(化学療法、免疫療法など)

初診時の最初の治療方針

  • 手術

進行性転移性疾患の診断後に受けた治療の時系列データ

  • 手術
  • 放射線治療
  • 全身療法(種類、投与量、投与日など)
死亡率 原因別の死亡率 死亡率 死亡率、Real world progression (rwP)7)

がん種ごとの患者比較

Xinran Maらは、これら3つのデータベースについて詳細な比較を行っています。

比較に用いたがん患者の総数は

  • Flatiron Health database: 201,570件
  • SEER: 1,719,277件
  • NPCR: 6,308,342件

であり、19のがん種について分析しています。

主ながん種について、比較に用いた登録患者数を以下に示します。SEER、NPCRは2011年1月1日から2016年12月31日までに診断された悪性症例、Flatiron Healthは2011年1月1日から2019年5月31日までに記録されたがん患者数となります。

  全患者数 ステージIVの患者数
SEER NPCR Flatiron Health SEER NPCR Flatiron Health
2011~2016 2011~2016 2011~2016 2011~2019 2011~2016 2011~2016 2011~2016 2011~2019
膀胱がん 119,010 453,393 5,197 7,779 10,558 24,531 1,841 2,729
転移性乳がん 388,064 1,379,999 10,219 19,890 22,092 81,977 4,534 6,236
初期の乳がん 388,064 1,379,999 2,253 3,030
大腸がん 159,140 569,605 15,137 21,914 30,852 120,049 8,153 12,613
多発性骨髄腫 38,519 139,422 6,927 9,696
非小細胞性肺がん 223,742 903,355 38,782 55,554 104,816 435,937 24,147 34,530

Flatiron Health databaseは、全患者数ではSEER, NPCRよりかなり少ないものの、ステージⅣや多発性骨髄腫では比較的割合は高く、それなりの患者数がいることが分かります。

膀胱がん患者比較

例として膀胱がんについて比較しました。人口統計などの比較結果は以下の通りです。図はXinran Maらの文献4)をもとに作成しました。

*国勢調査の値は、アメリカ合衆国国勢調査局より取得。

がんのステージや転移の状況は各データベースによって違いが見られるため、行う研究によって適切なデータベースが変わることが予想されます。

Xinran Maらの論文には、他のがん種についても比較結果を掲載されていますので、興味のある方はご覧ください。

比較結果のまとめ

3つのデータベースについて全体的な比較結果をまとめると次のようになります。

  • 年齢別分布では、Flatiron Health社データで80歳以上の患者の割合が全体的に少ない。これは、患者レジストリ(SEER, NPCR)では、診療情報だけでなく、死亡報告書や検死報告書からのデータも含まれていることが一因と考えられる。
  • 地域分布では、NPCRのデータが国勢調査の地域人口分布と最もよく一致している。Flatiron Health社データは次に近いものの、南部にやや偏りがあり、西部が少なくなっている。SEERのデータは、その設計上、最も乖離していて、特に西部が多い。
  • 人種・民族の分布については、Flatiron Health社データで不明の割合が多い。SEER、NPCRでは一定レベルの完全性を達成するように義務付けされていることから、これらでは不明の割合が少ないものと考えられる。
  • がんのステージ情報では、Flatiron Health社データで不明の割合が多い。Flatiron Health社データは、電子カルテ由来であり、ステージ情報の多くが構造化されていないテキストデータに記録される。これに対して、SEERではがん登録担当者がルールに従って入力するため、この差はデータ収集法の違いに起因している。

最後に

今回は、電子カルテ由来と患者レジストリ由来のデータベースの比較を行いました。全体的には類似しており、どちらも研究対象として十分信頼できるデータモデルになると考えられます。一方で、こまかな部分では違いがみられました。その原因として、データソースやデータ取得ルール・登録方針の違いによるもの、がん種による患者特性違いに起因するものなどの要因が考えられます。今後、日本国内で構築が進むRWDを用いた研究を行う際も、データベース間の違いを考慮して研究を実施したり、研究結果を解釈する必要がでてくるでしょう。
※データベースに関するご相談も受け付けていますので、こちらよりお問い合わせください。

引用

  1. 東郷 香苗、 川松 真也ら「3.医薬品開発におけるリアルワールドデータ活用への期待 ―製薬企業の視点より―」 薬剤疫学 2019 24巻 1号 p.19-30 https://doi.org/10.3820/jjpe.24.19, https://www.jstage.jst.go.jp/article/jjpe/24/1/24_24.19/_article/-char/ja
  2. 増元 浩、松木 大造ら 「日米における疾患レジストリの臨床試験および新薬承認申請への利用比較」 レギュラトリーサイエンス学会誌 2019 9巻 2号 p.51-67 https://www.jstage.jst.go.jp/article/rsmp/9/2/9_51/_article/-char/ja
  3. 祖父江 友孝 「わが国におけるがん登録の現状と今後の方向性–がん対策の情報基盤としての役割 」 保健医療科学 2008-12 57(4) p.347-350 https://warp.da.ndl.go.jp/info:ndljp/pid/240916/www.niph.go.jp/kosyu/2008/200857040011.pdf
  4. Xinran Ma, Lura Long, Sharon Moon, Blythe J.S. Adamson, Shrujal S. Baxi, Comparison of Population Characteristics in Real-World Clinical Oncology Databases in the US: Flatiron Health, SEER, and NPCR, medRxiv 2020 https://www.medrxiv.org/content/10.1101/2020.03.16.20037143v2.full
  5. 酒井 良子 「レジストリとその利活用 その1」 社会薬学 2018 37巻 2号 p.156-158 https://www.jstage.jst.go.jp/article/jjsp/37/2/37_156/_article/-char/ja
  6. 日本製薬工業協会 医薬品評価委員会 臨床評価部会 2020年度タスクフォース1 「製薬企業における疾患レジストリの利活用と患者参画型レジストリの動向」2021 https://www.jpma.or.jp/information/evaluation/results/allotment/lofurc0000005itt-att/bd_rwd_202105-3.pdf
  7. Griffith SD, Tucker M, Bowser B et al. Generating real-world tumor burden endpoints from electronic health record data: comparison of RECIST, radiology-anchored, and clinician-anchored approaches for abstracting real-world progression in non-small cell lung cancer. Adv Ther. 2019; 36, 2122-2136. https://pubmed.ncbi.nlm.nih.gov/31140124/
二宮 英樹 CEO

ラ・サール高校、東京大学医学部医学科卒業。脳神経外科を経て、株式会社メドレーではオンライン病気事典及び遠隔診療に従事した。株式会社トライディアでデータサイエンティストとして、企業向けデータ解析・AI開発に従事。株式会社データックを創業。医療データ解析をするなかで、医療データの収集体制づくりの大切さを痛感。医療データ収集システムしてiPad問診システム、医療言語処理技術の開発を行っている。「医療4.0」では日本の医療革新に関わる医師30人に選出。

二宮 英樹をフォローする
シェアする
二宮 英樹をフォローする
RWD Navi
株式会社データック
RWD Navi 運営者情報

RWD Navi(リアルワールドデータ・ナビ)はリアルワールドデータの価値を最大化することを目的としたメディアです。運営者である株式会社データックは「医学の知の創出を加速する」をビジョンに掲げ、臨床家と疫学者による研究提案で最適な意思決定を支援します。

DATACKコーポレートサイトを見る

タイトルとURLをコピーしました