banner
ホームページ / ブログ / 統合されたリアル
ブログ

統合されたリアル

Sep 01, 2023Sep 01, 2023

Scientific Data volume 10、記事番号: 367 (2023) この記事を引用

メトリクスの詳細

膨大な数の COVID-19 データ カタログが存在します。 ただし、データ サイエンス アプリケーション向けに完全に最適化されたものはありません。 一貫性のない命名規則とデータ規則、不均一な品質管理、疾患データと潜在的な予測因子間の整合性の欠如が、堅牢なモデリングと分析の障壁となっています。 このギャップに対処するために、私たちは、新型コロナウイルス感染症の疫学および環境データの多数の主要な情報源からのデータの品質チェックを統合し、実装する統合データセットを生成しました。 当社は、世界的に一貫した行政単位の階層を使用して、国内および国を超えた分析を容易にしています。 このデータセットは、この統一された階層を適用して、新型コロナウイルス感染症の疫学データを、水文気象データ、大気質、新型コロナウイルス感染症対策政策に関する情報、ワクチンデータ、主要な鍵など、新型コロナウイルス感染症リスクの理解と予測に関連する他の多くのデータタイプと連携させます。人口統計上の特徴。

現在進行中の新型コロナウイルス感染症(COVID-19)のパンデミックは、世界中で広範な病気、人命の損失、社会的混乱を引き起こしています。 公衆衛生上の危機が続く中、ウイルスの蔓延を追跡し特徴づける緊急の必要性とまたとない機会が存在します。 これには、人口動態、地理的、社会政治的、季節的および環境的要因に対する疾病伝播の時空間的感受性についての理解を向上させることが含まれます。

世界の研究およびデータ サイエンス コミュニティは、新型コロナウイルス感染症の感染者数、入院数、死亡率、ワクチン接種、その他の新型コロナウイルス感染症の発生率と負担の指標に関するデータを収集、カタログ化し、広めるための幅広い取り組みでこの課題に対応してきました1、2。 3、4、5、6、7、8、9、10、11、12、13、14。 これらのデータベースは膨大な量の研究、リスク監視、公開討論をサポートしてきましたが、多くの場合、構造、命名規則、値、解像度、品質に一貫性がなく、感染症データと潜在的なリスク要因の間の整合性が欠如しています。 これらの問題では、さまざまなソースからのデータを結合するために多大な労力を要するクリーンアップが必要となり、研究の進行が遅れ、研究の品質に影響を与える可能性があります。 さらに、気候や人の移動などのリスク要因を定量化する重要なデータセットはバイアスや利用可能性の制限を受けやすいため、データ処理にさらなる課題が生じています。

さまざまなソースからのさまざまな種類のデータをさまざまな粒度レベルで利用するには、それらを組み合わせて調和させる必要があります。 適切な調和、キュレーション、一貫性チェックがなければ、これらのデータセットを分析すると、誤った結果が生じる可能性があります。 これらの問題に対処する統合データセットは、さまざまなデータ ソースのクリーニング、標準化、マージに必要な余分な時間のかかる手順を排除することで、マルチスケールの時空間モデリングを通じて新型コロナウイルス感染症のリスクについての理解を加速するのに役立ちます。 例として、報告された症例数と推定 1 日あたりの感染者数を含む 2 つの異なるデータ ソースから実効再生産数 (Rt) の推定値を生成するテスト ケースを提供します。これらのデータは、変数名の統一に時間を費やすことなく、統合データセットから直接インポートされます。 /types とデータのクリーニングまたは地理参照。

したがって、当社の統合新型コロナウイルス感染症データセットは、(1) 複数の管理レベルで信頼できるデータソースからの命名規則とコーディング規則を調和させる、(2) さまざまな種類の新型コロナウイルス感染症感染者数の品質管理を実施する、(3) 潜在的な予測因子を体系的に調整することを目的としています。 (4) リアルタイムの更新と修正を提供し、関連する変数の新しいソースが利用可能になったときに組み込みます。 具体的には、統合された 新型コロナウイルス感染症データセット セットには、人口動態、水文気象学、大気質、政策、ワクチン接種、医療アクセスなどの疫学の主要コンポーネントが含まれ、すべての地理空間単位をグローバルに一意の識別子にマッピングし、管理名、コード、日付、データを標準化します。型と形式では、変数名、型、カテゴリが統一されます。 また、同じ地理単位の名前の矛盾、異なる報告戦略とスケジュール、疫学変数の蓄積によって生じる紛らわしいエントリを修正するためにデータを厳選します。 データセットはアクセス可能な形式で配布され、高品質の再現可能な研究をサポートするために機械学習アプリケーション用に最適化されています。 このデータセットが利用可能になったことで、複数の国にわたる地域レベルの解決策での新型コロナウイルス感染症の危険因子の分析 15、16、17、18 や、パンデミックの過程における危険因子の変化の研究 19 が容易になりました。

私たちはさまざまな情報源から疫学データを編集し、データ記録を翻訳し、利用可能な症例タイプを確認します。 次に、変数名と単位名が標準化され、統一された地理空間識別子 (ID) を使用して地理コード化され、さまざまな管理レベルでの集約と単一の時変疫学データセット ファイルへの一貫した結合をサポートします。 生データに含まれない症例タイプは、可能な限り既存の症例タイプから導出されます (例: 確認された症例、回復、死亡から活動中の症例を導き出す)。 ルックアップ テーブルは主要な地理名とコードを提供し、大気質推定値を含む静的データ フィールドは別のデータセット ファイルに結合されます。 時間とともに変化する水文気象データと政策データが処理されて、毎日の解像度で各地理空間 ID の変数と指数が抽出されます。 FAIR データ原則 20 に従って、当社は、データが永続的な DOI、適切なメタデータ、インデックス作成を通じて検索可能であり、標準プロトコルを通じて取得できる無料でオープンなリソースとしてアクセス可能であり、広く使用されているデータの使用において相互運用可能であるというアプローチを採用しています。データの形式と構造、およびライセンスと出所情報の提供およびデータ標準への準拠を通じて再利用可能です。

データセットは、図 1 に示すデータ調和フローチャートに従い、複数のタイプおよびリソースにわたる異種の多次元データを統合します。 地理空間識別、変数タイプ、変数名、データ構造に至るまで、複数のデータ タイプを標準化する必要があります。 すべての地理空間単位を一意の識別子にマッピングします。 空間データセット内の各ユニットは、一意の地理空間 ID にマッピングされます。これにより、データ ソース、タイプ、変数、時刻/日付、その他のディメンションなどの他のグループ化要素とともに、統一 ID によってデータセットを結合できます。 国家レベルの ID は ISO 3166-1 alpha-2 コードに基づいており、地方データは連邦情報処理標準 (FIPS) コード (米国)、統計地域単位命名法 (NUTS) コード (欧州)、ISO 3166- を使用します。 2 つのコード (世界の州または州)、およびローカル ID (世界の管理レベル 2 および 3)。 これにより、統一された変数名、ID、タイプ、カテゴリを使用して管理名、コード、日付、データ タイプ、および形式が標準化されるほか、データが管理され、レコードがリンクされ、同じ地理単位の名前の競合から生じる曖昧さが排除されます。そしてさまざまなレポート戦略とスケジュール。

統合された COVID-19 データセットのデータ調和のフローチャート。

データを地理参照するには、まず元のデータ ソースの ID (識別子またはコード) とシェープファイル (利用可能な場合) を使用して、UTF-8 エンコーディングを使用した英語の標準化された名前をマッピングします。 当社は、さまざまなコーディング システム (ヨーロッパの場合は地域単位統計 (NUTS) システム、ドイツの場合は自治体公式キー/Amtlicher Gemeindeschlüssel (AGS)、ドイツの場合は連邦情報処理標準 (FIPS) コードなど、さまざまなコーディング システムからの標準変換を使用して統合機能を実装します。米国の郡と州)と単位名を統合地理空間 ID システムに組み込み、組み込みの再コーディング機能またはルックアップ テーブルを介して、同じ地理単位の既知の重複のあいまいな名前に対処します。 データ検証と一貫性チェックが適用され、標準化された名前が正しくマッピングされ、元の名前および地理座標と一貫していることが確認されます。 地理的単位がより小さなサブ領域に分割される場合、新しい ID が高解像度の単位に割り当てられます。 ID とシェープファイルが初期データセットで提供されていない場合、データは名前によってマージされ、一意の識別子に手動でマッピングされます。 ユニット名は標準化されたコードに変換され、そこで問題のあるエントリが検出され、手動で検査されます。 ルックアップ テーブルは標準化された地理名とコードを提供し、既知の問題と再コーディングの例外に対処するために統合関数が更新されます。 変数タイプ、変数名、データ構造などの他のデータセットの機能を調和させるために、追加のアプローチが実装されています。

データセットの空間範囲を図 2 の世界地図に示し、地理空間 ID システムを図 3 に示します。国家レベルの ID は ISO 3166-1 alpha-2 コードに基づいています。 米国の地方行政レベル (州および郡レベル) は、連邦情報処理標準 (FIPS) コードに基づいています。 ヨーロッパの場合、すべての行政レベルで地域単位統計 (NUTS) コードが使用されます。 世界的に、主要な下位区分 (例: 州または州) は ISO 3166-2 コードを使用しますが、より高い解像度の単位はローカル識別子に基づいています (例: ブラジルの場合、自治体はブラジル地理統計研究所の IBGE コードを使用します)。

統合された COVID-19 データセットの空間カバレッジ マップ (管理者 0 = 全国、管理者 1 = 第 1 の行政レベル (州、県など)、管理者 2 ~ 3 = 第 2 および第 3 の行政レベル (郡、地区など)。

統合された COVID-19 データセットに使用される地理空間 ID。

ほとんどのコンポーネントは毎日更新されますが、水文気象変数の時間のかかるデータ抽出は、人口重み付けの有無にかかわらず毎月更新されます。 このデータセットは、広くアクセスされている JHU コロナウイルス ダッシュボードのソースであるジョンズ ホプキンス大学 (JHU) のシステム科学工学センター (CSSE) を通じて配布されています1。

表 1 は、さまざまなユニット ID、名前、コード、重心座標、人口を含むルックアップ テーブル キーをまとめたものです。 完全な統合データセットは Zenodo21 で入手できます。

毎日の COVID-19 感染者数は、CSSE の JHU コロナウイルス ダッシュボードなどのさまざまなデータ ソースから取得され、診断された行政単位に地理参照されます 1、2、3、4、5、6、7、8、9、10、 11、12。 さまざまなケースタイプの複数のデータソースをマージします。 これには、さまざまな言語からの変数名の翻訳、さまざまなデータ形式の変換 (たとえば、ドイツの RKI データからの毎日のカウントの集計)、すべてのデータ ソースに対する集計カウントのチェックが含まれます。 表 2 に疫学データ構造を示します。 表 3 は、確認された症例、死亡、入院、検査結果など、さまざまな症例の種類を説明しています。

過小報告や検査能力の制限などの報告上の問題の分析を容易にするために、保健指標評価研究所 (IHME) からの推定 1 日感染者数も統合しました13。 図4は、毎日の感染者数と報告された新型コロナウイルス感染症(COVID-19)症例数の疫学的推定値と、米国における対応する実効再生産数(Rt)推定値の比較を示しています。 これは、一貫性のない場所名と識別子を使用する可能性のあるさまざまなデータソースにわたる分析と疫学推定のために、統合データセット内の調和された新型コロナウイルス感染症データを利用する例でもあります。 疫学的推定値 (感染日および Rt 別の症例数) は、米国の国および州レベルの両方のデータセットとともに提供されます。 これらの推定値は、EpiNow2 および EpiEstim R パッケージ 14、22、23 を使用して生成されます。 EpiEstim は、妥当な値の範囲でリサンプリングすることにより、生成間隔の平均と標準偏差の不確実性を考慮します。 EpiNow2 は、レポートの遅延も考慮したベイジアン アプローチを使用します。 Rt の推定に必要なパラメーター、特に潜伏期間と連続間隔の分布は、文献 24、25、26、27、28 から得られます。

米国の疫学推定と報告された 新型コロナウイルス感染症 (COVID-19) 症例数。 (A) 推定の 1 日あたりの感染者数 (破線) と報告された症例数 (縦棒)。 (B) 1 日当たりの感染者数の推定値から推定した実効再生産数 (R)。

世界と米国のワクチン データは、ジョンズ ホプキンス大学市民影響センターのコロナウイルス リソース センター (CRC) から調和され、統合されています29。 完全または部分的にワクチン接種を受けた人の累計数は、利用可能な場合は常に提供されるワクチン、および投与(一般または1回目または2回目として)、割り当てられた、またはワクチン接種サイトに出荷/到着した用量を含む用量タイプによって提供されます。 表 4 はワクチン データセットの整合バージョンのデータ構造を示し、表 5 はさまざまな用量タイプを示しています。

多くのウイルス性疾患と同様、エアロゾル化した SARS-CoV-2 と COVID-19 の感染の安定性は水文気象条件に左右されます。 新型コロナウイルス感染症の主な感染要因である人間の行動と社会的相互作用も、地域の水文気象条件と密接に関係しています。 これらの理由により、この統合データセットが水文気象変数の時空間変動を特徴付ける能力は、新型コロナウイルス感染症の感染を理解することに密接に関係しています。 多くの研究で、気象と新型コロナウイルス感染症の感染率との関係が発見されています30、31、32、33。 しかし、これらの研究が示しているように、特定された関係は研究全体で必ずしも一貫しているわけではなく34、パンデミックのさまざまな地域または段階ごとに気象学的影響に違いがある可能性があり、広範な疫学傾向に影響を与える水文気象学的影響の相対的重要性は不確かである。 大規模なグリッド化された水文気象データセットは、専門家以外にとって作業が困難な場合があり、単純な気象観測所のデータは、必ずしも大きな地理単位全体を代表するとは限りません。

水文気象学を COVID-19 予測に統合する研究を促進するために、統合データセットに複数の水文気象変数を含めています。 表 6 は NLDAS-2 および ERA5 から抽出された水文気象変数を示し、図 5 は 2020 年の平均の地図を示しています。 人口の重み付けは、各ユニット内での曝露される人間の集団の空間分布の変動を考慮して、グリッド化された環境データ (水文気象と大気の質) に適用されます。 Gridded Population of the World v4 (GPWv4) の人口数データは、国連の推定値と一致するように調整され、Center for International Earth Science Information Network (CIESIN) の社会経済データおよびアプリケーション センター SEDAC35 から取得されています。 次に、これらのカウントは、各グリッド セルに含まれる行政階層の各レベルで各単位内の人口の割合を計算し、グリッド化された環境変数にこの割合を乗算して、行政単位の合計を計算することによって重みとして適用されます。 これらの変数は、NLDAS-2 気象力とノア陸地表モデルでシミュレートされた地表水文場を使用して、第 2 世代北米土地データ同化システム (NLDAS-2) と第 5 世代ヨーロッパ中期天気予報センター ( ECMWF) 地球規模の気候の大気再解析 (ERA5)36,37。 ERA5 と NLDAS は両方とも、観測値とモデル出力を同化して、データにギャップや欠損値のない気象変数の連続マップを提供します。これは観測値だけでは達成できません。 NLDAS (緯度 0.125° × 経度 0.125°) と ERA5 (緯度 0.25° × 経度 0.25°) の優れた空間分解能は、以前のデータセットに比べて大幅に向上しており、両方のデータセットは観測に対して広範にテストされ、観測された量を捕捉することがわかっています 36、 37、38。 ERA5 と NLDAS は 4 ~ 6 日のレイテンシで利用できるため、これらのデータセットは、ほぼリアルタイムで新型コロナウイルス感染症の動態を予測するのに特に適しています。 NLDAS は本土米国のみで利用可能ですが、ERA5 は世界中で利用可能です。

データセットに含まれる 10 個の水文気象変数の世界的な地理的分布 - 2020 年のすべての日次値の平均。

2020 年 1 月 1 日以降のグリッド化された時間ごとの ERA5 および NLDAS データを取得します。 時間ごとのデータは、変数に応じて日次の平均値、最大値、最小値、または合計値に変換されます。 陸海マスクが水文気象データに適用され、水グリッド セルが分析から除外されます。 平均値は行政単位ごとに単純平均と人口加重平均の2種類が用意されています。 少数の行政単位には、境界が不規則であるか面積範囲が狭いため、ERA5 または NLDAS グリッド セルが含まれていません (例: NUTS 3 区画の約 15%)。 この場合、逆距離加重補間法を使用してユニットの地理的重心における気象値の値を推定し、その後、これらの補間値を使用して単純平均と人口加重平均を計算します。

大気汚染物質への長期曝露は、重篤な新型コロナウイルス感染症の影響に対する感受性を高める可能性があります39,40,41。 私たちは、この潜在的な影響を研究に組み込むことができるように、地表レベルの年間平均二酸化窒素 (NO2) と微粒子状物質 (PM2.5) の長期平均を提供します。 我々は、化学輸送モデルと地理的加重回帰手法からモデル化された PM2.5 と AOD の間の地球物理学的関係を使用して、地球観測衛星からのエアロゾル光学深度 (AOD) の観測結果から地表レベル PM2.5 の全球推定値を取得するデータセットを使用します42。 全球の NO2 推定値は、オゾン監視衛星による対流圏 NO2 カラムの年次衛星観測を用いた全球土地利用回帰モデルからの予測濃度をスケールすることによって導出されます 43,44,45。

PM2.5 と NO2 のデータセットは、ネイティブ解像度 (それぞれ緯度 0.01° × 経度 0.01° と 1 km × 1 km) から緯度 0.05° × 経度 0.05° に再グリッドされ、2014 年から 2018 年の平均化されます。 行政単位の PM2.5 と NO2 の単純平均と人口加重平均の両方を計算します。

表 7 に記載されている時変政策対応データは、表 8 にリストされている政策タイプ (4 つの政策カテゴリを含む) についてオックスフォード 新型コロナウイルス感染症政府対応トラッカー (OxCGRT) から処理されています。 (i) 封じ込めおよび封鎖政策: C1:学校閉鎖、C2: 職場の閉鎖、C3: 公的イベントの中止、C4: 集会の制限、C5: 公共交通機関の閉鎖、C6: 自宅待機要件、C7: 社内移動の制限、C8: 海外渡航規制、(ii)経済政策: E1: 所得支援、E2: 債務/契約救済、E3: 財政措置、および E4: 国際支援、(iii) 医療制度政策: H1: 広報キャンペーン、H2: 検査政策、H3: 接触者追跡、H4 : 医療への緊急投資、H5: ワクチンへの投資、H6: 顔の覆い、H7: ワクチン接種政策、および H8: 高齢者の保護、および (iv) その他の政策: M1: 封じ込めの健康、経済に関するワイルドカードおよび政策指標支援と政府の対応。 ポリシーは、全員に適用されるか (E ポリシー タイプのサフィックス)、ワクチン接種を受けていない人 (NV ポリシー タイプのサフィックス)、ワクチン接種を受けた人 (V ポリシー タイプのサフィックス)、または大多数に適用されるか (M ポリシー タイプのサフィックス) に応じて区別されます。 詳細については、OxCGRT のコードブック、インデックス方法論、解釈ガイド、およびサブナショナル解釈を参照してください46。

表 9 に記載されている疾病管理予防センター (CDC) が定義する、新型コロナウイルス感染症の罹患率と死亡率のリスク増加に関連する基礎疾患の有病率に関する国家レベルのデータと米国行政レベル 1 のデータは、複数の情報から編集されました。ソース。 これらの併存疾患には、ヒト免疫不全ウイルス (HIV) 感染症の蔓延、肥満、高血圧、喫煙、慢性閉塞性肺疾患 (COPD)、心血管疾患 (CVD) が含まれます 47。 さらに、併存疾患により新型コロナウイルス感染症のリスクが増加している人口の割合を示す国レベルの指標が、クラークらの推定に基づいて編集され、統合データベースに組み込まれています48。 データは、信頼できる保健機関、保健研究センター、国際機関および国内機関、研究雑誌、学術機関に関連するオンラインの情報源から収集されました48、49、50、51、52、53、54、55、56、57、58。 コンパイルが完了すると、対応する利用可能なすべてのデータを含む最終的なデータ構造が Microsoft Excel で作成されました。

表 9 に示すように、SARS-CoV-1 および MERS の流行による国内の症例数は、パンデミックの経験を示す代理指標として統合データベースに組み込まれており、これは備えに関連している可能性があります 59,60。

医療やその他のインフラへの人口レベルのアクセスは、接触率や新たな感染者や感染しやすい人の導入、新たな感染者の確認、治療、感染のスピードと可能性に影響を与えることにより、地域規模でのパンデミックの軌跡に影響を与える可能性があります。医療情報システムに登録されています。 表 10 に、統合データセットに含まれるアクセシビリティの 3 つの指標を示します。 陸上交通機関による最寄りの都市へのアクセス (Access_City) は、1 メートルの移動に必要な分として定量化され、マラリア アトラス プロジェクト (MAP) によって提供された「都市へのアクセス 2015」ラスター ファイルからゾーン統計を抽出することによって取得されました61。 ラスター ファイルは、任意の地点から最も近い都市までの最速の移動速度を表します。 これは、最速の交通手段が優先されるグリッドに、さまざまな空間的位置および地形条件での移動時間をマッピングすることによって計算されました62。 Weiss 氏らは、同様の方法論を使用して、OpenStreetMap、Google マップ、および学術研究者からのデータを利用して、電動交通機関を利用できる場合と利用しない場合の医療施設までの移動時間のマップを作成し、そこから移動時間を特徴付ける 2 つの変数 (分) を取得しました。医療アクセスの指標として、2 つの交通手段 (Access_Motor: 電動交通機関が利用可能、Access_Walk: 電動交通機関が利用できない) によって最寄りの医療施設までアクセスする63。 同等のアクセシビリティ指標の国固有の推定値が存在し64,65、場合によってはグローバル MAP 製品よりも利点がある可能性がありますが、当社では、対象範囲の完全性と標準化された方法論により、地域や国全体での比較可能性が高い後者を優先しました。

表 10 は、WorldPop66 の人口密度と年齢構成を示しています。

総人口 (WorldPop)、人口密度 (WorldPop_Density)、65 歳以上の総人口 (WorldPop_65)、および男性 (WorldPop_M) と女性の両方の総人口 (WorldPop_F) は、2020 年の制約なし全球モザイク ラスターを使用してゾーン統計を抽出することによって取得されました。 WorldPop 空間データセットからの 1 km 解像度のファイル。これは、国勢調査、測量、衛星および携帯電話のデータを利用して生成された、世界をカバーするグリッド地理空間レイヤーのオープンアクセスで調和されたセットです。 男性対女性の人口の比率 (Sex_Ratio) は、女性の人口を男性の人口で割ることによって計算されました。

データ ソースを表 11 に示します。

統合データは、世界保健機関 (WHO)、米国および欧州疾病予防管理センター (CDC) などの利用可能な信頼できるデータ ソースとすべてのフィールドをチェックおよび比較することにより、処理の前後で定期的に検証されます。さまざまな情報源9、10、11。 データ フィールドのタイプ (整数、倍精度、文字、日付など) と日々の変更率をチェックすることで、重大な矛盾や非現実的なデータ (不正なデータ フィールドやタイプ、負の数、信じられない値など) が自動的に検出されます。 JHU CSSE の自動異常検出システムに加えて、統合データを調査および修正します。このシステムは、毎日の感染者数の突然の急増やマイナスの増加を検出するように設計されています。 異常検出とデータ修正は、最近の傾向、総人口、データ ソースを考慮して、地理空間 ID ごとにグループ化されます。 さらに、地理空間 ID は、すべての地理単位の対応する ISO コードとシェープファイルを使用して検証されます。 データセットのすべてのコンポーネントは毎日更新され、症例数の修正や再割り当てを含む、元のソースからのすべての遡及的な変更が同期されます。 更新されたデータセットは、研究者が新型コロナウイルス感染症の感染力学や環境条件との関連性をモデル化して分析するための、より正確で最新の情報を提供します。

水文気象学と大気質のデータはすべて、独自の広範な評価ルーチンを実行するデータ ソースから取得されます。 これらの製品には追加の独立した評価は適用しませんでした。 処理された変数はソース データとの整合性がチェックされ、データ転送または空間平均化中にアーティファクトが導入されていないことが確認されました。 ERA5 または NLDAS データ レコードの不一致や不連続性をスキャンするために、選択した行政単位からの時系列の水文気象データを定期的にチェックしています。このようなエラーは、運用中の地球データ製品に表示される場合があるためです。 現在までに問題のある問題は特定されていませんが、問題が発生した場合、運用データ センターによって水文気象データ ファイルの修正版が公開されるまで、それらのデータは暫定版としてフラグが立てられます。

都市へのアクセスのしやすさは、Google マップ内のネットワーク距離アルゴリズムと比較することで検証され、期待できるものでした (R2 = 0.66、平均絶対差 20.7 分)。 表 9 に概要を示した併存疾患の有病率は、オンライン ソースから直接、または信頼できる保健機関、保健研究センター、国際機関および国内機関、研究雑誌、学術機関に関連した情報源から取得したものです。 統合データセットがこれらの入力ソースと一致することを確認するために、複数の検証チェックが実施されました。 パンデミックへの備えに関するデータは、同様に国際的に認知された研究機関や世界保健機関から取得したものです。 統合データセットとこれらの高度に精査されたデータ ソース間の一貫性を確保するために、複数の検証チェックが実施されました。

米国の一部の郡、準州、島には標準の FIPS コードがないか、ブリストル湾と湖と半島自治区、デュークス郡とナンタケット郡、ユタ州の管轄区域、連邦矯正施設 (FCI)、退役軍人省、およびミシガン州矯正局 (MDOC)。 これらのユニットには、GitHub 上の頻繁に更新される参照テーブルにリストされている一意の ID が与えられます。

Covid Tracking Project (CTP) データは、1 年間のサービス提供を終えて、2021 年 3 月 7 日に更新を停止しました2。 他のすべての時間変化ソースは現在、元のソースから毎日更新/同期されています。

生データの累積症例数の合計から計算すると、一部のユニットの毎日の新規症例数が欠落しているかマイナスになる可能性があります。 これは、報告の問題とケースの再割り当てに起因すると考えられます。 強力な証拠がある場合にのみ、データ入力を修正および検証します。 それ以外の場合は、元のデータを公式情報源から取得したとおりに正確に保持します。 将来的には、すべてのデータ ソースから派生した、すべての管理レベルでのグローバル データの拡張バージョンを提供する予定です。 ここでは、統合データと生データの両方の間の一貫性を維持します。

PM2.5 と NO2 の寿命が短いこと、およびそれらの排出源の空間的不均一性により、行政単位内の人口と排出源の空間分布に応じて、単純加重平均と人口加重平均の間に大きな差異が生じる場合があります。 一部の場所では利用できる地上モニターが限られているため、NO2 濃度の確実性は都市部では農村地域に比べ、北米とヨーロッパでは世界の他の地域に比べて高くなります44。

報告された値が総人口と一致しないため、性別の人口データはブラジルの 34 の地方地域について欠損値として入力されました。 アクセシビリティ ラスター ファイルはモナコをカバーしておらず、データは周辺地域の値を使用して手動で入力されました。 ほぼリアルタイムでデータセットを更新するために必要な計算時間を短縮するために、小規模な海外の NUTS 行政区画 (グアドループ、フランス領ギアナ、レユニオンなど) を統合データセットから除外します。 注目すべき点として、アクセシビリティと人口のデータは、データの運用上の定義により、国家レベルではなく地方レベルでの分析に最も関連性があります。

私たちは、その中の資料の提示は、いかなる国、地域、地域またはその当局の法的地位に関する JHU 側のいかなる意見の表明も意味するものではないと主張します。 地図上に表示され、このウェブサイト上のリスト、表、文書、データベースに含まれる境界線、地名、および関連データの描写および使用は、エラーがないことを保証するものではなく、必ずしも JHU による公式の承認または承認を意味するものでもありません。

データは複数の圧縮データ形式で保存されます。R Statistical Software でサポートされる RDS および FST バイナリ データ ファイルと、他のすべての機械学習ツールでサポートされる CSV データ ファイルです。 R バイナリ データ形式は、すべての変数の型、属性、オブジェクト クラスを効率的に保存します。 さらに、RDS ファイルは高度に圧縮されているため、ファイルの転送と保存が容易になります。一方、FST 形式は、超高速のマルチスレッド データ シリアル化と、保存されたデータセットへの完全なランダム アクセスを提供し、完全なデータを読み取ることなくデータ サブセット (選択された列または行) を読み込むことができます。ファイル。 これは、変数の型 (整数と倍精度など) を明示的に指定しない、カンマ区切り値 (CSV) やその圧縮バージョンなどの他の一般的なデータ形式に比べて利点があります。 さらに、生成されるファイルのサイズははるかに小さくなり、データへのアクセスと処理が容易になります。

すべてのソースからのさまざまなデータ コンポーネントをクリーンアップ、統合、集約、マージするために使用されるソース コードは、GitHub (https://github.com/CSSEGISandData/COVID-19_Unified-Dataset) で入手できます。

Dong, E.、Du, H. & Gardner, L. 新型コロナウイルス感染症をリアルタイムで追跡するためのインタラクティブな Web ベースのダッシュボード。 ランセット感染。 ディス。 20、533–534 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

アトランティック・マンスリー・グループ。 新型コロナウイルス追跡プロジェクト。 新型コロナウイルス追跡プロジェクト https://covidtracking.com/ (2023)。

ニューヨーク市保健精神衛生局。 2019 年ニューヨーク市コロナウイルス感染症 (COVID-19) データ。 (2023年)。

ニューヨークタイムズ。 米国のコロナウイルス (Covid-19) データ (アーカイブ)。 (2023年)。

W.コタ。ブラジルの自治体および連邦レベルで新型コロナウイルス感染症の感染者数と死亡者数を監視している。 https://preprints.scielo.org/index.php/scielo/preprint/view/362/version/371、https://doi.org/10.1590/SciELOPreprints.362 (2020)。

イタリア国民保護局。 以前は新型コロナウイルス感染症イタリア。 (2023年)。

ロベルト・コッホ研究所。 COVID-19 データハブ。 COVID-19 データ ハブ https://npgeo-corona-npgeo-de.hub.arcgis.com/。

共同研究センター。 JRC COVID-19 ウェブサイトの理論的根拠 - データ監視と国家対策。 (2023年)。

欧州疾病予防管理センター。 COVID-19(新型コロナウイルス感染症。 https://www.ecdc.europa.eu/en/covid-19 (2021)。

世界保健機関。 WHO コロナウイルス (COVID-19) ダッシュボード。 https://covid19.who.int (2023)。

疾病管理予防センター。 新型コロナウイルスデータトラッカー。 疾病管理予防センター https://covid.cdc.gov/covid-data-tracker (2020)。

Xu、B.ら。 新型コロナウイルス感染症の流行による疫学データ、リアルタイムの症例情報。 科学。 データ7、106(2020)。

論文 CAS PubMed PubMed Central Google Scholar

健康指標評価研究所。 2019 年から 2021 年の SARS-CoV-2 の毎日および累積感染者数の推定。 SARS-CoV-2 の毎日および累積感染者数の推定 2019 年から 2021 年 https://ghdx.healthdata.org/record/ihme-data/covid_19_cumulative_infections (2021)。

Cori, A.、Ferguson, NM、Fraser, C. & Cauchemez, S. 流行中に時間とともに変化する再生産数を推定するための新しいフレームワークとソフトウェア。 午前。 J.Epidemiol. 178、1505–1512 (2013)。

論文 PubMed Google Scholar

コルストン、JM et al. 南米熱帯アンデスの隣接する 3 か国における SARS-CoV-2 再生産数に対する水文気象学的要因およびその他の要因の影響: 時空間的に細分化された時系列分析。 IJID登録 6、29–41 (2023)。

論文 PubMed Google Scholar

Beesley、LJ et al. 多次元の回復力: 6 か国の病気の転帰と、新型コロナウイルス感染症のパンデミックに対する経済的、政治的、社会的な回復力を定量的に調査します。 PLOS ONE 18、e0279894 (2023)。

論文 CAS PubMed PubMed Central Google Scholar

Du、H.ら。 米国における新型コロナウイルス感染症の感染者と死亡者の短期予測に変異頻度データを組み込む: 深層学習アプローチ。 eBioMedicine 89、104482 (2023)。

記事 PubMed PubMed Central Google Scholar

Cheam, A.、Fredette, M.、Marbac, M.、および Navarro, F. 人口リスク因子に基づいて調整された、新型コロナウイルス感染症による死亡に関する翻訳不変関数クラスタリング。 JR駅社会サー。 C 応用統計 qlad014、https://doi.org/10.1093/jrsssc/qlad014 (2023)。

GH カーら。 ブラジルにおける SARS-CoV-2 感染の進化する要因: 気象学、政策、および人間の移動に関する時空間的に細分化された時系列分析。 GeoHealth 7、e2022GH000727 (2023)。

記事 PubMed PubMed Central Google Scholar

ウィルキンソン医学博士ら。 科学データの管理と管理に関する FAIR 指導原則。 科学。 データ 3、160018 (2016)。

記事 PubMed PubMed Central Google Scholar

Badr、HS et al. COVID-19 統合データセット v1.0。 ゼノド https://doi.org/10.5281/zenodo.7789960 (2023)。

アボット、S.ら。 EpiNow2: リアルタイムの症例数と時間とともに変化する疫学パラメーターを推定します。 (2020年)。

アボット、S.ら。 国内および地方の感染者数を使用して、SARS-CoV-2 の時間変化による再生産数を推定します。 ようこそオープンRes. 5、112(2020)。

記事 Google Scholar

アレーン、M.ら。 新型コロナウイルス感染症の連続間隔と潜伏期間:体系的レビューとメタ分析。 BMC感染。 ディス。 21、257 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

McAloon, C. et al. 新型コロナウイルス感染症の潜伏期間:観察研究の迅速な系統的レビューとメタ分析。 BMJ オープン 10、e039652 (2020)。

記事 PubMed PubMed Central Google Scholar

ラウアー、SA et al. 公的に報告された確認症例からの2019年コロナウイルス感染症(COVID-19)の潜伏期間:推定と応用。 アン。 インターン。 医学。 172、577–582 (2020)。

論文 PubMed Google Scholar

Rai、B.、Shukla、A.、Dwivedi、LK 新型コロナウイルス感染症の連続間隔の推定:体系的レビューとメタ分析。 クリン。 エピデミオール。 グロブ。 ヘルス 9、157–161 (2021)。

論文 CAS PubMed Google Scholar

ガニャニ、T.ら。 症状発症データに基づくコロナウイルス感染症 (COVID-19) の世代間隔の推定、2020 年 3 月。Eurosurveillance 25 (2020)。

ジョンズ・ホプキンス大学市民影響センター。 ブルームバーグ政府卓越センター。 GitHub https://github.com/govex。

世良、F.ら。 26 か国の 409 都市における気象要因と SARS-CoV-2 感染の横断分析。 ナット。 共通。 12、5968 (2021)。

論文 ADS CAS PubMed PubMed Central Google Scholar

フォンタル、A.ら。 両半球にわたるさまざまな新型コロナウイルス感染症パンデミックの波における気候の特徴。 ナット。 計算します。 科学。 1、655–665 (2021)。

記事 Google Scholar

パン、WKら。 米国におけるSARS-CoV2の第一波における非医薬品介入の有効性の不均一性。 フロント。 公衆衛生学 9、754696 (2021)。

記事 PubMed PubMed Central Google Scholar

Ma, Y.、Pei, S.、Shaman, J.、Dubrow, R. & Chen, K. 米国における SARS-CoV-2 の伝播における気象要因の役割。 ナット。 共通。 12、3602 (2021)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Kerr, GH、Badr, HS、Gardner, LM、Perez-Saez, J. & Zaitchik, BF 初期研究における気象学と新型コロナウイルス感染症との関連性: 矛盾、不確実性、および推奨事項。 One Health 12、100225 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

国際地球科学情報ネットワークセンター - CIESIN - コロンビア大学。 世界のグリッド人口、バージョン 4 (GPWv4): 国連 WPP 国合計の 2015 年改訂、改訂 11 に一致するように調整された人口数。(2018)。

Xia、Y.ら。 北米土地データ同化システム プロジェクト フェーズ 2 (NLDAS-2) の大陸規模の水とエネルギーのフラックス分析と検証: 1. モデル製品の相互比較と適用: 水とエネルギーのフラックス分析。 J.Geophys. 解像度アトモスフィア 117、該当なし (2012)。

Google スカラー

ハースバッハ、H.ら。 ERA5のグローバル再分析。 QJRメテオロール。 社会 146、1999–2049 (2020)。

記事 ADS Google Scholar

Tarek, M.、Brissette, FP & Arsenault, R. 北米の水文モデリングの潜在的な参照データセットとしての ERA5 再解析の評価。 ハイドロール。 地球システム科学。 24、2527–2544 (2020)。

記事 ADS Google Scholar

Liang、D.ら。 都市部の大気汚染は、米国における新型コロナウイルス感染症の致死率と死亡率を高める可能性がある。 イノベーション 1、100047 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Wu, X.、Nethery, RC、Sabath, MB、Braun, D. & Dominici, F. 米国の大気汚染と新型コロナウイルス感染症による死亡率: 生態学的回帰分析の長所と限界。 科学。 上級 6、eabd4049 (2020)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Pozzer、A. et al. 新型コロナウイルス感染症による死亡リスクに対する大気汚染の地域的および世界的な寄与。 心臓血管。 解像度 116、2247–2253 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

ハマー、MS et al. 微小粒子状物質濃度の世界的な推定と長期傾向 (1998 ~ 2018 年)。 環境。 科学。 テクノロジー。 54、7879–7890 (2020)。

論文 ADS CAS PubMed Google Scholar

ラーキン、A.ら。 二酸化窒素による大気汚染の世界的な土地利用回帰モデル。 環境。 科学。 テクノロジー。 51、6957–6964 (2017)。

論文 ADS CAS PubMed PubMed Central Google Scholar

アネンバーグ、SC et al. 都市部の NO2 濃度とそれに関連する小児喘息発生率の長期傾向: 世界的なデータセットからの推定。 ランセットプラネット。 健康 6、e49–e58 (2022)。

論文 PubMed Google Scholar

Anenberg、S. 二酸化窒素の表面レベルの年間平均濃度 V1 (SFC_NITROGEN_DIOXIDE_CONC)。 (2023年)。

ヘイル、T.ら。 パンデミック政策のグローバルパネルデータベース (オックスフォード COVID-19 政府対応トラッカー)。 ナット。 ハム。 振る舞い。 5、529–538 (2021)。

論文 PubMed Google Scholar

疾病管理予防センター。 特定の病状のある人。 疾病管理予防センター https://www.cdc.gov/coronavirus/2019-ncov/need-extra-precautions/people-with-medical-conditions.html (2023)。

クラーク、A.ら。 2020 年の基礎健康状態により重篤な新型コロナウイルス感染症のリスクが増加する人口の世界、地域、国の推定値: モデリング研究。 ランセットグローブ。 健康 8、e1003–e1017 (2020)。

記事 PubMed PubMed Central Google Scholar

世界銀行。 糖尿病有病率(20歳から79歳までの人口の割合)。 https://data.worldbank.org/indicator/SH.STA.DIAB.ZS?name_desc=false。

ロバート・ウッド・ジョンソン財団。 糖尿病。 小児肥満の現状 https://stateofchildhoodobesity.org/demographic-data/social/ (2023)。

世界保健機関。 成人の肥満有病率、BMI ≥ 30、年齢標準化。 国ごとの推定。 Global Health Observatory データ リポジトリ https://apps.who.int/gho/data/view.main.CTRY2450A。

ロバート・ウッド・ジョンソン財団。 成人の肥満率。 小児肥満の現状 https://stateofchildhoodobesity.org/demographic-data/social/。

アメリカ中央情報局。 肥満 - 成人の有病率。 ワールド ファクトブック https://www.cia.gov/the-world-factbook/field/obesity-social-prevalence-rate/。

世界保健機関。 現在のタバコ使用の普及率。 国別のデータ。 Global Health Observatory データ リポジトリ https://apps.who.int/gho/data/view.main.GSWCAH20v。

行動リスク要因監視システム。 BRFSS の有病率と傾向データ: 喫煙有病率。 https://nccd.cdc.gov/BRFSSPrevalence/rdPage.aspx?rdReport=DPH_BRFSS.ExploreByTopic&irbLocationType=StatesAndMMSA&islClass=CLASS17&islTopic=TOPIC15&isl Year=2018&rdRnd=77675。

健康指標評価研究所。 GBD 結果ツール。 GBD 結果ツール https://vizhub.healthdata.org/gbd-results (2023)。

ロバート・ウッド・ジョンソン財団。 米国における高血圧。 小児肥満の現状 https://stateofchildhoodobesity.org/demographic-data/social/ (2023)。

NCD リスクファクターのコラボレーション。 血圧 時間の経過に伴う血圧の変化。 https://ncdrisc.org/data-downloads-blood-pressure.html (2017)。

ラムショウ、RE 他地理位置情報付きの中東呼吸器症候群コロナウイルス発生のデータベース。 科学。 データ6、318(2019)。

記事 PubMed PubMed Central Google Scholar

世界保健機関。 重症急性呼吸器症候群(SARS)。 https://www.who.int/health-topics/severe-acute-respiratory-syndrome (2022)。

マラリア アトラス プロジェクト。 都市へのアクセシビリティ。 https://malariaatlas.org/。

ワイス、DJ 他 2015 年のアクセシビリティの不平等を評価するための都市への移動時間の世界地図。Nature 553、333–336 (2018)。

論文 ADS CAS PubMed Google Scholar

ワイス、DJ 他医療施設までの移動時間の世界地図。 ナット。 医学。 26、1835–1838 (2020)。

論文 CAS PubMed Google Scholar

Carrasco-Escobar, G.、Manrique, E.、Tello-Lizarraga, K.、Miranda, JJ ペルーの異質な土地範囲にわたる地理的アクセスのマーカーとしての医療施設までの移動時間。 フロント。 公衆衛生学 8、498 (2020)。

記事 PubMed PubMed Central Google Scholar

Hu, Y.、Wang, C.、Li, R. & Wang, F. 米国の郵便番号間の大規模な運転時間行列の推定: 差分サンプリング アプローチ。 J. Transp. 地理。 86、102770 (2020)。

記事 PubMed PubMed Central Google Scholar

テイテム、AJ WorldPop、空間人口統計のオープンデータ。 科学。 データ 4、170004 (2017)。

記事 PubMed PubMed Central Google Scholar

リファレンスをダウンロードする

この研究は、NASA Health & Air Quality プロジェクト 80NSSC18K0327、COVID-19 補足、国立衛生研究所 (NIH) プロジェクト 3U19AI135995-03S1 (「ウイルス システム生物学コンソーシアム (CViSB)」、スクリップス研究所との共同研究) によって支援されています。 UCLA)、NASA 認可 80NSSC20K1122。 ジョンズ ホプキンス応用物理研究所 (APL)、Data Services、および Esri は、自動データ収集構造の設計と JHU CSSE GitHub リポジトリの保守に関して専門的なサポートを提供します。

アーラシュ・モヘグ

現在の住所: カリフォルニア大気資源委員会、健康および暴露評価部門、サクラメント、カリフォルニア州、95812、米国

ジョンズ・ホプキンス大学土木システム工学部、ボルチモア、メリーランド州、21218、米国

ハマダ・S・バドル、エンシェン・ドン、ホンルー・ドゥ、マクシミリアン・マーシャル、クリステン・ニクソン、ローレン・M・ガードナー

ジョンズ・ホプキンス大学地球惑星科学部、ボルチモア、メリーランド州、21218、米国

ハマダ・S・バドル & ベンジャミン・F・ザイチク

ジョージ・ワシントン大学ミルケン研究所公衆衛生大学院環境労働衛生学部、ワシントンDC、20052年、米国

ガイジ・H・カー、アラシュ・モヘグ、ダニエル・L・ゴールドバーグ、スーザン・C・アネンバーグ

バージニア大学芸術科学部、バージニア州シャーロッツビル、22903、米国

ニャットラン・H・グエン & パトリック・ヒンソン

感染症および国際保健部門、バージニア大学医学部、シャーロッツビル、バージニア州、22903、米国

イェンティン・チェン、パトリック・ヒンソン、ジョシュ・M・コルストン、マーガレット・N・コセック

台湾、台南、奇美医療センター救急科

イェンティン・チェン

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

BFZ と LMG はデータ収集と品質管理を考案し、監督しました。 HSB は統一データセットを作成し、地理空間 ID による管理名とコードを標準化し、変数名と型を調和させ、すべてのデータ コンポーネントをマージし、メイン コードを開発し、データ構造とリアルタイム更新を維持しています。 BFZ と GHK は水文気象データと大気質データを処理し、維持しました。 著者全員がデータセットの保有と原稿の執筆と編集に貢献しました。

ベンジャミン・F・ザイチクへの通信。

著者らは競合する利害関係を宣言していません。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

バドル、HS、ザイチク、BF、カー、GH 他新型コロナウイルス感染症(COVID-19)パンデミックのマルチスケールモデリングのための、統合されたリアルタイムの環境疫学データ。 Sci Data 10、367 (2023)。 https://doi.org/10.1038/s41597-023-02276-y

引用をダウンロード

受信日: 2022 年 5 月 6 日

受理日: 2023 年 5 月 30 日

公開日: 2023 年 6 月 7 日

DOI: https://doi.org/10.1038/s41597-023-02276-y

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供