Projektthema

In dem studentischen Projekt ging es um die Erstellung eines offenen und interoperablen  Bilddatensatzes für die COVID-19 Forschung. Mithilfe von einem Data Warehouse und dem  GECCO-Datensatz (German Corona Consensus Dataset)  war es das Ziel, das Image Open Repository der MHH (Medizinische Hochschule Hannover) um die  wichtigsten Elemente zur COVID-19 Forschung anzureichern, um syntaktische und  semantische Interoperabilität und eine Standardisierung für die Forschung rund um COVID-19 zu erreichen.  Eine Übersicht der eingesetzten Mittel ist in Abb. 1 zu sehen.

Abb. 1: Covid-19 Image Repository meets GECCO+

Hintergrund

Seit dem Dezember 2019 kämpft die Welt gegen eine sich schnell ausbreitende und mutierende Covid-19 Pandemie. Dies erforderte die Zusammenarbeit medizinischer Forschungseinheiten aus verschieden Ländern. Im Rahmen eines Projektes der Hochschule Hannover und der Medizinischen Hochschule Hannover sollte ein Open-Data –Image Repository mit umfangreichen Metadaten mittels den Covid-19 Data Marts des ECRDWs (Enterprise Clinical Data Warehouse) erstellt werden und mithilfe von GECCO angereichert werden.

Methodisches Vorgehen

Zunächst wurden Recherchen über relevante Feature Sets mit Covid-19 Items durchgeführt. Weiterhin wurden Codiersysteme und Konzepte recherchiert um die klinisch relevanten Daten transparent kodieren zu können. Anschließend wurden die Möglichkeiten des Mappings ermittelt. Aus den relevanten Items und Daten wurde eine Excel Tabelle erstell, in der auch mittels ICD, LOINC und SNOMED-CT kodiert wurde. Die Ergebnisse wurden in einer Gesamttabelle zusammengefasst.

Gecco

  • 89 Konzepte bilden als Kerndatensatz die Datenelemente und Fragen durch 200 Antwortmöglichkeiten
  • Datensätze werden nach internationalen Standards und Terminologien durch syntaktische und semantische Interoperabilität durch folgende Codiersysteme:
  1. ICD-10 zur Abbildung der Diagnosen
  2. LOINC zur Abbildung der Laborwerte und Messungen
  3. SNOMED-CT zur Abbildung der Diagnosen und anderer medizinischer Konzepte

Ergebnisse

Vergleichbare Projekte

  • Italien besitzt einen geringen Umfang an Daten mit Fokus auf statistische Auswertung nach geografischen Gesichtspunkten orientiert, welche ausschließlich offene Textfelder aufweisen
  • Spaniens Datenumfang ist geringer als GECCO und zudem schlecht kategorisiert; jedoch enthält der Datensatz ähnliche Datenelemente:
  • Demographie
  • Komorbidität
  • Komplikationen
  • Symptome
  • Laborparameter
  • Behandlung/Medikamente

Mapping

  • Übersichtliche Erstellung von medizinischen Konzepten und Items
  • Konzeptuelles Mapping mit Image Repository
  • Inkludierung der Kodierungen ICD-10, LOINC, SNOMED-CT und OPS als Grundlage für Datenabgleich der GECCO-Daten nach Relevanz-Ranking
  1. Ausgangslage: GECCO-Tabelle mit Codiersystem
  2. Manuelles Suchen der fehlenden Elemente mit GECCO durch den Vergleich von Codierungen und dem Namen
  • Erstellung einer zentral zusammengeführten Tabelle mit Einträgen von ECRDW-IDs mit GECCO-ID
  • Verfeinerung der Tabelle mit folgenden Regeln:
  1. OPS-Elemente werden beibehalten
  2. SNOMED und ICD-10 werden übernommen
  3. LOINC nur erhalten, wenn es keine Alternative gibt
  • Aussortieren von Elementen, die nicht im Image Repository oder ECRDW vorhanden sind

Diskussion

Relevante Datensätze für GECCO wurden durch Vergleich mit internationalen Datensätzen ersichtlich – hauptsächlich die Datensätze über Laborwerte und Symptome. Dazu diente als Referenz vor allem der Datensatz aus Spanien. Auch das Image Repository konnte Codes aus GECCO nach ICD-10, LOINC und SNOMED-CT zugeordnet werden. Mit dem Mapping konnte die Differenz zwischen dem ECRDW COVID-19 DataMart und dem GECCO-Datensatz reduziert werden. Dies wurde vor allem durch die Erstellung einer zentral zusammengeführten Tabelle erreicht. Diese bildet nun die Grundlage für eine weiter Planung einer Veröffentlichung des Datensatzes auf GitHub.

Referenzen

 

Das Projekt wurde zusammen mit der MHH durchgeführt. Leiter waren Dr. Svetlana Gerbel und Hans Laser

Gruppenmitglieder: Ashkar Ranim, Blazevic Maja., Cohrs Katharina, Falkewitz Philip, Ghasempour Mahshid, Grebe Laura, Khoshkam Hossna, Murad Souzan, Sermus Maryna