Projektthema
In dem studentischen Projekt ging es um die Erstellung eines offenen und interoperablen Bilddatensatzes für die COVID-19 Forschung. Mithilfe von einem Data Warehouse und dem GECCO-Datensatz (German Corona Consensus Dataset) war es das Ziel, das Image Open Repository der MHH (Medizinische Hochschule Hannover) um die wichtigsten Elemente zur COVID-19 Forschung anzureichern, um syntaktische und semantische Interoperabilität und eine Standardisierung für die Forschung rund um COVID-19 zu erreichen. Eine Übersicht der eingesetzten Mittel ist in Abb. 1 zu sehen.

Hintergrund
Seit dem Dezember 2019 kämpft die Welt gegen eine sich schnell ausbreitende und mutierende Covid-19 Pandemie. Dies erforderte die Zusammenarbeit medizinischer Forschungseinheiten aus verschieden Ländern. Im Rahmen eines Projektes der Hochschule Hannover und der Medizinischen Hochschule Hannover sollte ein Open-Data –Image Repository mit umfangreichen Metadaten mittels den Covid-19 Data Marts des ECRDWs (Enterprise Clinical Data Warehouse) erstellt werden und mithilfe von GECCO angereichert werden.
Methodisches Vorgehen
Zunächst wurden Recherchen über relevante Feature Sets mit Covid-19 Items durchgeführt. Weiterhin wurden Codiersysteme und Konzepte recherchiert um die klinisch relevanten Daten transparent kodieren zu können. Anschließend wurden die Möglichkeiten des Mappings ermittelt. Aus den relevanten Items und Daten wurde eine Excel Tabelle erstell, in der auch mittels ICD, LOINC und SNOMED-CT kodiert wurde. Die Ergebnisse wurden in einer Gesamttabelle zusammengefasst.
Gecco
- 89 Konzepte bilden als Kerndatensatz die Datenelemente und Fragen durch 200 Antwortmöglichkeiten
- Datensätze werden nach internationalen Standards und Terminologien durch syntaktische und semantische Interoperabilität durch folgende Codiersysteme:
- ICD-10 zur Abbildung der Diagnosen
- LOINC zur Abbildung der Laborwerte und Messungen
- SNOMED-CT zur Abbildung der Diagnosen und anderer medizinischer Konzepte
Ergebnisse
Vergleichbare Projekte
- Italien besitzt einen geringen Umfang an Daten mit Fokus auf statistische Auswertung nach geografischen Gesichtspunkten orientiert, welche ausschließlich offene Textfelder aufweisen
- Spaniens Datenumfang ist geringer als GECCO und zudem schlecht kategorisiert; jedoch enthält der Datensatz ähnliche Datenelemente:
- Demographie
- Komorbidität
- Komplikationen
- Symptome
- Laborparameter
- Behandlung/Medikamente
Mapping
- Übersichtliche Erstellung von medizinischen Konzepten und Items
- Konzeptuelles Mapping mit Image Repository
- Inkludierung der Kodierungen ICD-10, LOINC, SNOMED-CT und OPS als Grundlage für Datenabgleich der GECCO-Daten nach Relevanz-Ranking
- Ausgangslage: GECCO-Tabelle mit Codiersystem
- Manuelles Suchen der fehlenden Elemente mit GECCO durch den Vergleich von Codierungen und dem Namen
- Erstellung einer zentral zusammengeführten Tabelle mit Einträgen von ECRDW-IDs mit GECCO-ID
- Verfeinerung der Tabelle mit folgenden Regeln:
- OPS-Elemente werden beibehalten
- SNOMED und ICD-10 werden übernommen
- LOINC nur erhalten, wenn es keine Alternative gibt
- Aussortieren von Elementen, die nicht im Image Repository oder ECRDW vorhanden sind
Diskussion
Relevante Datensätze für GECCO wurden durch Vergleich mit internationalen Datensätzen ersichtlich – hauptsächlich die Datensätze über Laborwerte und Symptome. Dazu diente als Referenz vor allem der Datensatz aus Spanien. Auch das Image Repository konnte Codes aus GECCO nach ICD-10, LOINC und SNOMED-CT zugeordnet werden. Mit dem Mapping konnte die Differenz zwischen dem ECRDW COVID-19 DataMart und dem GECCO-Datensatz reduziert werden. Dies wurde vor allem durch die Erstellung einer zentral zusammengeführten Tabelle erreicht. Diese bildet nun die Grundlage für eine weiter Planung einer Veröffentlichung des Datensatzes auf GitHub.
Referenzen
Das Projekt wurde zusammen mit der MHH durchgeführt. Leiter waren Dr. Svetlana Gerbel und Hans Laser
Gruppenmitglieder: Ashkar Ranim, Blazevic Maja., Cohrs Katharina, Falkewitz Philip, Ghasempour Mahshid, Grebe Laura, Khoshkam Hossna, Murad Souzan, Sermus Maryna