ClaimsBERT – Prädiktion von Erkrankungsrisiken mittels eines transformerbasierten Sprachmodells (BERT) auf GKV-Claims Data

Projektbeschreibung

Algorithmen zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) werden zunehmend eingesetzt, um elektronische Gesundheitsdaten zu analysieren. In strukturierten Gesundheitsdaten wie den Daten der gesetzlichen Kranken- und Pflegekassen wird dabei die zeitlich geordnete Abfolge von Angaben zu Diagnosen und Behandlungen als analog zur Abfolge von Wörtern betrachtet, die mit NLP-Methoden ausgewertet werden kann. Die gelernte Repräsentierung von Krankheits- und Behandlungssequenzen kann dann mit geringem Adaptionsaufwand zur Vorhersage einer Vielzahl verschiedener Endpunkte verwendet werden. Demgegenüber werden bislang zur Schätzung des Risikos einer Gesundheitsgefährdung, einer drohenden Erkrankung oder einer Pflegebedürftigkeit meist theoriegeleitete Prädiktionsmodelle verwendet. Deren Entwicklung ist aufwändig und komplex, da für jedes interessierende Risiko mithilfe von Expertenwissen eine Theorie zu Risikofaktoren, ihren Interaktionen und möglichen Korrelationen aufgestellt werden muss und die Einflussgrößen und Outcomes in der Semantik von Abrechnungsdaten operationalisiert werden müssen.

Im Projekt ClaimsBERT wird der NLP-Ansatz auf Daten der deutschen gesetzlichen Kranken- und Pflegeversicherung angewendet. Das auf sequentiellen Daten erprobte „Bidirectional Encoder Representations from Transformers“ (BERT)-Modell wird weiterentwickelt, um das Auftreten einer Krebserkrankung, eines unerwünschten Arzneimittelereignisses oder einer zukünftigen Pflegebedürftigkeit vorherzusagen. Der Input für das Modell besteht aus Daten zu Diagnosen, Therapien, Medikamenten, stationären Aufenthalten, Alter, Geschlecht und Bundesland. Nach Abschluss des Modell-Trainings werden die Ergebnisse auf medizinische Plausibilität geprüft. Anschließend erfolgt ein Fine Tuning (Transfer Learning), um die Vorhersagegüte des Prädiktionsmodells zu verbessern.

Das Projekt wird für drei Jahre mit insgesamt ca. 1,3 Millionen Euro gefördert.

Im Erfolgsfall ermöglicht das Projekt die Nutzung eines mit Krankenkassen- und Pflegedaten trainierten Basis-Sprachmodells zur Erkennung von Gesundheitsrisiken, das mit geringem Aufwand auf weitere Erkrankungen und Gesundheitszustände adaptiert werden kann.

Konsortialpartner

Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e. V.

Themenfeld: Algorithmen für die Erkennung gesundheitlicher Risiken auf der Basis von Sekundärdaten

Sitz des Antragstellers: Berlin

Laufzeit: 03/2026 – 02/2029

Status: laufend

Förderkennzeichen: 01VSF25038

Kontakt

Christian Günster
AOK-Bundesverband eGbR
Wissenschaftliches Institut der AOK (WidO)
Rosenthaler Straße 31
10178 Berlin
+49 30 34646-2128
Christian.Guenster@wido.bv.aok.de