Risikoklassifizierung erkennt dank maschinellem Lernen Verschwendung, Missbrauch und Betrug bei Krankenkassen

Fachartikel publiziert auf inside-it.ch

In Künstliche Intelligenz im Allgemeinen und maschinelles Lernen im Speziellen werden grosse Erwartungen gesetzt. Die Verfügbarkeit grosser Datenmengen und erschwinglicher Rechenleistung ermöglicht Forschungsprojekte, die wiederum das Interesse an diesem Bereich steigern. Neben dem Hype um superintelligente Computer, die eines Tages vielleicht cleverer als Menschen werden, sehen wir täglich die Einführung wirklich praktischer Tools. Diese konzentrieren sich auf einen bestimmten Bereich, in welchem sie ein eng abgestecktes Problem lösen.

Maschinelles Lernen (ML) ist ein Bereich der Informatik, in dem Computer lernfähig gemacht werden. Dazu werden unter Einsatz verfügbarer Daten automatisch statistische Modelle erstellt. Es werden keine statischen Programminstruktionen befolgt, stattdessen erlernen ML-Algorithmen Muster in Daten zu identifizieren, Wissen zu finden und Entscheidungen zu treffen. Das alles geschieht mit minimaler menschlicher Intervention.

ML ist Teil des grösseren Bereichs Künstliche Intelligenz (KI). Weitere Bereiche der KI überschneiden sich häufig mit ML, wie etwa Wissensmodellierung, die Verarbeitung natürlicher Sprache sowie starke KI. In letzter Zeit gab es eine Vielzahl neuer Produkte und Dienstleistungen aus mehreren Bereichen der KI. Viele Initiativen konnten die Erwartungen nicht erfüllen und gerieten deshalb ins Kreuzfeuer der Kritik. Allerdings stellen die ML-Algorithmen ihre Anwendbarkeit bei der Lösung spezifischer, begrenzter Probleme unter Beweis, wie beispielsweise beim Aufdecken von Anomalien bei Geschäftstransaktionen.

Krankenversicherungen und das Problem von Verschwendung, Missbrauch und Betrug

Die Branche der Krankenversicherungen umfasst sehr unterschiedliche Akteure, vom Gesundheitsdienstleister über Versicherungsunternehmen bis zu Patienten. Da von der Branche ein sozialer Nutzen erwartet wird, besteht ständig der Druck, bei verträglichen Kosten genügend Sicherheit zu bieten und die Gesundheit der Bevölkerung zu verbessern.

Der Missbrauch der Krankenversicherung ist ein Dauerbrenner. Von finanziellen Anreizen gelockt, generieren verschiedene Stakeholder Verschwendung, missbrauchen den Markt oder begehen gar Betrug. Schätzungen zufolge sind 5 bis 10 % der jährlichen Kosten im Gesundheitssystem auf Verschwendung, Missbrauch und Betrug zurückzuführen. Damit machen diese Faktoren einen wesentlichen Teil der medizinischen Inflation aus. Versicherungsansprüche werden von den Zahlenden ständig geprüft, da es sich hierbei um eines der wichtigsten Instrumente zur Kontrolle der Gesundheitsausgaben handelt.

Aus Sicht der Versicherungen werden Verschwendung, Missbrauch und Betrug sowohl durch Gesundheitsdienstleister als auch durch versicherte Mitglieder generiert. Im schlimmsten Falle arbeiten mehrere Parteien konspirativ zusammen. Verschwendung, Missbrauch und Betrug können in sieben Schweregrade unterteilt werden. Den Anfang macht eine einzelne Transaktion, am anderen Ende stehen kriminelle Komplotte mit mehreren Beteiligten.

Versicherte betrügen meistens, um Zugang zu Leistungen zu erhalten, die nicht von ihrer Police abgedeckt werden, oder um diese erstattet zu bekommen. Für Krankenhausärzte und Gesundheitsdienstleister ist die Hauptmotivation der finanzielle Gewinn mit Up-Coding, Service-Entbündelung und Abrechnung unnötiger oder gar nicht erbrachter Leistungen.

Maschinelles Lernen und Verschwendung, Missbrauch und Betrug

Versicherungsunternehmen nutzen bereits regelbasierte Systeme, um Verschwendung, Missbrauch und Betrug bei Versicherungsansprüchen zu finden. Diese Systeme sind Betrugsvermeidungssystemen für Finanztransaktionen sehr ähnlich, z. B. für Kreditkartentransaktionen, bei denen das System die Gültigkeit einer Transaktion mit einem definierten Satz von Geschäftsregeln abgleicht. Diese Geschäftsregeln müssen ständig angepasst werden. Selbst dann sind sie nur so lange nützlich, wie die Person, die die Regeln verwaltet, ein umfassendes mentales Modell für den gesamten Regelsatz erstellen kann.

Und hier kommt ML ins Spiel, um ein komplexes Problem perfekt und elegant zu lösen. Nachdem die ML-Modelle mit historischen Transaktionen trainiert worden sind, können sie die Anomalie jeder neuen Transaktion mit dem Verlauf vergleichen und ihr ein potenzielles Risiko zuweisen. Zudem passen sich ML-Modelle an, wenn das System neue Transaktionen verarbeitet. Sie verbessern sich also während der Nutzung, was die manuelle Regelverwaltung überflüssig macht.

Ein wichtiges Alleinstellungsmerkmal ist die Fähigkeit der ML-Algorithmen, aus den Bewertungen der menschlichen Antragsbearbeiter zu lernen. Typische regelbasierte Systeme verfügen über einen Satz vordefinierter medizinischer Regeln, die festlegen, ob eine Behandlung bei einer bestimmten Erkrankung genehmigt werden sollte. Bearbeiter können jedoch für ihre Entscheidungen zusätzliche Informationen heranziehen, beispielsweise ihre Kenntnis des jeweiligen Behandlers oder die Historie des Versicherungsmitglieds. Ausserdem verfügen sie über Zusatzinformationen, die sich nicht im Anspruchssystem befinden, oder können dank ihrer medizinischen Bildung professionelle Einschätzungen abgeben. ML-Modelle, die mit diesen Entscheidungen trainiert wurden, passen ihre Risikoprognosen basierend auf den Entscheidungen der Bearbeiter an. Sie implementieren implizit Regeln, die nicht nur medizinisch sind, sondern auf täglichen Erfahrungen beruhen.

Netcetera hat RiSIC entworfen und entwickelt, ein ML-basiertes System, dass das Risiko für Verschwendung, Missbrauch und Betrug bei Versicherungsansprüchen quantifiziert. Es folgt ein grober Überblick über die Herangehensweise.

Problemdarstellung

Versicherungsansprüche enthalten sauber strukturierte Datenelemente, die beim Training von ML-Modellen als Input dienen können. Diese Elemente enthalten Informationen über das versicherte Mitglied samt medizinischer Vorgeschichte, die vorgenommenen medizinischen Verfahren und Leistungen, verschriebene Medikamente, Zeit, Datum und Ort der Leistungen und mehr.

Problemdarstellung durch Visualisierung

 Der Problemraum Verschwendung, Missbrauch und Betrug in der Krankenversicherung kann unter anderem in einem mehrschichtigen Graph abgebildet werden. Jedes Datenelement der Transaktion wird als ein oder mehrere Knoten in diesem Graphen dargestellt. Die Knoten sind mit einem oder mehreren gleichartigen oder anderen Knoten verknüpft. Jeder Kante des Graphs wird eine Gewichtung zugewiesen, die auf der Beziehung der speziellen Knoten untereinander basiert. Wurden die Knoten und Kanten des ursprünglichen Graphen determiniert, können weitere Schichten hinzugefügt werden. Diese repräsentieren verschiedene Abstraktionen der Transaktionen. Nachdem das Problem auf diese Weise definiert wurde, können die Knoten und Kanten mit deskriptiven Attributen dargestellt und der Lernprozess des ML begonnen werden.

 Der iterative Prozess des Wissenserwerbs nutzt eine Kombination verschiedener Datenanalysen und -visualisierungen. Eine der wichtigsten Aufgaben ist es, die Informationen und das gefundene Wissen während der Analyse an ein Individuum, auch wenn dies ein qualifizierter Aktuar ist, zu vermitteln. Daher ist die gute Visualisierung der Daten ebenso wichtig wie die Datenanalyse.

Die Modelle

Zur Bestimmung der Grundlinie der Verhaltensanalyse ist eine sorgfältige Analyse und Definition der Peergroup unerlässlich. So haben beispielsweise pharmazeutische Transaktionen (eRX oder PBM) ganz andere Eigenschaften als Krankenhausbesuche. In Abhängigkeit von den Transaktionstypen kann diese Klassifizierung sehr einfach sein. Sind die Elemente mit den erforderlichen Informationen nicht vorhanden, sollte jedoch ein datenbasiertes Vorgehen angewendet werden. Ein weiterer Fall ist die Aggregierung auf klinischer Ebene. Bei diesem Prozess kommt es darauf an, die richtige Peergruppe zum Vergleich heranzuziehen. Diese Probleme lösen wir mit nicht überwachten datengetriebenen Vorgehen, die nach verborgenen Mustern in den Daten suchen, basierend auf einer ähnlichen Messung mit nicht markierten Daten.

In der Praxis zeigen sich bei der nicht überwachten Datenanalyse interessante Ergebnisse. So bestehen beispielsweise Versicherungsfachleute darauf, dass ähnliche Ansprüche lediglich über die in der Transaktion genannte Erkrankung bestimmt werden müssen. Werden die Gruppen (Cluster) jedoch über die medizinische Leistung ermittelt, führt das in bestimmten Fällen zu genaueren Ergebnissen.

Sind die verfügbaren Daten nicht bezeichnet, werden ungewöhnliches Verhalten oder Anomalien in der Population über Cluster und Peergroups aufgefunden und identifiziert. Diese Modelle weisen der tatsächlichen Transaktion mittels Vergleichen mit einer im Voraus ermittelten Grundlinie einen Risikoscore zu. In Abhängigkeit davon, wie risikofreudig ein Versicherungsunternehmen ist, können die Modelle verschiedene, variable Schwellenwerte für die zulässige Varianz einbauen.

Sind die verfügbaren Daten wenigstens teilweise markiert, sind überwachte und teil-überwachte, datenbasierte Vorgehensweise für die Zuweisung individueller Transaktionen zu einer vordefinierten Risikogruppe am hilfreichsten. Zu diesem Zweck nutzen wir für die abschliessende Entscheidung zum Risikoscore der Transaktionen mehrstufige Klassifizierer. Diese basieren auf modernsten Techniken des Deep Learning, Gruppen von Entscheidungsstrukturen und Lazy Methods.

Zudem nutzen wir tiefe neurale Netzwerke für recheneffiziente Vorhersagemodelle, um Vektorrepräsentationen medizinischer Verfahren und Leistungen zu erstellen. Diese Modelle bilden die in einem kontinuierlichen Vektorraum eingebetteten medizinischen Verfahren und Leistungen ab. Jede Einbettungsdimension repräsentiert eine latente Funktion der medizinischen Verfahren oder der Leistung und fängt so hilfreiche semantische Beziehungen zwischen den beiden ein. Diese Modelle decken höchst erfolgreich fortgeschrittene Anomalien in den Transaktionen auf, z. B. wenn Hausärzte Leistungen abrechnen, die üblicherweise von Fachärzten erbracht werden. Zudem werden mit vielfältigen manuell erstellten Funktionen Vorhersagemodelle für Wissenserwerb und Entscheidungsunterstützung erstellt.

Im letzten Schritt werden die Ergebnisse basierend auf Wichtigkeit und Modellkorrelationsfaktoren gewichtet und so der finale Risikoscore bestimmt.

Ursache und Erkenntnis

Oben werden die verschiedenen Schritte erklärt, mit denen ML-Modelle für die Aufdeckung von Verschwendung, Missbrauch und Betrug bei Versicherungsansprüchen konfiguriert werden. Diese sind notwendig, da so der Schritt von einem allgemeingültigen Analysesystem zu einem System mit praktisch umsetzbaren Empfehlungen für die anfragebasierte Anspruchsbearbeitung erfolgt.

Die Bearbeiter, die den Empfehlungen folgen, müssen die Ursache und die Erkenntnis hinter jeder Empfehlung verstehen. Das Entschlüsseln dieser Aufgaben ist jedoch keinesfalls banal. Die Komplexität des Systems mit einigen tausend Entscheidungsstrukturen verhindert das mühelose Interpretieren der Ergebnisse. Diese Herausforderung kann gelöst werden, indem für alle Schritte des oben genannten Prozessmodels mittels eines Ursache-Erkenntnis-Modells ein Shadowing durchgeführt wird. Das Modell verfolgt Entscheidungen nach und erläutert Empfehlungen. Natürlich wird so die Detailtiefe eingeschränkt, die das System bieten kann. Eine Prognose ist zwar eine wichtige Information im Entscheidungsprozess, sie ist jedoch nicht die einzige. Menschen sind noch immer die besseren Entscheider.

Autor: Kiril Milev, Managing Director Middle East
Co-Autor: Gjorgji Madjarov, Associate Professor an der Universität in Skopje

RiSIC kann die Sparquote eines Versicherungsunternehmens verdoppeln

Kontakt für die DACH Region

Weitere Stories

Zu diesem Thema

MEHR STORIES