• Frage: Wie lässt sich der Schutz individueller Daten mit dem Bedarf an großen, diversifizierten Datensätzen für das Training von KI-Systemen vereinen?

    Frage gestellt hear29rad am 2 Dez 2024.
    • Foto: Stefanie Remmele

      Stefanie Remmele Beantwortet am 2 Dez 2024:


      Wahnsinn, was sind das für erwachsene Fragen. Tja. Wie wir aktuell sehen – ganz schwierig. Je seltener die Art der Daten, um so dringender braucht man sie, um einem Ungleichgewicht entgegenzuwirken, aber umso leichter ist auch der Rückschluss auf die Person. Ich wünsche mir, dass es hierzu bald Antworten gibt, ich kenne sie leider nicht.

    • Foto: Lucas Ribeiro

      Lucas Ribeiro Beantwortet am 3 Dez 2024:


      Das ist eine wunderbare Frage und eine der wichtigsten überhaupt, denn sie hat tiefgreifende Auswirkungen auf uns alle!

      Wie richtig erwähnt, braucht KI in der Medizin viele Beispiele, von denen man lernen kann, wie zum Beispiel das Lernen für eine Prüfung. Je mehr Notizen ein Student hat, desto besser versteht er das Thema. Aber hier ist der schwierige Teil: Diese Notizen (oder Daten) sind die privaten Gesundheitsinformationen der Menschen, und wir müssen sicherstellen, dass diese privaten Dinge sicher bleiben.

      Um dieses Problem zu lösen, verwenden Forscher clevere Tricks. Einer davon ist die Anonymisierung, d. h. die Namen der Patienten werden sofort in eine Folge von Zahlen und Buchstaben umgewandelt, aber die Ergebnisse können trotzdem zur Modellverbesserung verwendet werden. Außerdem ist es wichtig, Regeln und Zustimmung festzulegen: So wie man die Erlaubnis braucht, um sich die Sachen von jemandem auszuleihen, brauchen Forscher die Erlaubnis, Daten zu verwenden. Es gibt strenge Regeln (wie die DSGVO in Europa), um sicherzustellen, dass die Menschen zustimmen, bevor ihre Informationen verwendet werden. In diesem Fall sind Schlösser und Safes (Verschlüsselung) genauso wichtig. Daten werden mit superstarken digitalen Schlössern geschützt, damit Hacker sie nicht stehlen können. Es ist, als würde man geheime Notizen in einem Safe aufbewahren, den nur vertrauenswürdige Personen öffnen können.

      Und hier kommt eine persönliche Note: Gemeinsam mit meinen Kollegen im DZNE arbeiten wir an einer Plattform namens „Swarm Learning“, bei der wir Daten von Krankenhäusern auf der ganzen Welt „besuchen“, die Daten aber nie ihre Quelle verlassen, sodass keine Datenschutzvereinbarung verletzt wird. Man kann sich vorstellen, dass eine Person viele Museen besucht, sich Notizen macht und etwas über die Kunstwerke lernt, ohne die Gemälde und Skulpturen mit nach Hause zu nehmen. Man kann die Informationen erhalten (aber nicht in ihrer ursprünglichen Form) und anfangen, seine eigenen Forschungsfragen dazu zu entwickeln.

      Besucht unsere Seite (https://www.dzne.de/forschung/projekte/swarm-learning/), um viel mehr über unsere Arbeit zu erfahren (und schreibst du mir bitte, wenn du noch Fragen hast!)!

    • Foto: Jens-Bastian Eppler

      Jens-Bastian Eppler Beantwortet am 3 Dez 2024:


      Wichtig ist natürlich die Menschen nach ihrem Einverständnis zu fragen. Ich denke, dass viele Menschen dazu bereit sind ihre Daten für bestimmte Dinge zur Verfügung zu stellen. Ich selbst wüde meine Daten sehr gerne für die Forschung oder die Entwicklung neuer medizinischer Methoden zur Verfügung stellen. Es muss allerdings sichergestellt werden, dass sie nicht für andere Zwecke verwendet werden. An Möglichkeiten, wie man das umsetzen kann, wird gerade viel gearbeitet. Eine konkrete Möglichkeit hat ja Lucas schon genannt.

    • Foto: Christoph Düsing

      Christoph Düsing Beantwortet am 3 Dez 2024:


      Der Schutz der Daten individueller Personen ist eine der zentralen Herausforderungen von KI in der Medizin.
      Hier wurden schon viele Ansätze beschrieben, wie das Einverständnis von Patientinnen und Patienten einzuholen und auf den Nutzen von solchen Daten hinzuweisen. Auch die Anonymisierung von Daten kann helfen, um Rückschlüsse auf einzelne Personen zu vermeiden.

      Ein weiterer Ansatz der meiner Meinung nach sehr vielversprechend ist und an dem meine Kollegen und ich aktiv forschen ist das föderierte Lernen. Diese Art des maschinellen Lernens erlaubt es mehreren Krankenhäusern gemeinschaftlich eine KI zu trainieren, ohne die Daten miteinander austauschen zu müssen. Die Krankenhäuser behalten also die volle Kontrolle über alle Daten. Leider ist auch diese Methode keine Lösung für alle Probleme, da sie mit ihren eigenen Limitationen daherkommt.

      Alles in allem werden wir in Zukunft verschiedene Methoden kombinieren müssen, um einen bestmöglichen Schutz von Patientinnen- und Patientendaten gewährleisten zu können.

    • Foto: Matthieu-P. Schapranow

      Matthieu-P. Schapranow Beantwortet am 3 Dez 2024:


      Gesundheitsdaten sind nicht erst seit der Datenschutzgrundverordnung als besonders schützenswert einzustufen. Daher gibt es bereits zahlreiche Methoden, um den Personenbezug aus med. Daten zu entfernen, z.B. Name, Adresse, Geburtstag entfernen oder ändern. Oftmals sollen Gesundheitsdaten aber nicht einmal den Ort, wo sie erhoben werden, verlassen, z.B. im Krankenhaus verbleiben. Dazu können bereits heute föderierte Lernverfahren zum Einsatz kommen. In diesem Fall müssen die Daten nicht zentral in einer Datenbank kombiniert werden, bevor sie genutzt werden, sondern die Algorithmen „reisen“ zu den Daten an ihren Standort. Dort analysieren die KI-Verfahren die Daten und lediglich das abgeleitete Regelwerk wird zum nächsten Standort gesandt, um dort weiter verfeinert zu werden. Das ist nur ein Beispiel des sog. (institutional) increment learning, bei dem vor allem die benutzen Gesundheitsdaten geschützt an ihrem Standort bleiben und gleichzeitig als Basis für die Entwicklung von KI-Verfahren dienen können. Wie das sogar länderübergreifend möglich ist, zeigte erfolgreich das deutsch-kanadische NephroCAGE-Konsortium am Beispiel von Transplantationsdaten für Nierenerkrankte; weitere Details auf der Website https://nephrocage.org.

    • Foto: Karsten Weber

      Karsten Weber Beantwortet am 3 Dez 2024:


      Die Informatik hat einen ziemlichen großen Methodenkoffer entwickelt, um große Datenbanken, die auch personenbezogene/-beziehbare Daten enthalten, so zu verarbeiten, dass der Datenschutz stets gewahr wird. Die Technik existiert also. Allerdings sind die entsprechenden Methoden aufwändig und damit zuweilen teuer, so dass es Anreize gibt, sich um den Datenschutz nicht zu scheren. Um dies zu verhindern, muss es letztlich durchsetzbare Regeln geben, deren Verletzung mit Sanktionen verbunden sind. Wir brauchen als Regulierung, Recht, Gesetze. Die EU ist hier in großen Umfang tätig, Stichworte sind bspw. DS-GVO, Artificial Intelligence Act, Data Act, Data Service Act. Im Zusammenspiel sinnvoller Regulierung und geeigneter Technik und verantwortungsvollen Menschen kann dann der Nutzen von KI gehoben werden. Leider gibt es aber viele Leute, die Regulierung grundsätzlich ablehnen.

    • Foto: Rosae Martín Peña

      Rosae Martín Peña Beantwortet am 3 Dez 2024:


      Diese Frage stellt KI-Entwickler vor erhebliche Herausforderungen. Einerseits erfordert die Einhaltung gesetzlicher Vorgaben wie der 2018 eingeführten DSGVO (GDPR) die Anonymisierung oder Pseudonymisierung personenbezogener Daten. Besonders sensibel sind dabei medizinische Daten, für deren Nutzung strenge Auflagen gelten. Der Zugang zu echten medizinischen Daten ist stark eingeschränkt und mit erheblichem bürokratischem Aufwand verbunden.

      Wie reagieren KI-Entwickler darauf? Sie greifen auf sogenannte synthetische Daten zurück, bei denen echte Daten „simuliert“ werden. Dieser Ansatz hat jedoch Grenzen: Synthetische Daten bieten nicht die gleiche Qualität und Informationsdichte wie reale Daten. Das führt zu einem Dilemma: Während echte Daten zu präziseren Ergebnissen führen könnten, birgt ihre Nutzung erhebliche Risiken für den Datenschutz. Sensible Daten könnten von Dritten missbraucht werden, was potenziell großen Schaden anrichten könnte.

      Dieses Spannungsfeld zwischen Datenschutz und der Qualität von KI-Ergebnissen stellt eine der größten Herausforderungen in der Entwicklung dar. Bislang gibt es keine einheitliche Lösung, um einerseits die Privatsphäre zu schützen und andererseits hochwertige Ergebnisse zu gewährleisten. Der Umgang mit sensiblen Daten erfordert daher weiterhin sorgfältige Abwägungen und innovative Ansätze.

Kommentare