09. August 2023

Künstliche Intelligenz: Wie arbeitet eine KI?

So, wie KI Daten verarbeitet, drängt sich die Parallele zur Funktionsweise des menschlichen Gehirns auf

Bild: iStock.com / ismagilov

4,20 (5)

KI & Datenschutz

Spätestens mit ChatGPT-4 sind die erstaunlichen Fähigkeiten von KI spürbar geworden. Moderne KI-Systeme basieren auf Massendaten und neuen Konzepten. Der Beitrag beschreibt die Funktionsweise aktueller KI-Algorithmen auch im Kontext des Datenschutzes.

Die Leistungsfähigkeit von KI hat eine neue Stufe erreicht, die alles Bisherige in den Schatten stellt. Die Gründe hierfür sind vielfältig. Vor allem neue mathematische Modelle des maschinellen Lernens haben den Durchbruch begründet. KI-Algorithmen verarbeiten an verschiedenen Stellen des Lern- und Nutzungsprozesses Daten, die auch personenbezogen sein können.

Wie sieht die Architektur von KI-Systemen aus?

Doch wie funktioniert ein KI-Algorithmus, der auch ChatGPT oder Bildgeneratoren wie Dall-E und Midjourney zugrunde liegt?

Aus meiner Sicht ist insbesondere die Transformer-Architektur entscheidend für die hohe Leistungsfähigkeit der genannten Systeme. Der Transformer-Ansatz existiert seit dem Jahr 2017. Mit einem Transformer lässt sich jegliche Art von Eingabe (Daten) in sogenannte Einbettungen überführen. Einbettungen (Embeddings) sind Listen von Zahlen, die Vektoren genannt werden. Die Vektoren für zwei Eingabewerte ähneln sich idealerweise so sehr, wie die zwei Eingabewerte sich semantisch ähneln.

Künstliche Intelligenz arbeitet mit Vereinheitlichung von Daten

Bei Textanwendungen wie der automatischen Übersetzung oder einer Textzusammenfassung bestehen die Eingabewerte aus Begriffen. Bildanwendungen wie Dall-E vektorisieren Bilder nebst vorliegenden Bildbeschreibungen. Sie überführen sie also in semantisch aufgeladene Zahlenreihen. Für Bilder werden deren Pixelwerte als Eingaben verwendet. Diese Vektorisierung funktioniert auch für jegliche andere Art von Eingaben, also etwa für Videos oder Audiosignale.

Weil KI-Anwendungen jegliche Information gleichförmig verarbeiten und diese Information so in einheitlicher Weise für Berechnungen zur Verfügung steht, lassen sich Texte mit Bildern, Bilder mit Bildern oder auch Bilder mit Videos vergleichen und ineinander überführen.

Dass statistische Prozesse eine Rolle spielen, ist anscheinend dem Entstehen von Intelligenz nicht abträglich, sondern womöglich eine Grundbedingung.

KI löst Aufgaben mit Reinforcement Learning

Ein Ansatz namens Reinforcement Learning erlaubt es, komplexe Aufgaben ohne Trainer („unsupervised“) zu meistern. Die Eingabedaten benötigen nicht einmal Beschreibungen („Label“). Vielmehr wird automatisch eine Strategie („Policy“) erdacht. So können KI-Anwendungen auch Probleme mit offenem Lösungsraum in herausragender Weise lösen.

Als Beispiel sei ein künstlicher Spieler genannt, der in einem komplexen Strategiespiel wie StarCraft einen hochbezahlten Profi-Spieler in überlegener Weise schlagen kann. (Der KI-Algorithmus bedient das Spiel dabei übrigens im Schnitt nicht schneller als der Mensch.) Das unterscheidet sich fundamental von Schachprogrammen, die alle Informationen auf dem Spielfeld vorfinden und nur eine bekannte Anzahl an nächsten Spielzügen berücksichtigen müssen.

KI nutzt neuronale Netze & Deep Learning

Moderne Verfahren Künstlicher Intelligenz nutzen neuronale Netze. Diese bestehen aus einer Eingabe- und einer Ausgabeschicht. In die Eingabeschicht werden sowohl Trainingsdaten als auch neue Fragestellungen eingeführt. Die Ausgabeschicht gibt die Antwort auf das gestellte Problem. Zwischen diesen (sichtbaren) Schichten befinden sich versteckte Schichten.

Weil die Anzahl der versteckten Schichten in künstlichen neuronalen Netzen so groß ist, wird auch von Deep Learning gesprochen. Das „Deep“ bezieht sich also auf die Mächtigkeit des neuronalen Netzes. In den letzten Jahren fand hier ebenfalls eine deutliche Verbesserung der Verfahren statt.

Um ein komplexes neuronales Netz – wie das menschliche Gehirn oder das moderner KI-Systeme – für den Einsatz zu rüsten, bedarf es sehr vieler Beispieldaten und immenser Rechenleistung. Elektronische Hirne brauchen Millionen von Beispielen, um gute Ergebnisse zu erzielen. Diese Menge an Beispielen liegt durch die ständig wachsende Fülle von Inhalten im Internet öffentlich zugänglich vor. Moderne Computer wiederum sind pfeilschnell, haben riesige Speicher und werden immer günstiger.

Chancen und Gefahren von KI-Systemen

Die neuen Möglichkeiten sind immens und werden die Gesellschaft verändern. Fortschritt ist sozusagen vorprogrammiert.

KI-Systeme lernen aus Massendaten. Daraus entstehen automatisch rechtliche Fragen (siehe dazu Schemmel, Heft 05/23, S. 1–4, ChatGPT & Co – wie steht’s mit dem Datenschutz?). Die Bereitschaft von Unternehmen, Personendaten und Geschäftsgeheimnisse in den Prompt eines Chatbots wie ChatGPT zu tippen, dürfte jedenfalls gering sein.

Trainingsdaten für das Anlernen einer KI müssen legitimiert sein. Öffentliche Quellen jedenfalls erscheinen zunächst unverfänglich. Wie das Gehirn des Menschen lernt ein neuronales Netz in erster Linie nicht exakte Fakten, sondern versucht, Zusammenhänge zu verstehen. Die Antwort auf eine Frage ist also naturgemäß mit Unsicherheiten behaftet (wie beim Menschen).

Während der initiale Trainingsprozess aus Datenschutzsicht kontrollierbar erscheint, ist ein Training aus Eingaben mit Unsicherheiten hinsichtlich der gespeicherten Daten behaftet. Das direkte Abspeichern von Eingaben ist jedenfalls ohne Einwilligung problematisch. Immerhin bietet ChatGPT mittlerweile ein Opt-out. Nutzer können damit verhindern, dass OpenAI die Chats zu Trainingszwecken speichert. Einzelne Daten aus einem antrainierten Modell nachträglich zu löschen, ist wohl nur durch einen Neubau möglich.

Aktuell lassen sich hochanspruchsvolle Probleme auf handelsüblichen Computern sehr zufriedenstellend lösen. Während die Rechenleistung gestiegen ist, sind die Preise gesunken. Oft ist also keine Cloud-Anwendung nötig.

Die Open-Source-Kultur der KI-Gemeinschaft sorgt für einen lawinenartigen Anstieg von Wissen. Insofern erscheint eine Prognose für die Fähigkeiten von KI für das nächste Jahr recht gewagt. Die daraus resultierenden Chancen sind auf jeden Fall erheblich: Während beispielsweise bis vor Kurzem eine Audiotranskription in mittelmäßiger Qualität ein Höhepunkt im kommerziellen Angebot war, bin ich selbst nun in der Lage, dies auf meinem Rechner in erheblich höherer Qualität zu realisieren. Mein Algorithmus versteht sogar bayerisch.

Risiken mit lokalen und autarken KI-Systemen reduzieren

Mächtige Systeme bergen naturgemäß Risiken. Bei Massendaten entstehen immer auch Datenschutzfragen. Problematisch wird es, wenn Nutzer sensible Daten manuell an die KI geben. Werden diese Daten „nur“ zur Verbesserung der KI verwendet, ist das Risiko gering. Allerdings lässt sich nicht ausschließen, dass die KI-Tools Informationen aus Eingabedaten extrahieren. Lokale und autarke KI-Systeme sind eine Lösung, die wirtschaftlich möglich ist und rechtliche Fragen zufriedenstellend beantwortet.

Dr. Klaus Meffert

zu den Kommentaren

Wie nützlich war dieser Beitrag für Sie?

ChatGPT KI

drucken

Verfasst von

Dr. Klaus Meffert

Dr. Klaus Meffert ist Diplom-Informatiker und seit 30 Jahren in der IT-Beratung und Software-Entwicklung tätig. Kunden wie T-Systems, Fresenius und SAP begleitete er über viele Jahre. Seit 2017 ist er im digitalen Datenschutz tätig und berät Datenschutzbeauftragte, Internet-Agenturen sowie Endkunden.