DeepSeek ist eine Bezeichnung mit mehreren Bedeutungen: Zunächst handelt es sich dabei um eine chinesische Firma. Die breite Öffentlichkeit meint mit DeepSeek jedoch die Smartphone-App für den DeepSeek-Chatbot.
Als Drittes ist unter der Bezeichnung DeepSeek das Sprachmodell R1 zu verstehen, um das es eigentlich geht. DeepSeek R1 wiederum steht in zwei Ausprägungen zur Verfügung:
- Die bekannteste Ausprägung ist das Sprachmodell, das der DeepSeek-App für den Chatbot zugrunde liegt. Diese App lässt sich auf Mobilgeräten installieren und nutzen.
- Spannender ist allerdings, dass DeepSeek sein Sprachmodell R1 als Open Source veröffentlicht und somit verschenkt hat.
Das Unternehmen hat nicht nur das Sprachmodell für die Öffentlichkeit bereitgestellt, sondern auch das „Backrezept“ dazu. Dieses Rezept beschreibt, wie jeder selbst mit eigenen Trainingsdaten ein DeepSeek-Sprachmodell erzeugen kann. Nebenbei hat DeepSeek mithilfe von R1 die großen KI-Sprachmodelle (Large Language Models, LLMs) von Meta und anderen angereichert.
Was DeepSeek auszeichnet
Der Fokus von R1 liegt auf dem logischen Schlussfolgern (englisch: Reasoning). Gemäß Benchmarks und Erfahrungen von Benutzenden ist DeepSeek R1 ähnlich gut wie das Sprachmodell OpenAI o1, das ChatGPT zu Grunde liegt. Das ist erstaunlich, da die Kosten für die Entwicklung des KI-Modells wahrscheinlich deutlich geringer waren als die für ChatGPT.
DeepSeek ist Open Source
Die Open-Source-Variante von DeepSeek R1 versetzt jeden in die Lage, die KI lokal zu nutzen. Jeder kann sich R1 kostenlos herunterladen (siehe https://huggingface.co/deepseek-ai/DeepSeek-R1).
Bevor Sie den Download starten: Das vollständige Modell ist mehrere Hundert Gigabyte groß und läuft nicht auf einem gewöhnlichen PC. Jedoch stehen abgespeckte Distill-Modelle zur Verfügung, die auf anderen Open-Source-Modellen wie Llama aufsetzen. Dazu später mehr.
Effiziente Struktur
DeepSeek R1 basiert auf einer Mixture-of-Experts-Architektur (MoE). Das sorgt dafür, dass bei Fragen an das Modell nur ein kleiner Teil arbeitet.
Das DeepSeek-R1-Hauptmodell hat etwa 685 Milliarden Parameter, von denen nur 40 Milliarden Parameter gleichzeitig aktiv sind. Analog verhält es sich im menschlichen Gehirn mit dem Sprachzentrum. Wenn Sie sprechen, kann sich der größte Teil Ihres Gehirns ausruhen.
Schlussfolgerungen aus Daten zu ziehen, die das Modell nie zuvor gesehen hat, nennt man auch Inferenz. Da R1 eine MoE-Architektur verwendet, kann die Inferenz auf erschwinglicher Hardware stattfinden – ganz anders als bei ChatGPT.
Eigene Sprachmodelle
DeepSeek hat die Methode veröffentlicht, mit der es R1 trainiert hat. Jeder kann somit sein eigenes R1-Sprachmodell mit eigenem Wissen anlernen.
Die KI-Gemeinschaft hat bereits quelloffene Programmcodes entwickelt, um dieses KI-Training auch für kleinere Modelle durchführen zu können. Während das originale R1 trotzdem noch erhebliche Anforderungen an die Hardware stellt, sind die kleineren Modelle genügsamer. Sie lassen sich sogar auf einem halbwegs modernen PC oder Laptop betreiben.
Man kann nur spekulieren, warum das Unternehmen DeepSeek das Rezept mitsamt dem Modell frei zur Verfügung stellt. Die Vermutung liegt nahe, dass politische Motive eine Rolle spielten. Immerhin hatten die USA kurz zuvor ein 500 Milliarden Dollar schweres Investitionspaket für KI-Projekte angekündigt.
Effiziente Schülermodelle
DeepSeek hat zudem demonstriert, wie sich mithilfe von R1 auf komfortable Weise kleinere Sprachmodelle verbessern lassen. Diese Wissensdestillation ist eine maschinelle Lerntechnik, bei der ein großes, komplexes Lehrermodell Wissen an ein kleineres, effizientes Schülermodell überträgt. Zweck: Die Leistung großer Modelle aufrechtzuerhalten und gleichzeitig den Rechenbedarf zu reduzieren.
Dazu tritt das Schülermodell, etwa Llama von Meta, in einen Dialog mit R1. Die Schülermodelle lassen sich aufgrund ihrer geringeren Größe auf kostengünstiger Hardware betreiben.
Datenschutz und Datensicherheit bei DeepSeek
Mehrere Länder haben die DeepSeek-App für Smartphones verboten oder stehen kurz vor einem Verbot. Datenschutzrechtlich ist sie nach aktuellem Wissensstand eine Katastrophe. Niemand sollte diese App nutzen.
Ganz anders sieht es hingegen bei den Open-Source-Modellen von DeepSeek aus, also bei R1 und den Schülermodellen. Diese Modelle kann jeder Interessierte herunterladen und dann völlig autark betreiben. Es ist so, als würden Sie sich eine reine Textdatei herunterladen. Jeder versteht, dass eine Textdatei keine Daten an andere Stellen sendet.
Grundstruktur der DeepSeek-Modelle
Die KI-Modelle von DeepSeek haben die gleiche Grundstruktur wie alle anderen KI-Modelle:
- Schichten von Neuronen: Die Eingangsschicht nimmt Daten auf. Die verborgenen Schichten verarbeiten Daten. Die Ausgabeschicht gibt das Ergebnis aus.
- Verbindungen zwischen Neuronen verschiedener Schichten (Gewichte, also Zahlen). Die Größe und das Vorzeichen jeder Gewichtung bestimmen die Stärke und Richtung der Verbindung zwischen den Neuronen in einem neuronalen Netzwerk.
- Zuordnungen von Wortteilen oder Silben (Token) zu Zahlen, da KI-Modelle lediglich Zahlen verarbeiten können.