Anzeige
Anzeige
Bildergalerie28.05.2025, 14:39 Uhr

So arbeitet Deepseek – und das macht es anders als andere KI-Modelle

Das KI-Modell R1 des chinesischen Startups Deepseek hat für viel Aufsehen gesorgt. Unsere Grafik erklärt, warum diese KI so effizient ist, was Sprachmodelle von Reasoning-Modellen unterscheidet und wie R1 trainiert wurde.

4 Bilder in Pocket speichern
Anzeige
Anzeige
1/4Quelle: (Grafik: MIT Technology Review)
Super-Effizienz

Das DeepSeek-Modell v3 braucht weniger Energie und Rechenpower als vergleichbare westliche KI. Es besteht aus mehreren kleineren Experten-Modellen und einem Router. Bei diesem „Mixture of Experts“-Aufbau weist der Router den Input dem am besten geeigneten Spezialmodell zu.

Quelle: (Grafik: MIT Technology Review)
2/4Quelle: (Grafik: MIT Technology Review)
Eigenschaften von Sprachmodellen

Ein Sprachmodell ist darauf trainiert, den Input mit dem laut den Trainingsdaten am besten passenden Wort zu ergänzen. Das Ergebnis hängt es an den ursprünglichen Input an, speist es wieder ein und erzeugt neuen Ouput. Auf diese Weise entstehen ganze Texte.

Quelle: (Grafik: MIT Technology Review)
3/4Quelle: (Grafik: MIT Technology Review)
So arbeiten Reasoning-Modelle

Reasoning-Modelle wie R1 (oder auch O1 und O3) zerlegen eine Aufgabe zunächst in Teilschritte. Dann erzeugen sie für jede Teilaufgabe mehrere mögliche Antworten, bevor sie zur nächsten Teilaufgabe gehen. Dabei kombinieren sie die Antworten der vorherigen Teilschritte. Das erzeugt viele verschiedene mögliche Lösungswege. Um die beste Lösung zu wählen, muss das Modell trainiert werden. 

Quelle: (Grafik: MIT Technology Review)
4/4Quelle: (Grafik: MIT Technology Review)
Verstärkungslernen

Im Training bekommt das Modell eine Aufgabe und erzeugt mehrere mögliche Lösungen. Es wählt eine aus, die ein Bewertungs-Modul bewertet. Ist die Antwort falsch, erhält diese Auswahl eine schlechte Bewertung und das Modell muss die Aufgabe wiederholen. Ist sie richtig, wird die Auswahl intern bestärkt und das Modell bekommt die nächste Aufgabe.

Quelle: (Grafik: MIT Technology Review)

Outbrain