DiffusionGemma, Google

DiffusionGemma: Google DeepMind erzeugt 256 Tokens gleichzeitig

11.06.2026 - 06:34:47 | boerse-global.de

Google DeepMind prÀsentiert mit DiffusionGemma ein KI-Modell, das bis zu 256 Tokens gleichzeitig erzeugt und so die Textgenerierung beschleunigt.

Google DeepMind: Neues KI-Modell DiffusionGemma generiert Textblöcke parallel
DiffusionGemma - An abstract image showing glowing blue and green neural pathways converging on a stylized, futuristic NVIDIA GPU chip, representing AI and parallel processing. 11.06.2026 - Bild: ĂŒber boerse-global.de

Ein neues Open-Source-Modell von Google DeepMind soll die Textgenerierung grundlegend beschleunigen – mit Hilfe von Nvidia-Hardware.

Statt Wörter mĂŒhsam Wort fĂŒr Wort zu erzeugen, arbeitet DiffusionGemma parallel: Bis zu 256 Tokens auf einmal. Das teilte Google DeepMind am Mittwoch mit. Möglich macht das ein diffusionsbasierter Ansatz, der sich radikal von herkömmlichen autoregressiven Modellen unterscheidet.

Anzeige

WĂ€hrend Profi-Modelle wie DiffusionGemma die technische Entwicklung vorantreiben, bleibt die praktische Anwendung von KI-Tools fĂŒr viele Nutzer oft ein RĂ€tsel. Dieser kostenlose Ratgeber zeigt Ihnen, wie Sie gĂ€ngige KI-Lösungen ohne Vorkenntnisse sofort effektiv in Ihren Alltag integrieren. ChatGPT als Alltagshelfer: Jetzt kostenlosen PDF-Report sichern

Technische Basis: 26 Milliarden Parameter, 256.000 Tokens Kontext

Das Modell basiert auf der Gemma-4-Architektur und setzt auf ein Mixture-of-Experts (MoE) -Design. Von den insgesamt 26 Milliarden Parametern sind wĂ€hrend der Inferenz nur 3,8 Milliarden aktiv – das spart Rechenleistung.

Die offenen Gewichte stehen unter der Apache-2.0-Lizenz zur VerfĂŒgung. Mit einer KontextlĂ€nge von bis zu 256.000 Tokens eignet sich DiffusionGemma besonders fĂŒr Aufgaben wie das Lösen von Sudokus oder das VervollstĂ€ndigen von Code. Die QualitĂ€t der Ausgaben liegt allerdings noch unter der des regulĂ€ren Gemma-4-Modells, rĂ€umten die Entwickler ein.

Nvidia optimiert fĂŒr RTX, DGX und H100

PĂŒnktlich zum Start kĂŒndigte Nvidia umfassende UnterstĂŒtzung an. Die Optimierungen zielen auf maximale Durchsatzleistung auf den Plattformen GeForce RTX, RTX PRO und DGX. Besonders das NVFP4-Datenformat soll die Performance auf lokaler Hardware deutlich steigern.

Die ersten Benchmarks sprechen eine klare Sprache:

  • H100-GPUs: Über 1.000 Tokens pro Sekunde
  • DGX Station: Bis zu 2.000 Tokens pro Sekunde
  • RTX 5090: Mehr als 700 Tokens pro Sekunde
  • DGX Spark: 150 Tokens pro Sekunde

FĂŒr Entwickler mit hochwertiger Hardware ist das Modell auch lokal nutzbar: In quantisierter Form passt es in 18 GB VRAM – ein klarer Vorteil gegenĂŒber cloudabhĂ€ngigen Alternativen.

Anzeige

Ob lokal installierte Modelle oder Cloud-Tools – der effiziente Einsatz von KI spart im Alltag wertvolle Zeit bei der Organisation und Planung. Erfahren Sie in diesem kompakten Gratis-Guide die besten Tipps und fertige Befehle, um das volle Potenzial moderner KI-Assistenten auszuschöpfen. Die praktischsten KI-Tricks fĂŒr den Alltag hier kostenlos herunterladen

Breite Integration in die Entwickler-Ökosysteme

Die KompatibilitÀt mit gÀngigen Frameworks war von Anfang an gegeben. DiffusionGemma lÀuft auf Hugging Face Transformers, vLLM und Unsloth. Hinzu kommen Nvidias eigene Dienste: NVIDIA NIM (Inference Microservices) und das NeMo AutoModel-Framework erleichtern die Bereitstellung.

Das Modell ist in den Formaten BF16 und NVFP4 verfĂŒgbar. Branchenbeobachter sehen darin einen strategischen Schachzug: Nvidia stĂ€rkt seine Position im Markt fĂŒr lokale KI-Inferenz und reduziert gleichzeitig die AbhĂ€ngigkeit von teuren Cloud-Diensten.

Lokale Inferenz als Gamechanger?

Der entscheidende Vorteil von DiffusionGemma liegt in der Effizienz fĂŒr Einzelnutzer. Weil das Modell Textblöcke parallel erzeugt, sinken die Latenzzeiten drastisch – vor allem die Zeit bis zum ersten Token. Entwickler können direkt auf ihren Workstations arbeiten, ohne auf Cloud-Ressourcen angewiesen zu sein.

Google verfolgt damit eine klare Strategie: Die Wirtschaftlichkeit lokaler KI-Entwicklung soll sich grundlegend Ă€ndern. Dass das Modell auch ĂŒber das MLX-Framework nutzbar ist, unterstreicht den Anspruch, möglichst viele Hardware-Umgebungen abzudecken.

de | wissenschaft | 69518617 |