Grundlegende Architektur:
Eine der genialen Ideen hinter GPT-4.0 war der Transformer. Die ganze Welt sucht nach weiteren cleveren Ideen wie dieser. Demis Hassabis von Google Deepmind redet beispielsweise davon, dass Prinzipien von Alpha Zero bei Gemini zur Anwendung kommen, um es dem Modell zu ermöglichen vorauszuplanen. Vorausplanen ist etwas, das LLMs wie ChatGPT aktuell nicht sehr gut können. DeepMind besiegt mit auf Alpha Zero basierenden Modellen die besten menschlichen Spieler in den komplexesten Strategiespielen, die wir als Menschheit entwickelt haben (Schach, Go, Shōgi, Dota2 etc.). Was, wenn es wirklich gelingt, diese Fähigkeit in Gemini zu integrieren?
Hardware:
Die Hardware hinter dem unglaublich rechenintensiven Training von KIModellen wird stetig weiterentwickelt. Google trainiert Gemini mit dem neuen TPUv5 Chip. Um ehrlich zu sein, fällt es mir schwer einzuschätzen, was genau das bedeutet, aber anscheinend ist es ein big deal. Ich habe GPT-4.0 über das Plugin „Web Requests“ einen Artikel zu TPUv5 lesen und zusammenfassen lassen. Hier ein Link zur gesamten Unterhaltung mit GPT-4.0, hier nur das Fazit (Übersetzt aus dem Englischen mit DeepL):
Googles neuer TPUv5e-Chip könnte das Unternehmen in eine dominante Position im KI-Sektor katapultieren und die Konkurrenz mit überlegener Kosteneffizienz und Leistung austechen.
Algorithmen:
Beim Training von KI-Modellen kommen eine große Zahl von Algorithmen zur Anwendung. Viele extrem intelligente Menschen denken aktuell (mit Hilfe von KI) darüber nach, was sich hier verbessern lässt. Einige der schlausten Menschen und besten KI-Systeme arbeiten für Google. Es würde mich überraschen, wenn im Vergleich zum Vorjahr keine Fortschritte in diesem Bereich gemacht würden.
Datenqualität:
ChatGPT und andere aktuell für uns verfügbare Modelle basieren auf Massen von Daten, die wie mit dem Staubsauger aus dem Internet gezogen wurden. Aktuell werden LLMs eingesetzt, um nachträglich und automatisiert die Qualität dieser Date zu erhöhen; außerdem gibt es ein ganzes Forschungsfeld, das sich damit beschäftigt, Modelle mit komplett synthetisch erzeugten Daten zu trainieren. Für den Laien ist das alles schwer einzuschätzen, aber: Auch hier wäre es verwunderlich, wenn sich hier keine Leistungssteigerungen ergeben.
Neben diesen allgemeinen Punkten, die jede Organisation mit ausreichend Ressourcen nutzen wird, um bessere, schnellere, fähigere Modelle zu entwickeln, gibt es auch noch ein paar Google-spezifische Punkte, die Gemini besonders interessant machen:
Youtube:
Zum Training von Gemini wurde (so sagt man) auch YouTube als Datenbasis eingesetzt. Wenn es stimmt, dass Gemini multimodal ist (Text, Audio, Video statt nur Text), ist der Zugriff auf Youtube ein unglaublicher Vorteil für Google. Verbuchen wir das unter Spekulation, aber eine Anwendung, von der ich als Möglichkeit gehört habe, wäre ein Automechaniker, der sich via Handykamera von Gemini bei der Reparatur anleiten lässt. Wenn das wirklich kommt, leben wir (schon wieder) in einer anderen Welt.
Daten allgemein:
Unabhängig von YouTube, wer hat Zugriff auf mehr Daten als Google? Hier habe ich zwar noch keine Artikel gelesen, aber es scheint wahrscheinlich, dass Google auch hier ganz weit vorne mitspielt.
Google bringt sein A-Team:
Von Demis Hassabis von Google DeepMind bis zum Google Co-Founder Sergey Brin – bei der Entwicklung von Gemini werden die ganz großen Namen bei Google ausgepackt. Es ist klar, dass hier Prioritäten gesetzt werden.
Datenqualität:
ChatGPT und andere aktuell für uns verfügbare Modelle basieren auf Massen von Daten, die wie mit dem Staubsauger aus dem Internet gezogen wurden. Aktuell werden LLMs eingesetzt, um nachträglich und automatisiert die Qualität dieser Date zu erhöhen; außerdem gibt es ein ganzes Forschungsfeld, das sich damit beschäftigt, Modelle mit komplett synthetisch erzeugten Daten zu trainieren. Für den Laien ist das alles schwer einzuschätzen, aber: Auch hier wäre es verwunderlich, wenn sich hier keine Leistungssteigerungen ergeben.
Was wird Gemini (vermutlich) können?
Folgt man den aktuellen Gerüchten, wird Gemini die eierlegende Wollmilchsau der generativen KI-Modelle: Bessere Textverarbeitung und Programmieren als GPT-4.0, bessere Text-to-Image-Fähigkeiten als Midjourney und Stable Diffusion, bessere Text-to- Video-Fähigkeiten als Runway 2. Kurz: Glaubt man dem Hype, wird Gemini das Alles- Modell! Wird das so? Da traue ich mir (noch )kein Urteil zu. Möglich scheint es.
Große Spannung für den Herbst
Das war jetzt erst einmal eine Menge Hype für Gemini. Daher zum Abschluss ein paar Dämpfer: Ein Jahr ist in der Produktentwicklung eine ambitionierte Timeline. Auch für Google. Vielleicht funktioniert etwas nicht. Vielleicht werden Modelle nicht so viel besser als GPT-4.0, nur weil man sie noch größer macht. Vielleicht werden sie viel besser, aber es ergeben sich Sicherheitsbedenken. Vielleicht verzögert sich Gemini oder der Schuss geht nach hinten los und das Projekt ist am Ende eher peinlich. Meine persönliche Prognose:
Wenn Google ein Jahr lang all seine Ressourcen mit Volldampf hinter ein Projekt wirft, ist es möglich, dass etwas Erstaunliches dabei herauskommt. In nur wenigen Wochen wissen wir mehr: Ich werde berichten!