Google Gemini: The Next Big Thing in AI?

Seit dem ChatGPT Release ist etwas Zeit vergangen und wir alle haben uns an die KI-Headlines gewöhnt. Meine Prognose heute: Wir werden bald nochmal ganz schön durchgeschüttelt.

Google kündigt für den Herbst den Release von Gemini an – das nächste große KI-Produkt des Unternehmens. Google Bard erschien Anfang des Jahres und war eine Art Verlegenheitslösung als Reaktion auf ChatGPT und Microsoft Bing. Wer kein Produkt am Markt hat, kann auch nicht mitspielen. Also wurde das beste Modell veröffentlicht, das zum gegebenen Zeitpunkt ansatzweise marktreif gemacht werden konnte. Gemini hat das Potenzial, etwas völlig anderes zu werden. Warum, das erläutere ich in diesem Blogpost.

Gemini als Antwort auf eine Kränkung

Google war jahrelang der Spitzenreiter im KI-Bereich! Von Alpha Go über das bahnbrechende Paper 'Attention Is All You Need', das die heutige GPT-Architektur überhaupt erst ermöglicht – Google ist seit vielen Jahren ganz weit vorne an der Cutting Edge dabei. Dass ein unbekanntes Unternehmen wie OpenAI in Kooperation mit Microsoft die Welt auf den Kopf stellt, war unerwartet. Microsoft konnte sich dann anscheinend auch die Schadenfreude nicht verkneifen.

Nach allem, was wir wissen, „tanzt“ Google mit vollem Ressourceneinsatz zurück. Gemini wird das (diesjährige, kundenorientierte) Ergebnis.

Was macht Gemini so spannend?

Es gibt viele Gründe, viel von Gemini zu erwarten. Einer davon: Scale! Die große Überraschung für das ganze KI-Forschungsfeld war, dass OpenAI zeigen konnte, wie unglaublich gut aktuelle Modelle werden, wenn man sie einfach größer macht. Also arbeitet die ganze Welt daran, sie noch größer zu machen. Das ist auch der Hintergrund für den Wettstreit um Chips und immer größere Serverfarmen. Google ist einer der global Player, denen man zutrauen kann, in diesem Kampf um Infrastruktur besser abzuschneiden als viele andere. Ohne mich auf Spekulationen um Parameterzahlen einzulassen: Das größte Gemini Modell wird vermutlich um ein Vielfaches größer als GPT- 4.0 von OpenAI.

Aber neben dem Faktor Scale gibt es eine ganze andere Menge anderer Achsen, an denen entlang KI weitere Fortschritte erzielen kann. Für alle diese Faktoren gilt: Noch nie wurde so viel Zeit, Geld und Talent investiert wie dieses Jahr – und Google gehört zu den Unternehmen, die mit besten Voraussetzungen in dieses Rennen einsteigen. Stellen Sie sich einfach vor Anfang des Jahres wäre klar geworden, dass 100 Meterlauf der wichtigste Erfolgsfaktor für Technologieunternehmen überhaupt wird – und Usain Bolt arbeitet für Google. Hier, was mir als relativer Laie an Faktoren bewusst ist:

Grundlegende Architektur:

Eine der genialen Ideen hinter GPT-4.0 war der Transformer. Die ganze Welt sucht nach weiteren cleveren Ideen wie dieser. Demis Hassabis von Google Deepmind redet beispielsweise davon, dass Prinzipien von Alpha Zero bei Gemini zur Anwendung kommen, um es dem Modell zu ermöglichen vorauszuplanen. Vorausplanen ist etwas, das LLMs wie ChatGPT aktuell nicht sehr gut können. DeepMind besiegt mit auf Alpha Zero basierenden Modellen die besten menschlichen Spieler in den komplexesten Strategiespielen, die wir als Menschheit entwickelt haben (Schach, Go, Shōgi, Dota2 etc.). Was, wenn es wirklich gelingt, diese Fähigkeit in Gemini zu integrieren?

Hardware:

Die Hardware hinter dem unglaublich rechenintensiven Training von KIModellen wird stetig weiterentwickelt. Google trainiert Gemini mit dem neuen TPUv5 Chip. Um ehrlich zu sein, fällt es mir schwer einzuschätzen, was genau das bedeutet, aber anscheinend ist es ein big deal. Ich habe GPT-4.0 über das Plugin „Web Requests“ einen Artikel zu TPUv5 lesen und zusammenfassen lassen. Hier ein Link zur gesamten Unterhaltung mit GPT-4.0, hier nur das Fazit (Übersetzt aus dem Englischen mit DeepL):

Googles neuer TPUv5e-Chip könnte das Unternehmen in eine dominante Position im KI-Sektor katapultieren und die Konkurrenz mit überlegener Kosteneffizienz und Leistung austechen.

GPT-4.0 + Plugin Web Requests, Zusammenfassung siehe hier.
Algorithmen:

Beim Training von KI-Modellen kommen eine große Zahl von Algorithmen zur Anwendung. Viele extrem intelligente Menschen denken aktuell (mit Hilfe von KI) darüber nach, was sich hier verbessern lässt. Einige der schlausten Menschen und besten KI-Systeme arbeiten für Google. Es würde mich überraschen, wenn im Vergleich zum Vorjahr keine Fortschritte in diesem Bereich gemacht würden.

Datenqualität:

ChatGPT und andere aktuell für uns verfügbare Modelle basieren auf Massen von Daten, die wie mit dem Staubsauger aus dem Internet gezogen wurden. Aktuell werden LLMs eingesetzt, um nachträglich und automatisiert die Qualität dieser Date zu erhöhen; außerdem gibt es ein ganzes Forschungsfeld, das sich damit beschäftigt, Modelle mit komplett synthetisch erzeugten Daten zu trainieren. Für den Laien ist das alles schwer einzuschätzen, aber: Auch hier wäre es verwunderlich, wenn sich hier keine Leistungssteigerungen ergeben.

Neben diesen allgemeinen Punkten, die jede Organisation mit ausreichend Ressourcen nutzen wird, um bessere, schnellere, fähigere Modelle zu entwickeln, gibt es auch noch ein paar Google-spezifische Punkte, die Gemini besonders interessant machen:

Youtube:

Zum Training von Gemini wurde (so sagt man) auch YouTube als Datenbasis eingesetzt. Wenn es stimmt, dass Gemini multimodal ist (Text, Audio, Video statt nur Text), ist der Zugriff auf Youtube ein unglaublicher Vorteil für Google. Verbuchen wir das unter Spekulation, aber eine Anwendung, von der ich als Möglichkeit gehört habe, wäre ein Automechaniker, der sich via Handykamera von Gemini bei der Reparatur anleiten lässt. Wenn das wirklich kommt, leben wir (schon wieder) in einer anderen Welt.

Daten allgemein:

Unabhängig von YouTube, wer hat Zugriff auf mehr Daten als Google? Hier habe ich zwar noch keine Artikel gelesen, aber es scheint wahrscheinlich, dass Google auch hier ganz weit vorne mitspielt.

Google bringt sein A-Team:

Von Demis Hassabis von Google DeepMind bis zum Google Co-Founder Sergey Brin – bei der Entwicklung von Gemini werden die ganz großen Namen bei Google ausgepackt. Es ist klar, dass hier Prioritäten gesetzt werden.

Datenqualität:

ChatGPT und andere aktuell für uns verfügbare Modelle basieren auf Massen von Daten, die wie mit dem Staubsauger aus dem Internet gezogen wurden. Aktuell werden LLMs eingesetzt, um nachträglich und automatisiert die Qualität dieser Date zu erhöhen; außerdem gibt es ein ganzes Forschungsfeld, das sich damit beschäftigt, Modelle mit komplett synthetisch erzeugten Daten zu trainieren. Für den Laien ist das alles schwer einzuschätzen, aber: Auch hier wäre es verwunderlich, wenn sich hier keine Leistungssteigerungen ergeben.

Was wird Gemini (vermutlich) können?

Folgt man den aktuellen Gerüchten, wird Gemini die eierlegende Wollmilchsau der generativen KI-Modelle: Bessere Textverarbeitung und Programmieren als GPT-4.0, bessere Text-to-Image-Fähigkeiten als Midjourney und Stable Diffusion, bessere Text-to- Video-Fähigkeiten als Runway 2. Kurz: Glaubt man dem Hype, wird Gemini das Alles- Modell! Wird das so? Da traue ich mir (noch )kein Urteil zu. Möglich scheint es.

 

Große Spannung für den Herbst

Das war jetzt erst einmal eine Menge Hype für Gemini. Daher zum Abschluss ein paar Dämpfer: Ein Jahr ist in der Produktentwicklung eine ambitionierte Timeline. Auch für Google. Vielleicht funktioniert etwas nicht. Vielleicht werden Modelle nicht so viel besser als GPT-4.0, nur weil man sie noch größer macht. Vielleicht werden sie viel besser, aber es ergeben sich Sicherheitsbedenken. Vielleicht verzögert sich Gemini oder der Schuss geht nach hinten los und das Projekt ist am Ende eher peinlich. Meine persönliche Prognose:

Wenn Google ein Jahr lang all seine Ressourcen mit Volldampf hinter ein Projekt wirft, ist es möglich, dass etwas Erstaunliches dabei herauskommt. In nur wenigen Wochen wissen wir mehr: Ich werde berichten!