Veo 2 und Imagen 3: Google stellt neues KI-Video- und Bildmodell vor
- yaya945
- 2024年12月17日
- 讀畢需時 2 分鐘
Veo 2 und Imagen 3: Google stellt neues KI-Video- und Bildmodell vor
Google hat vor wenigen Tagen das neue Gemini 2.0 vorgestellt, das in allen Bereichen große Verbesserungen im Gepäck haben und auch die Multimodalität zum Verständnis von Medien weiter verbessern soll. Passend dazu wurden nun neue Generationen des Videogenerators Veo sowie des seit langer Zeit im Einsatz befindlichen Bildgenerators Imagen vorgestellt. Beide sollen deutlich zugelegt haben.
Veo 2 kann laut Google Videos in 4K-Auflösung erstellen und versteht cinematografische Anweisungen wie Linsentypen oder Kameraeffekte. Die Videolänge kann auf "mehrere Minuten" ausgedehnt werden.

Ein wichtiger Fortschritt sei die Reduzierung von Halluzinationen – also unerwünschten Details wie zusätzliche Finger oder unerwartete Objekte. Auch bei der Physik soll Veo 2 Fortschritte gemacht haben.
Google räumt ein, dass es trotz der Fortschritte eine Herausforderung bleibe, durchgehend realistische und dynamische Videos zu erzeugen. Besonders bei komplexen Szenen oder Bewegungsabläufen gebe es noch Verbesserungspotenzial.
Veo 2 wird zunächst nur über ausgewählte Produkte wie VideoFX, YouTube und die Vertex-AI-Plattform verfügbar sein. Ab 2025 soll das System auch in YouTube-Shorts und weiteren Produkten zum Einsatz kommen. Alle generierten Videos werden mit einem unsichtbaren SynthID-Wasserzeichen als KI-generiert gekennzeichnet.
Zumindest in den veröffentlichten Bildern hat man das sehr gut hinbekommen, was bei vielen Nutzern in der Form sicherlich nicht ganz so gut aussieht. Ich bin persönlich bisher kaum von Googles Medien-KI überzeugt und greife dann doch eher zu anderen Tools. Aber vielleicht wird es mit Imagen 3 und Veo 2 besser, wenn diese in der Masse ankommen. Zunächst will man die neuen Modelle nur über ImageFX und VideoFX anbieten.

Auch das Bildgenerierungsmodell Imagen 3 hat ein Update erfahren. Es erzeugt nun hellere, besser komponierte Bilder und kann vielfältigere Kunststile darstellen – von Fotorealismus bis Anime. Es folgt den Prompts genauer und erzeugt reichhaltigere Details und Texturen. Auch hier wurden im Vergleich mit anderen führenden Modellen hervorragende Ergebnisse erzielt. Imagen 3 ist ab sofort in mehr als 100 Ländern über ImageFX in Google Labs zugänglich.
Zusätzlich wurde das oben erwähnte Whisk vorgestellt, ein neues Tool in Google Labs, mit dem Nutzer Bilder als Basis für ihre eigenen Kreationen verwenden können. Whisk kombiniert Imagen 3 mit den visuellen Fähigkeiten und Beschreibungsmöglichkeiten von Gemini. Gemini erstellt automatisch Bildunterschriften, die dann von Imagen 3 für die Bildgenerierung genutzt werden. So lassen sich Motive, Szenen und Stile auf neue Art kombinieren.
Comments