Google a dévoilé Gemini Omni, un modèle multimodal qui combine les capacités de raisonnement de Gemini avec la génération de contenu. Sa grande nouveauté : la création vidéo native et le montage conversationnel. Conçu pour comprendre les images, l’audio, la vidéo et le texte, Omni peut produire des vidéos de haute qualité basées sur des connaissances du monde réel. Les utilisateurs peuvent ensuite modifier les scènes avec de simples instructions en langage naturel, tout en conservant la cohérence des personnages, des décors et même une physique crédible.

La première version, baptisée Gemini Omni Flash, commence à être déployée aujourd’hui pour les abonnés Google AI Plus, Pro et Ultra via l’application Gemini et Google Flow. Elle sera aussi disponible gratuitement cette semaine sur YouTube Shorts et l’application YouTube Create. Des API destinées aux développeurs et aux entreprises arriveront dans les prochaines semaines. Google prévoit également d’ajouter d’autres formats de sortie, comme les images et l’audio.
Omni permet de modifier une vidéo étape par étape simplement en discutant avec l’IA. Les créateurs peuvent changer des actions, ajouter des personnages ou des objets, transformer des scènes entières sans casser la continuité de la vidéo originale. Il est possible d’affiner le résultat au fil des échanges : modifier l’environnement, l’angle de caméra, le style visuel ou encore les petits détails. Parmi les exemples donnés par Google : transformer une sculpture en bulles ou convertir un miroir en surface liquide ondulante, avec des modifications qui s’accumulent naturellement.
Au-delà du photoréalisme, Omni est capable de “raisonner” sur ce qui doit se produire dans une scène grâce à une meilleure compréhension des lois physiques comme la gravité, l’énergie cinétique ou la dynamique des fluides. Le modèle s’appuie aussi sur des connaissances en histoire, science et culture. Cela permet de créer aussi bien des réactions en chaîne complexes que des séquences éducatives ou des animations en pâte à modeler expliquant des concepts comme le repliement des protéines.
Le système accepte plusieurs types de références pour guider la création : texte, images, vidéos et même audio vocal. Les utilisateurs peuvent partir d’un croquis, d’une photo ou d’une vidéo existante, appliquer des styles, des effets de mouvement ou mélanger plusieurs références pour obtenir le rendu souhaité.
Google introduit également une fonction “Avatars”, qui permettra de générer des vidéos ressemblant et parlant comme l’utilisateur grâce à sa propre voix. Les fonctions avancées d’édition audio et vocale sont encore en phase de test. Toutes les vidéos générées par Omni intégreront un filigrane invisible SynthID et pourront être vérifiées via l’application Gemini, Gemini dans Chrome et Google Search, dans le cadre des mesures de transparence sur les contenus générés par IA.
Ce lancement s’inscrit dans la continuité des outils de génération et d’édition d’images propulsés par Gemini lancés l’année dernière, utilisés notamment pour restaurer des photos, créer à partir de croquis ou visualiser des idées à grande échelle. Avec Omni, Google étend désormais cette approche multimodale à la vidéo en combinant contrôle conversationnel et génération basée sur les connaissances.