Le chant des sirènes de l'Intelligence Artificielle Générale (AGI) continue de résonner dans toute l'industrie technologique, et ses mélodies les plus fascinantes proviennent désormais des « modèles de monde » (world models). Depuis des années, Google DeepMind est à la pointe de cette recherche pionnière. Le 29 janvier 2026, l'entreprise a offert à quelques privilégiés un premier aperçu de sa dernière percée : Project Genie, propulsé par l'impressionnant modèle Genie 3. Présenté comme le premier modèle de monde interactif en temps réel, Genie 3 marque une étape gigantesque vers des systèmes d'IA capables de comprendre et de simuler la trame même de la réalité. Cependant, si la technologie sous-jacente constitue un bond en avant indéniable, ce premier contact avec Project Genie rappelle brutalement le long chemin qu'il reste à parcourir pour que l'IA puisse véritablement simuler notre monde.
La vision de DeepMind : façonner des réalités jouables
Google DeepMind présente Genie 3 comme un « moteur de jeu neuronal » capable de créer des mondes dynamiques et navigables à partir de rien. Il ne s'agit pas d'un simple outil de modélisation 3D avancée ou d'un rendu NeRF statique ; Genie 3 apprend le fonctionnement du monde via une génération autorégressive, construisant des environnements image par image grâce à des modèles de dynamique et des tokenizers vidéo spatio-temporels sophistiqués. Cela signifie qu'il ne repose pas sur des moteurs de physique codés manuellement, mais sur un système auto-apprenant qui tente d'intuiter les lois de la nature à partir de vastes ensembles de données. Nous y voyons un changement fondamental : on passe d'une programmation explicite à une compréhension émergente.
Les spécifications techniques suffisent à elles seules à captiver l'attention : des visuels HD 720p, un taux de rafraîchissement interactif de 20 à 24 images par seconde (FPS), et la capacité de maintenir des états de monde cohérents pendant plusieurs minutes, avec une mémoire visuelle s'étendant jusqu'à une minute entière. Genie 3 traite des entrées multimodales (texte, images, photos, croquis), offrant aux utilisateurs une flexibilité inédite pour sculpter leurs réalités. Il peut tout générer, des simulations physiques réalistes avec dynamique des fluides et effets d'éclairage, jusqu'à des mondes d'animation fantastiques ou des reconstitutions historiques.
Cette polyvalence positionne Genie 3 comme un jalon critique sur la voie de l'AGI. Il offre un terrain d'entraînement illimité et sans risque pour des agents d'IA comme SIMA (Scalable Instructable Multiworld Agent), leur permettant de s'attaquer à des objectifs complexes. SIMA est conçu pour comprendre et suivre des instructions en langage naturel dans divers environnements 3D, apprenant des jeux sans avoir besoin d'accéder à leur code source. Ce développement synergique pourrait faciliter des scénarios allant de la conduite autonome dans le blizzard au vol en wingsuit au-dessus des montagnes. La promesse est immense : des jeux vidéo entièrement générés par IA, des simulations industrielles immersives et des visites photoréalistes. Cependant, si le 720p et le 20-24 FPS semblent impressionnants sur le papier, nous nous demandons immédiatement comment cela se traduit par une « réalité jouable » alors que le jeu moderne vise souvent les 60 FPS pour une expérience fluide.
Project Genie : un accès exclusif à une frontière indomptée
Avec Project Genie, Google Labs a ouvert ses portes — bien que timidement — aux abonnés Google AI Ultra (États-Unis uniquement, 18+, 250 $/mois) et aux testeurs de confiance. Cette application web expérimentale est le moyen choisi par Google pour recueillir des commentaires et explorer des cas d'utilisation imprévus, offrant trois modes d'interaction principaux : World Sketching, World Exploration, et World Remixing. À 250 $ par mois, ce n'est pas une invitation banale ; c'est un prix élevé pour ce qui s'apparente à une expérience de recherche précoce.
Le mode World Sketching est celui où la magie opère initialement. Les utilisateurs peuvent générer un monde avec du texte et des images, définir des personnages et même dicter leur méthode d'exploration — marcher, voler, conduire ou « tout autre chose ». L'intégration avec Nano Banana Pro permet de modifier les images en temps réel pour affiner sa vision, tout en choisissant la perspective de la caméra.
Une fois généré, le mode World Exploration permet littéralement d'entrer dans sa création. L'environnement se déploie en temps réel selon les mouvements, permettant une navigation libre. Et si l'inspiration frappe, le World Remixing permet de s'appuyer sur des prompts existants ou d'explorer une galerie de mondes sélectionnés. La possibilité de télécharger des vidéos de ses explorations est une touche appréciable pour partager ces rêves numériques naissants. L'idée d'une « réalité jouable » où l'on peut « entrer dans une photo et marcher dans un univers créé à la volée » est séduisante, mais elle nécessite un examen plus approfondi.
Quand la réalité frappe : les lacunes de la simulation
Bien que la technologie sous-jacente soit révolutionnaire, l'expérience utilisateur actuelle avec Project Genie révèle des limitations significatives qui tempèrent cette vision grandiose. Pour l'instant, cela ressemble plus à une démonstration technique impressionnante qu'à un produit fonctionnel.
Le premier obstacle à l'immersion, comme le soulignent de nombreux testeurs, est la limite de génération de 60 secondes. À peine commence-t-on à s'habituer à un monde généré dynamiquement que celui-ci s'efface, brisant tout espoir d'exploration prolongée. Cette fenêtre trop courte rend toute simulation sérieuse ou véritable session de jeu impossible.
Au-delà de la brièveté, les visuels et les performances laissent à désirer. Malgré la mention 720p, les visuels paraissent souvent « délavés » sur les grands écrans. Plus grave encore, le taux de rafraîchissement de 20-24 FPS, couplé à un décalage d'entrée (input lag) notable que certains comparent à une mauvaise connexion de cloud gaming, se traduit par une expérience loin de la fluidité attendue. Quand on sait que les joueurs PC visent 60 à 144 FPS, les performances de Genie 3 semblent léthargiques.
Plus inquiétant encore pour un système visant à simuler la réalité : l'incohérence de l'état du monde. La promesse d'environnements cohérents est minée par des éléments imprévisibles — des traînées de peinture qui apparaissent, des routes qui se transforment soudainement en herbe. Cela crée une méfiance persistante quant à la stabilité du monde d'un instant à l'autre. Comme l'a dit un utilisateur, l'expérience ressemble moins à un jeu qu'à un « simulateur de rêve » où les visuels mutent et la physique se brise.
Enfin, il y a la difficulté avec la physique et la logique de jeu. Malgré l'approche auto-apprenante de Genie 3, la physique reste un défi majeur avec des échecs flagrants, même pour des interactions simples entre corps rigides. Oubliez la construction d'une tour de blocs stable. Les interactions complexes comme les dynamiques sociales ou le combat sont actuellement hors de portée. Même la logique combinatoire simple — comme ramasser une clé pour ouvrir une porte — pose problème. Ce n'est explicitement pas un moteur de jeu traditionnel : il manque de scores, d'objectifs ou de mécaniques claires, laissant souvent l'utilisateur sans rien d'autre à faire que « déambuler ».
Enfin, les besoins élevés en puissance de calcul rendent l'utilisation de Genie 3 coûteuse. Google a d'ailleurs déjà bloqué la génération de contenus basés sur certaines propriétés intellectuelles (comme Mario ou Kingdom Hearts) pour protéger les droits de tiers, ce qui peut être frustrant pour les créateurs souhaitant expérimenter dans des univers familiers.
Verdict précoce : un aperçu du futur, pas du présent
Project Genie illustre l'état actuel de l'avancement de l'IA, avec Genie 3 comme technologie de base au potentiel vertigineux. C'est véritablement une étape clé vers l'AGI, démontrant une flexibilité inégalée dans la génération de mondes. Les cinéastes pourraient l'utiliser pour des visualisations rapides de scènes, et les concepteurs de jeux pour le prototypage rapide d'environnements. Cependant, si Genie 3 est unique dans sa génération de texte-vers-monde en temps réel, des acteurs établis comme NVIDIA Omniverse offrent déjà une collaboration 3D professionnelle, et Meta V-JEPA 2 se concentre davantage sur la compréhension de la physique réelle pour la robotique.
En tant que « réalité jouable » pour l'utilisateur final, nous sommes face à un prototype de recherche. La limite de 60 secondes, la fidélité visuelle instable et la physique rudimentaire en font une expérience loin d'être fonctionnelle. À 250 $ par mois, le plan Google AI Ultra est un prix élevé pour ce qui n'est, pour l'instant, qu'une démo technique fascinante.
La recommandation TTEK2 : observer de loin
Pour les chercheurs en IA, les passionnés de technologie aux poches pleines ou ceux captivés par l'avant-garde des modèles de monde, Project Genie offre un aperçu inégalé, bien que frustrant, de l'avenir. C'est un voyage passionnant, buggé et souvent déroutant dans des mondes générés par IA. Cependant, pour tous les autres — en particulier les joueurs ou ceux qui attendent une expérience « jouable » aboutie — nous recommandons de rester sur la touche pour le moment. Genie 3 pose sans aucun doute les fondations de quelque chose de monumental, mais la structure n'est pas encore prête à être habitée. Nous suivrons son évolution avec un vif intérêt.
Commentaires