ChatGPT Images 2.0 : des capacités de réflexion et un meilleur rendu du texte

OpenAI a présenté cette semaine ChatGPT Images 2.0, un nouveau modèle que l’entreprise décrit comme le début d’une nouvelle ère pour la génération d’images. Cette version mise à jour est conçue pour mieux gérer les tâches visuelles complexes et produire des résultats plus convaincants.

Selon OpenAI, ce nouveau modèle est capable de suivre des consignes détaillées avec davantage de précision, tout en améliorant la qualité globale des compositions générées. L’objectif est clair : obtenir des images qui paraissent moins artificielles et plus abouties visuellement.

Un modèle plus précis pour les tâches visuelles complexes

ChatGPT Images 2.0 peut suivre des instructions détaillées, positionner les objets de manière plus juste, mieux gérer les relations entre les éléments d’une image et préserver les détails fins. Il est également plus à l’aise avec les mises en page denses, ce qui lui permet de produire des visuels plus structurés et plus cohérents.

OpenAI précise aussi que Images 2.0 est son premier modèle d’image doté de capacités de réflexion. En pratique, cela signifie qu’il dispose d’un meilleur sens de la composition et d’un goût visuel plus affiné, ce qui doit se traduire par des créations plus naturelles et moins marquées par l’esthétique souvent associée à l’IA.

Une meilleure compréhension et un rendu du texte amélioré

L’une des nouveautés mises en avant par OpenAI concerne le rendu du texte, qui progresse de manière notable avec cette version. Le modèle comprend également mieux les demandes multilingues.

Il se montre aussi plus performant pour afficher des textes non latins, notamment en japonais, coréen, chinois, hindi et bengali. C’est un point important pour les utilisateurs qui veulent générer des visuels contenant du texte lisible dans plusieurs langues.

Recherche web, génération multiple et résolution jusqu’à 2K

ChatGPT Images 2.0 peut également effectuer une recherche sur le web pour récupérer des informations en temps réel. Cette capacité lui permet de s’appuyer sur un contexte plus actuel pour certaines demandes.

Le modèle peut générer jusqu’à huit images à partir d’un seul prompt et vérifier son propre rendu avant de livrer le résultat. Les graphismes peuvent être créés dans plusieurs formats d’image, avec une définition pouvant aller jusqu’à 2K.

Déjà disponible pour les utilisateurs

OpenAI indique que Images 2.0 est disponible dès maintenant pour tous les utilisateurs de ChatGPT, de Codex et de l’API.

Cette nouvelle version marque donc une évolution importante pour la génération d’images chez OpenAI, avec un accent mis à la fois sur la qualité visuelle, la compréhension fine des demandes et la capacité à produire des visuels plus riches et plus crédibles.