ChatGPT d’OpenAI élargit son champ d’application au-delà de ses origines basées sur le texte en introduisant des capacités de voix et de recherche d’images. Il s’agit d’une évolution significative dans le paysage de l’intelligence artificielle générative, car ChatGPT associe la familiarité des assistants vocaux à de puissants modèles de langage (LLM).

Depuis son introduction il y a environ neuf mois, ChatGPT a gagné en popularité, permettant aux utilisateurs de générer des essais, des poèmes et des résumés à partir de simples prompts textuels. Avec les dernières améliorations, il devient plus interactif et polyvalent.

Conversations vocales 

Les utilisateurs de ChatGPT auront désormais la possibilité d’engager des conversations vocales avec le chatbot AI. Par exemple, les utilisateurs peuvent demander à ChatGPT de créer une histoire du soir improvisée en utilisant des indications vocales ou simplement lui poser des questions et recevoir des réponses vocales.

La fonctionnalité vocale est basée sur un nouveau modèle de synthèse de la parole à partir du texte, capable de générer des voix semblables à celles des êtres humains à partir de texte et de quelques secondes d’échantillons vocaux. OpenAI a collaboré avec des acteurs de la voix professionnels pour créer cinq voix distinctes. La société lance également cette fonctionnalité en partenariat avec Spotify, où les podcasteurs peuvent l’utiliser pour traduire leurs émissions dans différentes langues tout en conservant leur voix d’origine.

Toutefois, OpenAI se montre prudente quant aux éventuels abus de cette technologie. Elle reconnaît les risques associés à la synthèse vocale, tels que l’usurpation d’identité ou la fraude. Par conséquent, elle a choisi de collaborer avec des podcasteurs spécifiques pour le lancement initial, plutôt que de rendre la technologie largement accessible.

Recherche d’images 

En plus de la voix, ChatGPT gagnera également la capacité d’effectuer des recherches d’images. Les utilisateurs pourront télécharger des images et demander à ChatGPT d’expliquer ce qu’elles représentent ou de fournir des instructions pour accomplir une tâche.

Le système de reconnaissance vocale Whisper d’OpenAI est utilisé pour transcrire les paroles en texte. Cette nouvelle fonctionnalité sera déployée pour les abonnés des versions payantes Plus et Enterprise dans les semaines à venir, et les fonctions vocales seront disponibles dans les applications ChatGPT pour Android et iOS. La recherche d’images sera disponible par défaut sur toutes les plateformes.

L’initiative d’OpenAI visant à combiner les fonctionnalités de voix et d’images avec ChatGPT reflète la concurrence croissante entre les grandes entreprises technologiques dans le domaine de l’IA générative. Elle s’inscrit dans le cadre de la lutte plus large qui inclut l’investissement d’Amazon dans Anthropic, le chatbot Bard de Google, l’approche open source de Meta et l’alignement de Microsoft sur OpenAI. À mesure que l’IA générative continue de progresser, la course à l’innovation et au leadership sur le marché demeure intense.

Remarque : Certaines fonctionnalités sont disponibles en version bêta sur invitation, et la collaboration avec Spotify est limitée à des podcasteurs spécifiques pour le moment.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *