ChatGPT от OpenAI расширяет свои возможности за пределы текстовых исходов с внедрением функций голоса и поиска по изображению. Это является значительной эволюцией в области генеративного искусственного интеллекта, поскольку ChatGPT объединяет знакомство с голосовыми ассистентами с его мощными большими моделями языка (LLM).

С момента своего запуска примерно девять месяцев назад ChatGPT завоевал огромную популярность, позволяя пользователям генерировать эссе, стихи и резюме на основе текстовых подсказок. С последними усовершенствованиями он становится более интерактивным и универсальным.

Голосовые разговоры

Пользователи ChatGPT теперь смогут взаимодействовать с чат-ботом AI с помощью голоса. Например, пользователи могут попросить ChatGPT создать импровизированную сказку на ночь, используя устные указания, или просто задать вопросы, получая устные ответы.

Функциональность голоса обеспечивается новой моделью текст в речь, способной генерировать голоса, похожие на голоса людей, из текста и нескольких секунд образцовой речи. OpenAI сотрудничала с профессиональными актерами голоса, чтобы создать пять различных голосов. Компания также запускает эту функцию в партнерстве с Spotify, где подкастеры могут использовать ее для перевода своих передач на разные языки, сохраняя при этом свой оригинальный голос.

Тем не менее, OpenAI осторожна в отношении потенциального злоупотребления этой технологией. Она признает риски, связанные с синтезом голоса, такие как подражание или мошенничество. Следовательно, она выбрала работу с конкретными подкастерами для начального запуска, а не предоставление доступа к технологии широкому кругу пользователей.

Поиск по изображению

Помимо голоса, ChatGPT также получит возможность выполнять поиск по изображению. Пользователи могут загружать изображения и просить ChatGPT объяснить, что они изображают, или предоставить инструкции для выполнения задачи.

Для транскрибирования устной речи в текст используется система распознавания речи Whisper от OpenAI. Эта новая функция станет доступной для подписчиков Plus и Enterprise в ближайшие недели, а возможности голоса будут доступны через приложения ChatGPT для Android и iOS. Поиск по изображению будет доступен по умолчанию на всех платформах.

Решение OpenAI объединить функции голоса и изображения с ChatGPT отражает растущую конкуренцию среди крупных технологических компаний в области генеративного искусственного интеллекта. Это часть более широкой борьбы, включающей инвестиции Amazon в Anthropic, чат-бот Bard от Google, подход Meta к открытому исходному коду и выстраивание стратегии Microsoft по сотрудничеству с OpenAI. По мере продвижения генеративного ИИ борьба за инновации и лидерство на рынке остается интенсивной.

Примечание: Некоторые функции находятся в фазе бета-тестирования на основе приглашения, а сотрудничество с Spotify ограничено конкретными подкастерами на данный момент.


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *