Технический директор OpenAI Мури Мурати сказал, что GPT-4o обеспечивает интеллект «уровня GPT-4», но улучшает возможности GPT-4 по работе с текстом, зрением и аудио.
«GPT-4o учитывает особенности голоса, текста и зрения», — сказал Мурати на ключевой презентации в офисе OpenAI.
GPT-4, предыдущая ведущая модель OpenAI, обучалась на комбинации изображений и текста и могла анализировать изображения и текст, выполняя такие задачи, как извлечение текста из изображений или даже описание их содержания. Но GPT-4o добавляет к этому еще и речь.
Что конкретно это дает? Целый ряд вещей.
GPT-4o значительно улучшает работу ChatGPT — ChatGPT — вирусного чатбота OpenAI, работающего на основе искусственного интеллекта. ChatGPT уже давно предлагает голосовой режим, который транскрибирует текст из ChatGPT с помощью модели преобразования текста в речь. GPT-4o улучшает этот режим, позволяя пользователям взаимодействовать с ChatGPT как с помощником.Например, пользователи могут задать ChatGPT — на базе GPT-4o — вопрос и прервать ChatGPT во время ответа. По словам OpenAI, модель реагирует в режиме «реального времени» и даже может улавливать эмоции в голосе пользователя — и генерировать голос в «различных эмоциональных стилях».
Другие новости: OpenAI выпускает настольную версию ChatGPT с обновленным пользовательским интерфейсом.
«Мы знаем, что эти модели [становятся] все сложнее и сложнее, но мы хотим, чтобы опыт взаимодействия стал более естественным, легким и чтобы вы вообще не обращали внимания на пользовательский интерфейс, а просто сосредоточились на сотрудничестве с [GPT]», — говорит Мурати.