Connect with us

Новости

Google выпустил Gemini 2.5 Computer Use для работы с браузером

Модель, получившая название Gemini 2.5 Computer Use, использует «возможности визуального понимания и рассуждения» для анализа запроса пользователя и выполнения задачи, например, заполнения и отправки формы.

Опубликовано

/

     
     

Google представил новую модель искусственного интеллекта Gemini, предназначенную для навигации и взаимодействия с вебом через браузер. Это позволит ИИ-агентам выполнять действия в интерфейсах, разработанных для людей, а не роботов. Модель, получившая название Gemini 2.5 Computer Use, использует «возможности визуального понимания и рассуждения» для анализа запроса пользователя и выполнения задачи, например, заполнения и отправки формы.

Её можно использовать для тестирования пользовательского интерфейса или навигации по интерфейсам, предназначенным для людей, у которых нет API или другого прямого подключения. Другие версии этой модели использовались для реализации агентских функций в AI Mode и Project Mariner — исследовательском прототипе, который использует агентов искусственного интеллекта для самостоятельного выполнения задач в браузере, например, добавления товаров в корзину на основе списка ингредиентов.

Объявление Google последовало всего через день после того, как OpenAI представила новые приложения для ChatGPT в рамках своего ежегодного Дня разработчика. У OpenAI уже есть ChatGPT Agent, который может выполнять сложные задачи от вашего имени. А Anthropic уже выпустила версию своей модели искусственного интеллекта Claude с функцией «использования компьютера» в прошлом году.

Google опубликовал несколько демонстрационных видеороликов, демонстрирующих работу инструмента «использования компьютера», и отметила, что они ускорены в 3 раза.

Google заявляет, что его Computer Use модель «превосходит ведущие альтернативы в нескольких веб- и мобильных бенчмарках». В отличие от ChatGPT Agent и инструмента «использования компьютера» от Anthropic, новая модель искусственного интеллекта Google имеет доступ только к браузеру, а не ко всей компьютерной среде. Google отмечает, что она «пока не оптимизирована для управления ОС» и в настоящее время поддерживает только 13 действий, включая открытие веб-браузера, ввод текста и перетаскивание элементов.

Gemini 2.5 Computer Use доступен разработчикам через Google AI Studio и Vertex AI, но также есть демо-версия на Browserbase, где можно наблюдать за выполнением заданий, например, «Сыграть в игру 2048» или «Просмотреть Hacker News для поиска актуальных дискуссий».

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.
Telegram

Популярное

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: