Новости
Google выпустил Gemini 2.5 Computer Use для работы с браузером
Модель, получившая название Gemini 2.5 Computer Use, использует «возможности визуального понимания и рассуждения» для анализа запроса пользователя и выполнения задачи, например, заполнения и отправки формы.
Google представил новую модель искусственного интеллекта Gemini, предназначенную для навигации и взаимодействия с вебом через браузер. Это позволит ИИ-агентам выполнять действия в интерфейсах, разработанных для людей, а не роботов. Модель, получившая название Gemini 2.5 Computer Use, использует «возможности визуального понимания и рассуждения» для анализа запроса пользователя и выполнения задачи, например, заполнения и отправки формы.
Её можно использовать для тестирования пользовательского интерфейса или навигации по интерфейсам, предназначенным для людей, у которых нет API или другого прямого подключения. Другие версии этой модели использовались для реализации агентских функций в AI Mode и Project Mariner — исследовательском прототипе, который использует агентов искусственного интеллекта для самостоятельного выполнения задач в браузере, например, добавления товаров в корзину на основе списка ингредиентов.
Объявление Google последовало всего через день после того, как OpenAI представила новые приложения для ChatGPT в рамках своего ежегодного Дня разработчика. У OpenAI уже есть ChatGPT Agent, который может выполнять сложные задачи от вашего имени. А Anthropic уже выпустила версию своей модели искусственного интеллекта Claude с функцией «использования компьютера» в прошлом году.
Google опубликовал несколько демонстрационных видеороликов, демонстрирующих работу инструмента «использования компьютера», и отметила, что они ускорены в 3 раза.
Google заявляет, что его Computer Use модель «превосходит ведущие альтернативы в нескольких веб- и мобильных бенчмарках». В отличие от ChatGPT Agent и инструмента «использования компьютера» от Anthropic, новая модель искусственного интеллекта Google имеет доступ только к браузеру, а не ко всей компьютерной среде. Google отмечает, что она «пока не оптимизирована для управления ОС» и в настоящее время поддерживает только 13 действий, включая открытие веб-браузера, ввод текста и перетаскивание элементов.
Gemini 2.5 Computer Use доступен разработчикам через Google AI Studio и Vertex AI, но также есть демо-версия на Browserbase, где можно наблюдать за выполнением заданий, например, «Сыграть в игру 2048» или «Просмотреть Hacker News для поиска актуальных дискуссий».
-
TechHype4 недели назад
Создание и разработка сайтов в Алматы: роль мобильной версии и mobile-first в продвижении
-
Новости4 недели назад
Видео и подкасты о мобильной разработке 2025.39
-
Разработка4 недели назад
Apple тихо переписывает iOS, и это не Swift или Objective-C
-
Разработка3 недели назад
Скрытые угрозы Room: почему база тормозит и как это исправить