Google Gemini: Все, что вам нужно знать о генеративных моделях искусственного интеллекта

Google пытается сделать шаг вперед с Gemini, своим флагманским набором генеративных моделей искусственного интеллекта, приложений и услуг. Но что такое Gemini? Как его можно использовать? И как он сравнивается с другими инструментами генеративного искусственного интеллекта, такими как ChatGPT от OpenAI, Llama от Meta и Copilot от Microsoft?

Чтобы быть в курсе последних разработок Gemini, мы подготовили этот удобный гид, который мы будем обновлять по мере появления новых моделей Gemini, функций и новостей о планах Google по Gemini.

Что такое Gemini?

Gemini - это новейшая семейство генеративных моделей искусственного интеллекта от Google. Разработанные исследовательскими лабораториями искусственного интеллекта DeepMind и Google Research, оно представлено четырьмя вариантами:

  • Gemini Ultra
  • Gemini Pro
  • Gemini Flash, более быстрая «сгущенная» версия Pro
  • Gemini Nano, две небольшие модели: Nano-1 и несколько более способная Nano-2, предназначенная для работы в автономном режиме

Все модели Gemini были обучены для работы с мультимодальными данными - то есть способны работать с и анализировать не только текст. Google говорит, что они были предварительно обучены и донастроены на различных общедоступных, собственных и лицензируемых аудио-, изображениях и видеофайлах; наборе исходных кодов; и текста на разных языках.

Это отличает Gemini от таких моделей, как собственная модель Google LaMDA, которая была обучена исключительно на текстовых данных. LaMDA не может понимать или создавать что-то за пределами текста (например, эссе, электронные письма и т. д.), но это не обязательно верно для моделей Gemini.

Мы отметим здесь, что этика и законность обучения моделей на общедоступных данных, в некоторых случаях без ведома или согласия владельцев данных, являются смутными. У Google есть политика индемнизации по иску защиты, чтобы защитить определенных клиентов Google Cloud от судебных исков, если они столкнутся с ними, но эта политика содержит исключения. Действуйте осторожно, особенно если собираетесь использовать Gemini коммерчески.

В чем разница между приложениями Gemini и моделями Gemini?

Gemini отличается от приложений Gemini в Интернете и на мобильных устройствах (ранее Bard).

Приложения Gemini - это клиенты, которые подключаются к различным моделям Gemini и накладывают интерфейс чат-бота сверху. Подумайте о них как о фронтендах для генеративного искусственного интеллекта Google, аналогичных ChatGPT и семейству приложений Claude от Anthropic.

Изображение: Google

На Интернете Gemini находится здесь. На Android приложение Gemini заменяет существующее приложение Google Assistant. А на iOS приложения Google и Google Search служат клиентами Gemini на этой платформе.

На Android недавно стала возможной активация наложения Gemini поверх любого приложения для задания вопросов о том, что отображается на экране (например, видео YouTube). Просто нажмите и удерживайте кнопку питания поддерживаемого смартфона или скажите: «Привет, Google»; вы увидите появившееся наложение.

Приложения Gemini могут принимать изображения, а также голосовые команды и текст - включая файлы типа PDF и скоро видео, загруженные или импортированные из Google Drive - и создавать изображения. Как и следовало ожидать, разговоры с приложениями Gemini на мобильных устройствах продолжаются в Интернете Gemini и наоборот, если вы вошли в свою учетную запись Google в обоих местах.

Продвинутый Gemini

Приложения Gemini - не единственный способ обращения за помощью к моделям Gemini при выполнении задач. Медленно, но верно возможности, утерянные функции, основанные на Gemini, начинают появляться в основных приложениях и сервисах Google, таких как Gmail и Google Docs.

Чтобы воспользоваться большинством из них, вам понадобится платный план Google One AI Premium. Технически являющийся частью Google One, AI Premium Plan стоит $20 и предоставляет доступ к Gemini в приложениях Google Workspace, такие как Docs, Slides, Sheets и Meet. Он также активирует то, что Google называет Gemini Advanced, который приносит более сложные модели Gemini в приложения Gemini.

Пользователям Gemini Advanced доступны дополнительные функции, такие как приоритетный доступ к новым функциям, возможность запуска и редактирования кода Python непосредственно в Gemini и большее «окно контекста». Gemini Advanced может запомнить содержание и рассмотреть - примерно 750 000 слов в разговоре (или 1500 страниц документов). Это в сравнении с 24 000 словами (или 48 страницами), которые обычное приложение Gemini может обрабатывать.

Изображение: Google

Еще одной эксклюзивной функцией Gemini Advanced является планирование поездок в Google Search, которое создает индивидуальные маршруты из подсказок. Учитывая такие вещи, как время полетов (из электронных писем во входящих письмах Gmail пользователя), предпочтения в питании и информацию о местных достопримечательностях (из данных поиска Google и карт), а также расстояния между этими достопримечательностями, Gemini создаст и опубликует маршрут, который автоматически обновится, чтобы отразить любые изменения.

Гемини в услугах Google также доступен корпоративным клиентам через два плана, Gemini Business (дополнение к Google Workspace) и Gemini Enterprise. Gemini Business стоит всего от $20 в месяц на пользователя, а Gemini Enterprise, который добавляет возможность ведения заметок на встречах и перевод подписей, а также классификацию и маркировку документов, стоит от $30 в месяц на пользователя (и более). (Оба плана требуют обязательного годового обязательства.)

Gemini в Gmail, Docs, Chrome, средства разработки и другие

В Gmail Gemini находится в боковой панели, которая может писать электронные письма и резюмировать ветки сообщений. Вы найдете ту же панель в Docs, где она помогает вам писать и уточнять ваш контент и разрабатывать новые идеи. Gemini в Slides генерирует слайды и пользовательские изображения. И Gemini в Google Sheets отслеживает и организует данные, создает таблицы и формулы.

Диапазон действий Gemini охватывает и Drive, где он может резюмировать файлы и давать быструю информацию о проекте. В Meet между тем Gemini переводит подписи на другие языки.

Изображение: Google

Недавно Gemini появился в браузере Google Chrome в виде инструмента для написания искусственного интеллекта. Вы можете использовать его для написания чего-то совершенно нового или перезаписи существующего текста; Google говорит, что он будет учитывать веб-страницу, на которой вы находитесь, для выдачи рекомендаций.

В других местах вы обнаружите намеки на Gemini в продуктах базы данных Google, инструментах облачной безопасности и платформах разработки приложений (включая Firebase и Project IDX), а также в таких приложениях, как Google Photos (где Gemini обрабатывает запросы естественного языка искать), YouTube (где он помогает придумать идеи для видео) и ассистенте по заметкам NotebookLM.

Code Assist (ранее Duet AI для разработчиков), пакет инструментов Google, поддерживаемых искусственным интеллектом для завершения и генерации кода, переправляет тяжелые вычислительные задачи на Gemini. Также Google's - продукты безопасности опираются на Gemini, как, например, Gemini in Threat Intelligence, который может анализировать большие участки потенциально вредоносного кода и позволять пользователям выполнять поиск на естественном языке для поиска и индикаторов компрометации.

Расширения и Гемы Гемини

На Google I/O 2024 анонсировано, что пользователи Gemini Advanced могут создавать Гемы, пользовательские чат-боты, работающие на моделях Gemini. Гемы могут быть созданы на основе описаний на естественном языке - например, «Вы мой тренер по бегу. Давайте составим ежедневный план бега» - и делиться ими с другими или хранить их в тайне.

Гемы доступны на рабочем столе и мобильных устройствах в 150 странах и большинстве языков. В будущем они смогут использовать расширенный набор интеграций с сервисами Google, включая Google Calendar, Tasks, Keep и YouTube Music, для выполнения пользовательских задач.

Изображение: Google

Говоря о интеграциях, веб-приложения и приложения для мобильных устройств Gemini могут использовать сервисы Google с помощью так называемых «расширений Gemini». На сегодняшний день Gemini интегрируется с Google Drive, Gmail и YouTube для ответа на запросы вроде «Можете ли вы резюмировать мои последние три электронные письма?» Позже в этом году Gemini сможет выполнять дополнительные действия с Google Calendar, Keep, Tasks, YouTube Music и Утилитами, эксклюзивными для Android-приложений, которые управляют функциями на устройстве, такими как таймеры и будильники, управление мультимедиа, фонарик, громкость, Wi-Fi, Bluetooth и т. д.

Гемини Live глубокие голосовые чаты

Новый опыт под названием Gemini Live, доступный только подписчикам Gemini Advanced, позволяет пользователям вести «глубокие» голосовые чаты с Gemini. Он доступен в приложениях Gemini на мобильных устройствах и Pixel Buds Pro 2, где к нему можно обратиться, даже если ваш телефон заблокирован.

Включив Gemini Live, вы можете прервать разговор с Gemini, когда чат-бот говорит (на один из нескольких новых голосов), чтобы задать уточняющий вопрос, и он будет адаптироваться к вашим речевым характеристикам в реальном времени. И в это году Gemini сможет видеть и реагировать на ваше окружение, либо через фотографии, либо через видео, снятые камерами ваших смартфонов.

Изображение: Google

Live также предназначен для игры виртуальным коучем, помогая вам репетировать для мероприятий, разрабатывать идеи и т. д. Например, Live может предложить, какие навыки подчеркнуть на предстоящем собеседовании на работу или стажировке, а также дать