Google только что запустила Gemini, свой долгожданный ответ на ChatGPT

Google утверждает, что Gemini, запущенный сегодня внутри чатбота Bard, является "самой способной" моделью искусственного интеллекта за всю историю компании. Она обучалась на видео, изображениях и аудио, а также на тексте.

Все более частые разговоры о том, что искусственный интеллект развивается с потенциально опасной скоростью, вряд ли замедляют ход событий. Спустя год после того, как OpenAI запустила ChatGPT и спровоцировала новую гонку по разработке технологий искусственного интеллекта, Google сегодня обнародовала проект по созданию искусственного интеллекта, призванный вернуть поисковому гиганту статус мирового лидера в области ИИ.

Gemini, новый тип модели ИИ, способной работать с текстом, изображениями и видео, может стать самым важным алгоритмом в истории Google после PageRank, который вознес поисковую систему в общественную психику и создал корпоративного гиганта.

Начальная версия Gemini начинает распространяться сегодня в чатботе Google Bard для англоязычной среды. Она будет доступна более чем в 170 странах и территориях. По словам Google, Gemini станет доступна разработчикам через API Google Cloud с 13 декабря. Более компактная версия модели с сегодняшнего дня будет управлять предлагаемыми ответами на сообщения с клавиатуры смартфонов Pixel 8. Gemini будет внедрена и в другие продукты Google, включая генеративный поиск, рекламу и Chrome, в "ближайшие месяцы", говорят в компании. По словам Google, самая мощная версия Gemini появится в 2024 году, после того как будут проведены "обширные проверки доверия и безопасности".

"Это важный момент для нас", - сказал Демис Хассабис, генеральный директор Google DeepMind, в преддверии сегодняшнего объявления. "Мы в восторге от его производительности, и нам также интересно посмотреть, что люди будут делать на его основе".

Gemini описывается Google как "родной мультимодальный", поскольку он обучался на изображениях, видео и аудио, а не только на тексте, как большие языковые модели, ставшие сердцем недавнего бума генеративного ИИ. "Это наша самая большая и самая мощная модель, а также самая общая", - сказал Эли Коллинз, вице-президент по продуктам Google DeepMind, на пресс-брифинге, посвященном Gemini.

Google говорит, что существует три версии Gemini: Ultra, самая большая и самая мощная; Nano, которая значительно меньше и более эффективна; и Pro, среднего размера и средних возможностей.

С сегодняшнего дня чатбот Google Bard, похожий на ChatGPT, будет работать на базе Gemini Pro, что, по словам компании, позволит ему более эффективно рассуждать и планировать. Сегодня специализированная версия Gemini Pro будет включена в новую версию AlphaCode, генеративного инструмента для кодирования "исследовательского продукта" от Google DeepMind. Самая мощная версия Gemini, Ultra, будет помещена в Bard и станет доступна через облачный API в 2024 году.

Сисси Хсиао, вице-президент Google и генеральный менеджер Bard, говорит, что мультимодальные возможности модели дали Bard новые навыки и сделали ее лучше в таких задачах, как резюмирование контента, мозговой штурм, письмо и планирование. "Это самое большое улучшение качества Bard с момента запуска", - говорит Хсиао.

Новое видение

Google показала несколько демонстрационных роликов, иллюстрирующих способность Gemini решать задачи, связанные с визуальной информацией. В одном из них модель искусственного интеллекта реагировала на видео, в котором кто-то рисовал изображения, создавал простые головоломки и просил предложить идеи для игр с картой мира. Двое исследователей Google также продемонстрировали, как Gemini может помочь в научных исследованиях, ответив на вопросы о научной работе, содержащей графики и уравнения.

Коллинз утверждает, что Gemini Pro, модель, которая будет запущена на этой неделе, превзошла более раннюю модель, на которой изначально работал ChatGPT, называемую GPT-3.5, в шести из восьми общепринятых эталонов для тестирования умного программного обеспечения ИИ.

Google утверждает, что Gemini Ultra, модель, которая дебютирует в следующем году, набрала 90 процентов баллов, что выше, чем у любой другой модели, включая GPT-4, в эталоне Massive Multitask Language Understanding (MMLU), разработанном академическими исследователями для тестирования языковых моделей на вопросах по таким темам, как математика, история США и право.

"Gemini занимает передовые позиции в широком диапазоне эталонов - 30 из 32 широко используемых в сообществе исследователей машинного обучения", - сказал Коллинз. "Поэтому мы видим, что он устанавливает границы по всем направлениям".

ОpenAI GPT-4, на котором сейчас работает самая мощная версия ChatGPT, взорвал сердца людей, когда дебютировал в марте этого года. Она также заставила некоторых исследователей пересмотреть свои ожидания относительно того, когда ИИ сможет соперничать с человеческим интеллектом. OpenAI назвала GPT-4 мультимодальным и в сентябре обновила ChatGPT для обработки изображений и аудио, но не сообщила, обучалась ли основная модель GPT-4 непосредственно не только на тексте. ChatGPT также может генерировать изображения с помощью другой модели OpenAI под названием DALL-E 2.

Google сегодня опубликовала технический отчет, в котором приводятся некоторые подробности о внутреннем устройстве Gemini. В нем не раскрываются особенности архитектуры, размер модели ИИ или сбор данных, использованных для ее обучения.

Длительный и дорогостоящий процесс обучения больших моделей ИИ на мощных компьютерных чипах означает, что Gemini, вероятно, обошелся в сотни миллионов долларов, говорят эксперты по ИИ. Предполагается, что Google разработала новый дизайн модели и новый набор обучающих данных. Компания ускорила выпуск своих технологий ИИ и влила ресурсы в несколько новых проектов в попытке заглушить шум вокруг OpenAI's ChatGPT и вновь стать ведущей компанией в мире ИИ.

"Мы находимся в своего рода гонке вооружений", - говорит Орен Этциони, почетный профессор Вашингтонского университета и бывший генеральный директор Института Аллена по ИИ. "Нет причин не верить в то, что Gemini по этим показателям превосходит GPT-4, но следующая версия, GPT-5, будет работать еще лучше".

Этциони говорит, что создание таких гигантских моделей, как Gemini, обходится в сотни миллионов долларов, но конечным призом могут стать миллиарды или даже триллионы доходов для компании, которая доминирует в поставках ИИ через облако. "Это война без приговоров, в которой нужно победить", - говорит он.

Борьба

Google изобрела некоторые ключевые методы, используемые в ChatGPT, но не спешила выпускать свою собственную технологию чатботов до выхода OpenAI примерно год назад, отчасти из-за опасений, что она может говорить нелицеприятные или даже опасные вещи. Компания утверждает, что провела наиболее полное тестирование безопасности Gemini, поскольку модель обладает более общими возможностями.

Для тестирования Gemini использовался набор данных о подсказках токсичных моделей, разработанный Институтом искусственного интеллекта Аллена. По словам Коллинза, компания сотрудничает с внешними исследователями, чтобы провести дальнейшее "тестирование" модели, подталкивая ее к неправильному поведению и выявляя ее слабые места. Не раскрывая конкретных деталей, Коллинз сказал, что большая мощность Gemini требует от Google "повысить планку качества и безопасности, которые нам приходится делать".

От нового алгоритма зависит многое для Google и ее материнской компании Alphabet, которая за последнее десятилетие создала внушительный исследовательский потенциал в области ИИ. Миллионы разработчиков создают алгоритмы на основе OpenAI, а Microsoft использует технологию для добавления новых функций в свои операционные системы и программное обеспечение для повышения производительности, поэтому Google вынуждена пересмотреть свои приоритеты как никогда раньше.

Поисковая компания впервые объявила о работе над Gemini на своей конференции I/O в мае, когда она пыталась добавить генеративный ИИ в поиск, чтобы противостоять популярности ChatGPT и угрозе того, что технология OpenAI может стать основой для поисковой системы Bing от Microsoft. По оценкам, доля Google на мировом рынке поиска по-прежнему превышает 90 процентов, но запуск Gemini, похоже, свидетельствует о том, что компания продолжает наращивать свои ответные меры на ChatGPT.

Google DeepMind, подразделение, возглавившее разработку Gemini, было создано в рамках этих ответных мер путем слияния основной исследовательской группы Google по ИИ, Google Brain, с ее лондонским подразделением по ИИ, DeepMind, в апреле. Однако в течение последних нескольких месяцев в проекте Gemini принимали участие исследователи и инженеры со всего Google. В нем использовалась недавно обновленная версия кремниевых чипов Google для обучения моделей ИИ, известных как Tensor Processing Units (TPUs).

Gemini был назван в честь объединения двух основных лабораторий ИИ Google' и как отсылка к проекту NASA' Gemini, который проложил путь для программы Apollo' высадки на Луну.

Алексей Эфрос, профессор Калифорнийского университета в Беркли, специализирующийся на визуальных возможностях ИИ, говорит, что общий подход Google к Gemini кажется многообещающим. "Все, что использует другие модальности, - это шаг в правильном направлении", - говорит он.

Эфрос подозревает, что Gemini, как и GPT-4, все еще будет демонстрировать заметные ограничения в своей способности понимать сложности реального мира. Но ему и другим исследователям вряд ли удастся узнать о творении Google все, что они хотели бы. "В этом и заключается проблема всех этих запатентованных моделей", - говорит Эфрос. "Мы не знаем, что находится внутри".