Google утверждает, что Gemini, запущенный сегодня внутри чатбота Bard, является "самой способной" моделью искусственного интеллекта за всю историю компании. Она обучалась на видео, изображениях и аудио, а также на тексте.
Все более частые разговоры о том, что искусственный интеллект развивается с потенциально опасной скоростью, вряд ли замедляют ход событий. Спустя год после того, как OpenAI запустила ChatGPT и спровоцировала новую гонку по разработке технологий искусственного интеллекта, Google сегодня обнародовала проект по созданию искусственного интеллекта, призванный вернуть поисковому гиганту статус мирового лидера в области ИИ.
Gemini, новый тип модели ИИ, способной работать с текстом, изображениями и видео, может стать самым важным алгоритмом в истории Google после PageRank, который вознес поисковую систему в общественную психику и создал корпоративного гиганта.
Начальная версия Gemini начинает распространяться сегодня в чатботе Google Bard для англоязычной среды. Она будет доступна более чем в 170 странах и территориях. По словам Google, Gemini станет доступна разработчикам через API Google Cloud с 13 декабря. Более компактная версия модели с сегодняшнего дня будет управлять предлагаемыми ответами на сообщения с клавиатуры смартфонов Pixel 8. Gemini будет внедрена и в другие продукты Google, включая генеративный поиск, рекламу и Chrome, в "ближайшие месяцы", говорят в компании. По словам Google, самая мощная версия Gemini появится в 2024 году, после того как будут проведены "обширные проверки доверия и безопасности".
"Это важный момент для нас", - сказал Демис Хассабис, генеральный директор Google DeepMind, в преддверии сегодняшнего объявления. "Мы в восторге от его производительности, и нам также интересно посмотреть, что люди будут делать на его основе".
Gemini описывается Google как "родной мультимодальный", поскольку он обучался на изображениях, видео и аудио, а не только на тексте, как большие языковые модели, ставшие сердцем недавнего бума генеративного ИИ. "Это наша самая большая и самая мощная модель, а также самая общая", - сказал Эли Коллинз, вице-президент по продуктам Google DeepMind, на пресс-брифинге, посвященном Gemini.
Google говорит, что существует три версии Gemini: Ultra, самая большая и самая мощная; Nano, которая значительно меньше и более эффективна; и Pro, среднего размера и средних возможностей.
С сегодняшнего дня чатбот Google Bard, похожий на ChatGPT, будет работать на базе Gemini Pro, что, по словам компании, позволит ему более эффективно рассуждать и планировать. Сегодня специализированная версия Gemini Pro будет включена в новую версию AlphaCode, генеративного инструмента для кодирования "исследовательского продукта" от Google DeepMind. Самая мощная версия Gemini, Ultra, будет помещена в Bard и станет доступна через облачный API в 2024 году.
Сисси Хсиао, вице-президент Google и генеральный менеджер Bard, говорит, что мультимодальные возможности модели дали Bard новые навыки и сделали ее лучше в таких задачах, как резюмирование контента, мозговой штурм, письмо и планирование. "Это самое большое улучшение качества Bard с момента запуска", - говорит Хсиао.
Новое видение
Google показала несколько демонстрационных роликов, иллюстрирующих способность Gemini решать задачи, связанные с визуальной информацией. В одном из них модель искусственного интеллекта реагировала на видео, в котором кто-то рисовал изображения, создавал простые головоломки и просил предложить идеи для игр с картой мира. Двое исследователей Google также продемонстрировали, как Gemini может помочь в научных исследованиях, ответив на вопросы о научной работе, содержащей графики и уравнения.
Коллинз утверждает, что Gemini Pro, модель, которая будет запущена на этой неделе, превзошла более раннюю модель, на которой изначально работал ChatGPT, называемую GPT-3.5, в шести из восьми общепринятых эталонов для тестирования умного программного обеспечения ИИ.
Google утверждает, что Gemini Ultra, модель, которая дебютирует в следующем году, набрала 90 процентов баллов, что выше, чем у любой другой модели, включая GPT-4, в эталоне Massive Multitask Language Understanding (MMLU), разработанном академическими исследователями для тестирования языковых моделей на вопросах по таким темам, как математика, история США и право.
"Gemini занимает передовые позиции в широком диапазоне эталонов - 30 из 32 широко используемых в сообществе исследователей машинного обучения", - сказал Коллинз. "Поэтому мы видим, что он устанавливает границы по всем направлениям".
ОpenAI GPT-4, на котором сейчас работает самая мощная версия ChatGPT, взорвал сердца людей, когда дебютировал в марте этого года. Она также заставила некоторых исследователей пересмотреть свои ожидания относительно того, когда ИИ сможет соперничать с человеческим интеллектом. OpenAI назвала GPT-4 мультимодальным и в сентябре обновила ChatGPT для обработки изображений и аудио, но не сообщила, обучалась ли основная модель GPT-4 непосредственно не только на тексте. ChatGPT также может генерировать изображения с помощью другой модели OpenAI под названием DALL-E 2.
Google сегодня опубликовала технический отчет, в котором приводятся некоторые подробности о внутреннем устройстве Gemini. В нем не раскрываются особенности архитектуры, размер модели ИИ или сбор данных, использованных для ее обучения.
Длительный и дорогостоящий процесс обучения больших моделей ИИ на мощных компьютерных чипах означает, что Gemini, вероятно, обошелся в сотни миллионов долларов, говорят эксперты по ИИ. Предполагается, что Google разработала новый дизайн модели и новый набор обучающих данных. Компания ускорила выпуск своих технологий ИИ и влила ресурсы в несколько новых проектов в попытке заглушить шум вокруг OpenAI's ChatGPT и вновь стать ведущей компанией в мире ИИ.
"Мы находимся в своего рода гонке вооружений", - говорит Орен Этциони, почетный профессор Вашингтонского университета и бывший генеральный директор Института Аллена по ИИ. "Нет причин не верить в то, что Gemini по этим показателям превосходит GPT-4, но следующая версия, GPT-5, будет работать еще лучше".
Этциони говорит, что создание таких гигантских моделей, как Gemini, обходится в сотни миллионов долларов, но конечным призом могут стать миллиарды или даже триллионы доходов для компании, которая доминирует в поставках ИИ через облако. "Это война без приговоров, в которой нужно победить", - говорит он.
Борьба
Google изобрела некоторые ключевые методы, используемые в ChatGPT, но не спешила выпускать свою собственную технологию чатботов до выхода OpenAI примерно год назад, отчасти из-за опасений, что она может говорить нелицеприятные или даже опасные вещи. Компания утверждает, что провела наиболее полное тестирование безопасности Gemini, поскольку модель обладает более общими возможностями.
Для тестирования Gemini использовался набор данных о подсказках токсичных моделей, разработанный Институтом искусственного интеллекта Аллена. По словам Коллинза, компания сотрудничает с внешними исследователями, чтобы провести дальнейшее "тестирование" модели, подталкивая ее к неправильному поведению и выявляя ее слабые места. Не раскрывая конкретных деталей, Коллинз сказал, что большая мощность Gemini требует от Google "повысить планку качества и безопасности, которые нам приходится делать".
От нового алгоритма зависит многое для Google и ее материнской компании Alphabet, которая за последнее десятилетие создала внушительный исследовательский потенциал в области ИИ. Миллионы разработчиков создают алгоритмы на основе OpenAI, а Microsoft использует технологию для добавления новых функций в свои операционные системы и программное обеспечение для повышения производительности, поэтому Google вынуждена пересмотреть свои приоритеты как никогда раньше.
Поисковая компания впервые объявила о работе над Gemini на своей конференции I/O в мае, когда она пыталась добавить генеративный ИИ в поиск, чтобы противостоять популярности ChatGPT и угрозе того, что технология OpenAI может стать основой для поисковой системы Bing от Microsoft. По оценкам, доля Google на мировом рынке поиска по-прежнему превышает 90 процентов, но запуск Gemini, похоже, свидетельствует о том, что компания продолжает наращивать свои ответные меры на ChatGPT.
Google DeepMind, подразделение, возглавившее разработку Gemini, было создано в рамках этих ответных мер путем слияния основной исследовательской группы Google по ИИ, Google Brain, с ее лондонским подразделением по ИИ, DeepMind, в апреле. Однако в течение последних нескольких месяцев в проекте Gemini принимали участие исследователи и инженеры со всего Google. В нем использовалась недавно обновленная версия кремниевых чипов Google для обучения моделей ИИ, известных как Tensor Processing Units (TPUs).
Gemini был назван в честь объединения двух основных лабораторий ИИ Google' и как отсылка к проекту NASA' Gemini, который проложил путь для программы Apollo' высадки на Луну.
Алексей Эфрос, профессор Калифорнийского университета в Беркли, специализирующийся на визуальных возможностях ИИ, говорит, что общий подход Google к Gemini кажется многообещающим. "Все, что использует другие модальности, - это шаг в правильном направлении", - говорит он.
Эфрос подозревает, что Gemini, как и GPT-4, все еще будет демонстрировать заметные ограничения в своей способности понимать сложности реального мира. Но ему и другим исследователям вряд ли удастся узнать о творении Google все, что они хотели бы. "В этом и заключается проблема всех этих запатентованных моделей", - говорит Эфрос. "Мы не знаем, что находится внутри".