Совсем скоро выйдет GPT-4, об этом сообщил Сэм Алтман, директор OpenAI, . Модель GPT-3 была анонсирована в мае 2020, она вышла через год после GPT-2, которая в свою очередь вышла через год после публикации статьи об оригинальном GPT. что GPT-4 скоро выйдет. Предполагается, что это произойдет летом этого года. В этой статье порассуждаем, что нового принесет долгожданная NLP-модель.
Размер модели: GPT-4 не будет огромной
Алтман подтвердил, что новая модель будет чуть больше предыдущей. Иными словами, размер — это не то чем будут хвастаться. Параметров будет в районе 200 миллиардов.
Megatron-Turing NLG, которая появилась благодаря колаборации между Nvidia и Microsoft, стала самой большой моделью с 530 миллиардами параметров, что в 3 раза больше, чем у GPT-3. Хотя в 4 апреля Google анонсировала свою модель PaLM с 540 мил. параметрами, так что гонка за числами продолжается. Тем не менее, некоторые меньшие модели показывали более высокую точность, чем MT-NLG.
Больше != лучше. Например, модель Gopher (280B) или Chinchilla (70B) показывают более высокую точность на некоторых задачах, чем MT-NLG.
Поэтому не удивительно, что компании сейчас не уделяют такого внимания к размерам модели. GPT-4 сконцентрировалась на других аспектах: данные, алгоритма, параметризация, распределение.
В погоне за оптимизацией
Языковые модели страдают от важного ограничения, когда это касается оптимизаций. Обучение — это дорогой процесс, что компании должны выбрать между точностью и затратами. Это часто ведет к тому, что модель недооптимизирована.
GPT-3 была обучена всего лишь раз, несмотря на некоторые ошибки, что в другой модели привело бы к переобучению. В OpenAI решили так не делать из-за неподъёмных расходов, что привело бы к трудности поиска наилучших гиперпараметров.
В предыдущем месяце Microsoft и OpenAI показали, что GPT-3 мог быть улучшен, если бы они обучили модель с оптимальными параметрами. Они обнаружили, что GPT-3 с 6.7 млрд. параметрами достигла той же производительности как и оригинальная модель с 13 млдр. Настройка гиперпараметров (что очень сложно сделать для больших моделей) приводит к такому улучшению, которое можно достигнуть увеличением параметров в 2 раза.
Так, они нашли такой коэффициент μP, при котором наилучшие гиперпараметры для меньшей модели были также наилучшими для большей модели того же семейства. На основании этого коэффициента можно оптимизировать модели разных размерностей с меньшими расходами.
В DeepMind поняли, что количество входных токенов также влияет на производительность. Они пришли к выводу, что вычислительные ресурсы нужно одинаково распределять между данными и параметрами. Чтобы доказать данную гипотезу они обучили Chinchilla, которая меньше Gopher в 4 раза, но на которую потребовалось в 4 раза больше данных по сравнению со всеми предыдущими моделями.
Результат был на лицо: Chinchilla превзошла Gopher, GPT-3, MT-NLG по многим показателям. Вывод здесь таков — существующие модели недотренированые и распухшие.
На этом основании можно предположить, что GPT-4 будет немного больше GPT-3, а количество токенов будет в районе 5 триллионов. Количество операций с плавающей точкой (FLOPs) для того, чтобы получить минимальные обучающие потери будут в 10–20 раз больше, чем в GPT-3 (опираясь на опыт Gopher).
Мультимодальность: GPT-4 будет работать только для текстов
Будущее Deep Learning — это мультимодальные модели. Так же как и человек они будут работать с разными типами информации.
Однако такие модели слишком сложно построить. Скомибинировать, например, языковую и зрительную модели высокой точности — непосильная задача на данный момент.
Поэтому Алтман подтвердил, что GPT-4 будет обычной языковой моделью, а не мультимодальной, как DALL-e или MUM. Можно предположить, что они пытаются достигнуть высокой точности в области NLP, перед тем как строить новое поколение мультимодальных моделей.
Разреженность: GPT-4 будет полносвязной
Разреженные модели с условными вычислениями, когда применяются разные части модели для обработки разного вида входящих данных, получают все больше внимания сегодня. Их легко масштабировать без потери вычислительных расходов. Однако преимущества таких моделей улетучиваются с увеличением их размеров.
Вероятно, GPT-4 будет полносвязной. Поскольку размер модели будет чуть больше, чем у GPT-3, то можно сказать, разреженность в OpenAI сейчас не в приоритете.
Разреженность и мультимодальность когда-нибудь станут приоритетными направлениями.
Выравнивание: более понимающая по сравнению с GPT-3
OpenAI тратит много усилий, чтобй решить проблему совпадения: “Как сделать так, что языковая модель понимала наши намерения и придерживалась нашей мысли?” Данная проблема выходит за рамки точных наук, ведь непонятно, как именно посчитать, что именно мы хотим.
InstructGPT — была первой попыткой сделать такую модель, которая обучалась на основе обратной связи от человека.
Несмотря на низкую оценку производительности, для человека (для сотрудников OpenAI и для англоговорящих) казалось, что она неплохо справляется. Это показывает нам, что мы не должны полностью полагаться на метрики, но и на собственное восприятие.
Возможно, GPT-4 возьмет что-то из этого опыта. Причем из опыта не только англоговорящих, но и других людей, в независимости от пола, возраста или происхождения.
NLP с Python
Код курса
PNLP
Ближайшая дата курса
18 ноября, 2024
Продолжительность
40 ак.часов
Стоимость обучения
90 000 руб.
О том, как получить свою собственную языковую модель вы узнаете на специализированном курсе «CURS» в лицензированном учебном центре обучения и повышения квалификации разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве.