А где прорыв? Мысли о стагнации LLM.

Дисклеймер
Всё, что вы прочтёте ниже — это субъективное мнение, основанное на личных наблюдениях и размышлениях. Я не претендую на истину в последней инстанции и с уважением отношусь к другим точкам зрения. Я не инженер в OpenAI и не академик, просто внимательно слежу за развитием ИИ и делюсь тем, что кажется важным озвучить. Этот пост не попытка обесценить чей-то труд — наоборот, я глубоко уважаю всех, кто двигает индустрию вперёд. Цель — не критика ради критики, а желание сформулировать мысли вслух и пригласить к диалогу.

Давно хотел написать этот пост, но всё как-то не доходили руки. Да и многие посчитают это бредом. Но, пора.

Сегодня на рынке множество нейросетей от разных компаний: Gemini (Google), ChatGPT (OpenAI), Claude (Anthropic), Grok (xAI) и другие. Несмотря на различия в интерфейсах и возможностях, всех их объединяет одна и та же базовая архитектура — большие языковые модели (LLM), обученные предсказывать следующее слово на основе огромного корпуса данных.

И вот в чём проблема: мы по сути стоим на месте. Развитие идёт не за счёт принципиально новых подходов, а за счёт увеличения объёма данных, мощности обучения и тонкой настройки системных промтов. Глубинных инноваций в самой архитектуре — единицы. И это тормозит настоящий прорыв.

Исследования ведутся, но видимого качественного скачка давно не было. Возьмём, к примеру, переход от GPT-4 к GPT-5. GPT-4 на момент релиза казалась магией — она уже тогда уверенно справлялась с большинством задач по генерации текста. А GPT-5? Приростт заметен только на графиках. Нам показывают графики, новые бенчмарки, но в реальности — мало что изменилось.

Раньше каждая новая модель была событием. Все обсуждали её, делились примерами, восхищались возможностями. Сегодня — разницу между LLM буквально измеряют под микроскопом, сравнивая проценты улучшений по узкоспециализированным метрикам. Есть примеры можелей о которых вы вообще не слышали, потому что компании выпускают каждую новую версию каждую неделю.

Но интеллект нельзя свести к одной цифре — ни в форме IQ, ни в форме MMLU. Настоящий интеллект — это не просто предсказание следующего слова. Это способность исследовать, чувствовать, строить причинно-следственные связи, проявлять интуицию и сомнение. Пока LLM-архитектуры остаются в рамках автокомплита, этого не будет, как и AGI.

Да, появились multimodal-модели, интеграция видео, аудио, текста — но и это пока скорее надстройка над той же основой, а не архитектурный сдвиг.

И, скорее всего, пока индустрия будет доить текущие подходы, настоящего прорыва ждать не стоит. Все будут выжимать макимум из того, что уже есть. А потом — когда "всё" уже будет выжато и окажется недостаточным — компании начнут искать новые архитектурные решения.

Уверен, в OpenAI и других топ-лабораториях уже давно осознали, что архитектурный потолок LLM близок. Они не просто бегут за трендами — внутри наверняка идут поиски новых идей. Но на публике всё выглядит иначе: выход Sora 2, очередные бенчмарки, модельки "ещё быстрее и дешевле". Даже сотрудники OpenAI в X пишут, что уже сами мучают Codex и буксуют внутри. Кажется, рынок продолжает крутиться вокруг привычного — не потому что не видит проблему, а потому что боится остановиться, чтобы переосмыслить путь.

Хорошая новость в том, что к тому моменту у нас будет больше всего: больше вычислений, больше инструментов, больше знаний, больше наработок. А значит, шансы на создание действительно "умного" ИИ будут куда выше, чем 5 лет назад.