
Стратегия масштабирования, как глобальное преимущество.
Собрали и перевели тезисы из выступления основателя (Здесь). Какая стратегия для масштабирования моделей, который уже вышли за пределы привычных нам характеристик?
- Эффективность траты ресурсов при обучении и работе.
- Работа с длинным контекстным окном.
- Рой агентов и управление результатами.

1. ИИ на открытом коде догоняет самые известные модели. 80% новых стартапов выбирают ИИ с открытым кодом
Мы можем выбирать из двух вариантов: “черные ящики” и модели с открытым исходным кодом. Что это значит? Покупая OpenAi или Anthropik, мы получаем четко прописанный в правилах обмен информацией с любыми запросами от всех, кто имеет на это административный ресурс. Вплоть до истории запросов и результатов работы с ИИ. Либо мы можем выбрать открытую модель. У нее можно посмотреть код на предмет обмена данными с непонятными ресурсами. Это позволяет сберечь ваши данные и информацию.
Раньше опен-сорс модели значительно отставали от ИИ известных компаний. Но сегодня произошло два важных сдвига: такие модели почти догнали лидеров с “черными ящиками” и они кратно дешевле.

2. Масштабирование является серьезным драйвером для развития любого сектора
Необходимо оптимизировать результат обучения на потраченные токены. Это обеспечивает доступность. Также необходимо перейти с одного агента на рой агентов. Это позволит решать более сложные задачи. Чем больше модель, тем меньше потери.
Сегодня индустрия подошла к информационному барьеру. Когда почти все качественные данные были/могут быть использованы для обучения моделей. Фактически, объем данных является ограниченной величиной. Поэтому, важнее работать над эффективностью модели в пересчете на потраченные токены. Так как научить модель на “еще большем большем” объеме данных может быть проблематично. Поэтому, начинается работа над эффективностью.
Оптимизатор “MUON” – оптимизатор второго порядка. Он показал себя масштабируемым на больших моделях и позволяет проводить тонкую настройку. Оптимизатор решает проблему снижения веса модели. Это позволяет соптимизировать ресурсы.

3. Триллион параметров в модели – получили нестабильность обучения
Решением была разработка нового алгоритма, который учитывает каждый элемент нейронной сети и контролирует его предельные характеристики. В результате получилось стабилизировать обучение модели на 1 триллион параметров.
4. Длинный контекст модели
KIMI LINEAR. Чем больше окно контекста, тем сложнее задачи может решать модель. Для создания текста пресс-релиза требуется несоизмеримо меньше ресурсов, чем для написания кода LINUX. Конкурентная задача любой модели – масштабировать окно контекста и не потерять КПД примененных токенов.

4. Рой агентов
Позволяет создавать агентов различной специализации. Например: ИИ-исследователь, Проверяющий факты, веб-разработчик. и тд. Это расширяет возможности решения сложных задач.

Концепция, когда агент управляет агентами, дает потенциал для точного решения задач. Причем сложность задача можно увеличивать нелинейно. ВАЖНО: такая концепция дает возможность организовать процессы уровня предприятия. И организовать ту самую корпорацию одного человека”.

5. Обучение сразу происходит и на тексте и на визуале
Обычно обучают текст, потом добавляют дополнительно новые модальности. Такой подход снижает стоимость обучения модели. Раннее слияние нескольких модальностей на обучении дает лучший результат, чем классический подход.

