Kimi AI. Как масштабируется ИИ-модель с открытым кодом. Интеллект роя

Компании:
Индустрия:
В избранное
В избранном

Стратегия масштабирования, как глобальное преимущество.

Собрали и перевели тезисы из выступления основателя (Здесь). Какая стратегия для масштабирования моделей, который уже вышли за пределы привычных нам характеристик?

  1. Эффективность траты ресурсов при обучении и работе.
  2. Работа с длинным контекстным окном.
  3. Рой агентов и управление результатами.

1. ИИ на открытом коде догоняет самые известные модели. 80% новых стартапов выбирают ИИ с открытым кодом

Мы можем выбирать из двух вариантов: “черные ящики” и модели с открытым исходным кодом. Что это значит? Покупая OpenAi или Anthropik, мы получаем четко прописанный в правилах обмен информацией с любыми запросами от всех, кто имеет на это административный ресурс. Вплоть до истории запросов и результатов работы с ИИ. Либо мы можем выбрать открытую модель. У нее можно посмотреть код на предмет обмена данными с непонятными ресурсами. Это позволяет сберечь ваши данные и информацию.

Раньше опен-сорс модели значительно отставали от ИИ известных компаний. Но сегодня произошло два важных сдвига: такие модели почти догнали лидеров с “черными ящиками” и они кратно дешевле.

2. Масштабирование является серьезным драйвером для развития любого сектора

Необходимо оптимизировать результат обучения на потраченные токены. Это обеспечивает доступность. Также необходимо перейти с одного агента на рой агентов. Это позволит решать более сложные задачи. Чем больше модель, тем меньше потери.

Сегодня индустрия подошла к информационному барьеру. Когда почти все качественные данные были/могут быть использованы для обучения моделей. Фактически, объем данных является ограниченной величиной. Поэтому, важнее работать над эффективностью модели в пересчете на потраченные токены. Так как научить модель на “еще большем большем” объеме данных может быть проблематично. Поэтому, начинается работа над эффективностью.

Оптимизатор “MUON” – оптимизатор второго порядка. Он показал себя масштабируемым на больших моделях и позволяет проводить тонкую настройку. Оптимизатор решает проблему снижения веса модели. Это позволяет соптимизировать ресурсы.

3. Триллион параметров в модели – получили нестабильность обучения

Решением была разработка нового алгоритма, который учитывает каждый элемент нейронной сети и контролирует его предельные характеристики. В результате получилось стабилизировать обучение модели на 1 триллион параметров.

4. Длинный контекст модели

KIMI LINEAR. Чем больше окно контекста, тем сложнее задачи может решать модель. Для создания текста пресс-релиза требуется несоизмеримо меньше ресурсов, чем для написания кода LINUX. Конкурентная задача любой модели – масштабировать окно контекста и не потерять КПД примененных токенов.

4. Рой агентов

Позволяет создавать агентов различной специализации. Например: ИИ-исследователь, Проверяющий факты, веб-разработчик. и тд. Это расширяет возможности решения сложных задач.

Концепция, когда агент управляет агентами, дает потенциал для точного решения задач. Причем сложность задача можно увеличивать нелинейно. ВАЖНО: такая концепция дает возможность организовать процессы уровня предприятия. И организовать ту самую корпорацию одного человека”.

5. Обучение сразу происходит и на тексте и на визуале

Обычно обучают текст, потом добавляют дополнительно новые модальности. Такой подход снижает стоимость обучения модели. Раннее слияние нескольких модальностей на обучении дает лучший результат, чем классический подход.

Посмотрите все проекты из индустрий

проекты из индустрий

интересное