Активированные параметры

Активированные параметры — это подмножество всех параметров нейронной сети, которые фактически используются при обработке конкретного входного примера. Этот термин особенно важен в контексте архитектур с разреженной активацией, таких как Mixture of Experts (MoE).

Активированные параметры в MoE-моделях

В архитектуре MoE для каждого входного примера активируется только часть "экспертов" (специализированных подсетей), что приводит к использованию лишь части от общего количества параметров модели:

  • Общее количество параметров — суммарное количество весов во всех экспертах и других компонентах модели.
  • Активированные параметры — количество параметров, которые фактически используются при обработке одного примера.

Примеры соотношения параметров

В современных MoE-моделях соотношение между общим количеством параметров и активированными параметрами может быть значительным:

  • Qwen3-235B-A22B: 235 миллиардов общих параметров, ~22 миллиарда активированных (соотношение ~10:1)
  • Qwen3-30B-A3B: 30 миллиардов общих параметров, ~3 миллиарда активированных (соотношение ~10:1)
  • Mixtral 8x7B: 47 миллиардов общих параметров, ~12 миллиардов активированных (соотношение ~4:1)

Преимущества разреженной активации

Использование активированных параметров вместо всех параметров модели дает несколько важных преимуществ:

  • Вычислительная эффективность — требуется меньше вычислений для обработки каждого примера
  • Экономия памяти — при выводе нужно загружать меньше параметров в оперативную память
  • Масштабируемость — можно создавать модели с триллионами параметров, которые остаются практичными для использования
  • Специализация — разные эксперты могут специализироваться на разных типах входных данных

Сравнение с плотными моделями

В традиционных "плотных" моделях (например, стандартных трансформерах) все параметры активируются для каждого входного примера. Это означает, что:

  • Общее количество параметров = Активированные параметры
  • Вычислительные затраты растут линейно с увеличением размера модели

MoE-модели позволяют "обмануть" это ограничение, предоставляя модели доступ к гораздо большему количеству параметров без пропорционального увеличения вычислительных затрат.

Исследования показывают, что MoE-модели с меньшим количеством активированных параметров могут превосходить плотные модели с таким же или даже большим количеством параметров, что делает их перспективным направлением развития крупномасштабных языковых моделей.