Активированные параметры — это подмножество всех параметров нейронной сети, которые фактически используются при обработке конкретного входного примера. Этот термин особенно важен в контексте архитектур с разреженной активацией, таких как Mixture of Experts (MoE).
Активированные параметры в MoE-моделях
В архитектуре MoE для каждого входного примера активируется только часть "экспертов" (специализированных подсетей), что приводит к использованию лишь части от общего количества параметров модели:
- Общее количество параметров — суммарное количество весов во всех экспертах и других компонентах модели.
- Активированные параметры — количество параметров, которые фактически используются при обработке одного примера.
Примеры соотношения параметров
В современных MoE-моделях соотношение между общим количеством параметров и активированными параметрами может быть значительным:
- Qwen3-235B-A22B: 235 миллиардов общих параметров, ~22 миллиарда активированных (соотношение ~10:1)
- Qwen3-30B-A3B: 30 миллиардов общих параметров, ~3 миллиарда активированных (соотношение ~10:1)
- Mixtral 8x7B: 47 миллиардов общих параметров, ~12 миллиардов активированных (соотношение ~4:1)
Преимущества разреженной активации
Использование активированных параметров вместо всех параметров модели дает несколько важных преимуществ:
- Вычислительная эффективность — требуется меньше вычислений для обработки каждого примера
- Экономия памяти — при выводе нужно загружать меньше параметров в оперативную память
- Масштабируемость — можно создавать модели с триллионами параметров, которые остаются практичными для использования
- Специализация — разные эксперты могут специализироваться на разных типах входных данных
Сравнение с плотными моделями
В традиционных "плотных" моделях (например, стандартных трансформерах) все параметры активируются для каждого входного примера. Это означает, что:
- Общее количество параметров = Активированные параметры
- Вычислительные затраты растут линейно с увеличением размера модели
MoE-модели позволяют "обмануть" это ограничение, предоставляя модели доступ к гораздо большему количеству параметров без пропорционального увеличения вычислительных затрат.
Исследования показывают, что MoE-модели с меньшим количеством активированных параметров могут превосходить плотные модели с таким же или даже большим количеством параметров, что делает их перспективным направлением развития крупномасштабных языковых моделей.