Mixture of Experts

Mixture of Experts (MoE) — это архитектура нейронной сети, которая разделяет вычисления между множеством специализированных подсетей, называемых "экспертами". Ключевая особенность MoE заключается в том, что для каждого входного примера активируется только небольшое подмножество экспертов, что позволяет значительно увеличить общее количество параметров модели без пропорционального увеличения вычислительных затрат.

Как работает MoE?

Архитектура MoE состоит из трех основных компонентов:

  1. Эксперты — набор идентичных по структуре нейронных подсетей, каждая из которых специализируется на обработке определенных типов входных данных.
  2. Маршрутизатор (router) — нейронная сеть, которая определяет, какие эксперты должны обрабатывать конкретный входной пример.
  3. Механизм объединения — компонент, который комбинирует выходные данные активированных экспертов в окончательный результат.

При обработке входных данных маршрутизатор вычисляет "веса маршрутизации" для каждого эксперта. Затем активируются только топ-K экспертов (обычно K=1 или K=2), а их выходные данные объединяются с весами, определенными маршрутизатором.

Преимущества MoE

  • Масштабируемость: Позволяет создавать модели с триллионами параметров, активируя лишь небольшую их часть для каждого примера.
  • Эффективность: Снижает вычислительные затраты и потребление памяти при выводе.
  • Специализация: Эксперты могут специализироваться на различных аспектах данных (например, разных языках, темах или типах рассуждений).

Применение в языковых моделях

MoE активно используется в современных языковых моделях, таких как:

  • Google's Switch Transformer и GLaM
  • Mixtral 8x7B от Mistral AI
  • Qwen3-235B-A22B от Alibaba Cloud
  • Claude 3 Opus от Anthropic

В этих моделях MoE-слои обычно чередуются с плотными слоями, что позволяет эффективно увеличить размер модели.

Соотношение параметров

В MoE-моделях различают два ключевых показателя:

  • Общее количество параметров — суммарное количество весов во всех экспертах и других компонентах модели.
  • Активированные параметры — количество параметров, которые фактически используются при обработке одного примера.

Например, модель Qwen3-235B-A22B имеет 235 миллиардов общих параметров, но для каждого токена активируется только около 22 миллиардов параметров.