Alibaba представила новую методику обучения языковых моделей, которая позволяет существенно снизить затраты на развитие поисковых навыков ИИ. Разработка получила название ZeroSearch и основана на использовании симулированных поисковых запросов вместо обращения к реальным поисковым системам.
В традиционном подходе обучение ИИ требует отправки большого количества запросов к поисковым системам, что приводит к значительным затратам на API и нестабильности качества получаемых данных. ZeroSearch решает эту проблему, позволяя моделям обучаться в контролируемой среде без необходимости обращения к внешним источникам.
Ключевым элементом ZeroSearch является использование симуляционных языковых моделей, которые генерируют как релевантные, так и нерелевантные документы в ответ на запросы. Это позволяет обучаемой модели развивать навыки фильтрации и анализа информации, приближенные к реальным условиям. Процесс обучения включает в себя постепенное усложнение задач, что способствует развитию способности модели к логическому мышлению и принятию решений в условиях неопределенности.
Согласно данным разработчиков, использование ZeroSearch позволяет сократить расходы на обучение моделей на 88%. Например, обучение с использованием 64 000 запросов через Google Search обошлось бы в $586,7, тогда как использование симулированной модели на 14 миллиардов параметров на четырёх GPU A100 стоило всего $70,8.
ZeroSearch использует алгоритмы обучения с подкреплением, такие как Generalized Reward Policy Optimization (GRPO) и Proximal Policy Optimization (PPO), обеспечивая стабильность и эффективность процесса обучения. Кроме того, система поддерживает различные архитектуры языковых моделей и может быть адаптирована под конкретные задачи и домены.
Проект ZeroSearch доступен для разработчиков на GitHub, что позволяет интегрировать его в собственные решения и адаптировать под специфические требования. Это открывает новые возможности для создания эффективных и экономичных ИИ-систем, способных к самостоятельному обучению и поиску информации.
Таким образом, ZeroSearch представляет собой значительный шаг вперёд в области обучения языковых моделей, предлагая эффективный и экономичный подход к развитию поисковых навыков ИИ.
Инструкция по использованию ZeroSearch
1. Клонирование репозитория
git clone https://github.com/Alibaba-NLP/ZeroSearch.git
cd ZeroSearch
2. Установка зависимостей
Рекомендуется использовать Python 3.10. Установите зависимости из файла requirements.txt:
pip install -r requirements.txt
Также установите PyTorch с поддержкой CUDA, соответствующий вашей системе:
pip install torch torchvision torchaudio
3. Структура проекта
- src/ — основной код проекта
- src/trainer/ — модули обучения (ZeroSearch, PPO, GRPO)
- src/data/ — генерация и обработка данных
- src/model/ — языковые агенты и генерация документов
- src/evaluation/ — скрипты для оценки качества
- scripts/ — bash-скрипты для запуска
- configs/ — YAML-конфигурации для экспериментов
4. Подготовка данных
ZeroSearch работает с датасетами вроде MS MARCO или HotpotQA. Для загрузки MS MARCO выполните:
python src/data/build_msmarco.py
Затем необходимо сгенерировать симулированные документы с помощью LLM (например, ChatGPT или локальной модели через API).
5. Запуск обучения
Для запуска обучения воспользуйтесь готовым bash-скриптом из папки scripts/ или создайте свою конфигурацию. Пример запуска:
bash scripts/run_zerosearch.sh
6. Оценка результатов
Для оценки модели выполните:
python src/evaluation/eval_model.py --config configs/eval.yaml
7. Дополнительно
Подробные параметры, конфигурации и примеры доступны в репозитории GitHub: https://github.com/Alibaba-NLP/ZeroSearch