EleutherAI представила большой набор данных для обучения ИИ
EleutherAI представила большой набор данных для обучения ИИ

Организация EleutherAI, занимающаяся исследованием искусственного интеллекта, анонсировала выпуск одного из самых крупных наборов текстов для обучения ИИ. Набор данных получил название The Common Pile v0.1 и был создан в сотрудничестве с несколькими стартапами в области ИИ, такими как Poolside и Hugging Face, а также с рядом академических учреждений. Размер набора данных составляет 8 терабайт и он использовался для обучения двух новых моделей EleutherAI — Comma v0.1-1T и Comma v0.1-2T, которые, по утверждению компании, демонстрируют результаты на уровне моделей, обученных на защищённых авторским правом данных.

Компании, работающие в сфере ИИ, включая OpenAI, сталкиваются с судебными разбирательствами из-за своих практик обучения, которые часто включают использование материалов с интернета — в том числе защищённых авторским правом книг и научных журналов. Несмотря на наличие лицензий с некоторыми поставщиками контента, многие компании полагаются на доктрину добросовестного использования, чтобы избежать ответственности за обучение на защищённых материалах без разрешения.

EleutherAI утверждает, что такие судебные процессы значительно снизили уровень прозрачности в работе ИИ-компаний. По мнению организации, это создало препятствия для исследования ИИ, затрудняя понимание работы моделей и их недостатков. Согласно словам Стеллы Бидерман, исполнительного директора EleutherAI, иски не изменили практику сбора данных, но значительно уменьшили прозрачность в действиях компаний.

Набор данных The Common Pile v0.1 доступен для скачивания на платформах Hugging Face и GitHub. Этот набор был создан с учетом мнений юридических экспертов и включает в себя источники, такие как 300 000 книг из публичного достояния, оцифрованных Библиотекой Конгресса и Интернет-архивом. EleutherAI использовала Whisper, модель преобразования речи в текст от OpenAI, для транскрибирования аудиоконтента.

По словам EleutherAI, модели Comma v0.1-1T и Comma v0.1-2T являются доказательством того, что набор данных был тщательно отобран, что позволяет разработчикам создавать конкурентные модели. Обе модели содержат 7 миллиардов параметров и были обучены только на части The Common Pile v0.1, при этом их результаты сопоставимы с первыми моделями Llama от Meta по таким критериям, как кодирование, понимание изображений и математика.

Параметры, иногда называемые весами, представляют собой внутренние компоненты модели ИИ, которые определяют её поведение и ответы. Бидерман отметила, что мнение о том, что не лицензированные тексты обеспечивают высокую производительность, не обосновано. С увеличением доступных открытых и публичных данных можно ожидать улучшения качества моделей, обученных на таких материалах.

The Common Pile v0.1 также можно рассматривать как попытку исправить ошибки прошлого EleutherAI. Ранее компания выпустила набор данных The Pile, который содержал защищённые материалы, за что подверглась критике и юридическому давлению. В будущем EleutherAI планирует чаще выпускать открытые наборы данных в сотрудничестве с партнёрами по исследованию и инфраструктуре.