5 мая 2025 г.

Arcee AI: Spotlight

Spotlight

arcee-ai

Spotlight представляет собой модель визуально-языкового взаимодействия с 7 миллиардами параметров, основанную на Qwen 2.5-VL и доработанную компанией Arcee AI для выполнения задач, связанных с точным связыванием изображений и текста. Она обладает контекстным окном на 32k токенов, что позволяет вести насыщенные мультимодальные беседы, объединяющие длинные документы с одним или несколькими изображениями. Во время обучения акцент делался на быструю обработку данных на потребительских графических процессорах при сохранении высокой точности в задачах, связанных с описанием изображений, визуальным вопросно-ответным взаимодействием и анализом диаграмм. Это позволяет интегрировать Spotlight в рабочие процессы агентов, где необходимо быстро интерпретировать скриншоты, графики или макеты пользовательского интерфейса. Ранние тесты показывают, что модель демонстрирует сопоставимые или даже лучшие результаты по сравнению с более крупными визуально-языковыми моделями, такими как LLaVA-1.6 13B, в популярных тестах на визуальное вопросно-ответное взаимодействие и тестах согласования POPE.

Характеристики

Контекст131,072 токенов

Входные типыimage, text

Выходные типыtext

СемействоOther

ПровайдерTogether

ТипПлатная

Возможности

Генерация текста

Reasoning

Tool parameters

Multipart запросы

Completions API

Chat Completions API