Arcee AI: Spotlight
Spotlight
Spotlight представляет собой модель визуально-языкового взаимодействия с 7 миллиардами параметров, основанную на Qwen 2.5-VL и доработанную компанией Arcee AI для выполнения задач, связанных с точным связыванием изображений и текста. Она обладает контекстным окном на 32k токенов, что позволяет вести насыщенные мультимодальные беседы, объединяющие длинные документы с одним или несколькими изображениями. Во время обучения акцент делался на быструю обработку данных на потребительских графических процессорах при сохранении высокой точности в задачах, связанных с описанием изображений, визуальным вопросно-ответным взаимодействием и анализом диаграмм. Это позволяет интегрировать Spotlight в рабочие процессы агентов, где необходимо быстро интерпретировать скриншоты, графики или макеты пользовательского интерфейса. Ранние тесты показывают, что модель демонстрирует сопоставимые или даже лучшие результаты по сравнению с более крупными визуально-языковыми моделями, такими как LLaVA-1.6 13B, в популярных тестах на визуальное вопросно-ответное взаимодействие и тестах согласования POPE.
Характеристики
Контекст131,072 токенов
Входные типыimage, text
Выходные типыtext
СемействоOther
ПровайдерTogether
ТипПлатная
Возможности
Генерация текста
Reasoning
Tool parameters
Multipart запросы
Completions API
Chat Completions API