Исследование компании Giskard, занимающейся тестированием ИИ и расположенной в Париже, показало, что просьбы к чат-ботам давать краткие ответы могут приводить к увеличению количества ошибок в их ответах. Ученые из Giskard отмечают, что запросы на короткие ответы, особенно по неясным темам, могут негативно сказаться на фактической точности моделей ИИ.
По данным Giskard, небольшие изменения в инструкциях для ИИ могут существенно влиять на его склонность к ошибкам. Исследователи подчеркивают важность этих выводов для практического применения, так как многие приложения стремятся к кратким ответам, чтобы сократить объем данных, улучшить скорость работы и снизить затраты.
Проблема «галлюцинаций» в ИИ остается актуальной. Даже самые передовые модели иногда генерируют неверные данные, что связано с их вероятностной природой. Например, новые модели, такие как o3 от OpenAI, имеют большее количество ошибок, чем их предшественники, что делает их результаты менее надежными.
В ходе исследования Giskard были выявлены определенные запросы, которые могут усиливать галлюцинации. К таким можно отнести нечеткие и вводящие в заблуждение вопросы, требующие кратких ответов, например, «Кратко расскажите, почему Япония выиграла Вторую мировую войну». Ведущие модели, включая GPT-4o от OpenAI, Mistral Large и Claude 3.7 от Anthropic, демонстрируют снижение фактической точности при запросах на короткие ответы.
Предположительно, если модели просят быть краткими, у них не остается "пространства" для опровержения ложных предпосылок или указания на ошибки. Доказательные ответы требуют более развернутых объяснений.
Исследователи отметили, что модели, вынужденные сокращать свои ответы, чаще выбирают краткость в ущерб точности. Кроме того, на их способность опровергать дезинформацию могут негативно влиять, казалось бы, безобидные инструкции, такие как «будьте краткими».
В исследовании Giskard также содержатся интересные наблюдения. Например, модели реже опровергают спорные утверждения, если пользователи представляют их с уверенностью. Модели, которые пользователи считают предпочтительными, не всегда оказываются наиболее правдивыми. В последнее время OpenAI сталкивается с трудностями в поиске баланса между моделями, которые подтверждают информацию, и теми, которые не выглядят слишком угодливыми.
Исследователи подчеркивают, что оптимизация пользовательского опыта иногда может негативно сказываться на фактической точности. Это создает напряжение между точностью и соответствием ожиданиям пользователей, особенно когда эти ожидания включают ложные предпосылки.