Новое исследование показало, что пять ведущих моделей искусственного интеллекта расходятся во мнении по основным фактам в 67% случаев. Исследователь Коста Йорданов из Lenz Research провел проверку 1000 реальных утверждений, взятых с платформы фактчекинга, используя GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro с поиском и Sonar Pro. Алгоритмы должны были классифицировать каждое утверждение как истинное, в основном истинное, вводящее в заблуждение или ложное.
Результаты оказались неожиданными: лишь по 328 утверждениям все пять моделей пришли к единому выводу. Статистический показатель Криппендорфа альфа составил 0,639 при требуемом уровне надежности 0,8, что свидетельствует о ненадежности согласия между моделями. Особенно часто возникали резкие расхождения — некоторые модели заявляли, что утверждение истинно, тогда как другие называли его ложным.
Исследование подчеркнуло, что модели не просто выдумывают факты, а именно не сходятся во мнении даже по проверяемым утверждениям, отражающим реальные спорные ситуации. Примеры включают разногласия по сумме активов Всемирного банка в Нигерии и утверждениям о заявлениях Дональда Трампа. Модели часто сходились лишь на крайних оценках — однозначно верно или неверно, а промежуточные категории «в основном верно» и «вводящее в заблуждение» практически не получали единогласной поддержки.
Авторы исследования предупреждают, что нет механизма для разрешения этих конфликтов, а большинство моделей не гарантирует объективную истину. В условиях растущего спроса на AI для проверки фактов такая непоследовательность может подорвать доверие пользователей к автоматизированным системам.
