Когда ИИ не знает, что он не знает: как работает уверенность у машин

ИИ всё чаще становится участником терапевтического процесса: кто-то использует его для анализа речи, кто-то — как «второе мнение», а кто-то — в образовательной или исследовательской практике. Но за этой интеграцией стоит один важный вопрос, который пока не получил должного внимания: откуда берётся уверенность в ответах ИИ и насколько она оправдана?

Исследование, проведённое в Carnegie Mellon University, предлагает первый систематический взгляд на этот феномен. Учёные сравнили, как люди и большие языковые модели (LLM) — такие как ChatGPT, Gemini, Sonnet и Haiku — оценивают собственную уверенность в ответах на разные задания: от тривиальных вопросов до прогнозов и визуальных тестов.

Что выяснилось

Люди — даже если переоценивают себя — всё-таки склонны делать поправку на реальность. Например, если участник ожидал, что ответит правильно на 18 вопросов, а справился с 15, то его ретроспективная самооценка снижалась примерно до 16. Такой механизм называется метакогнитивной калибровкой — способность соотнести ожидания и результат.

ИИ вёл себя иначе. Он, наоборот, усиливал уверенность после провала. Gemini, одна из моделей, в среднем угадывал меньше одного изображения из двадцати — но при этом считал, что ответил правильно на 14. Даже после очевидного неуспеха модель продолжала считать себя успешной. Не потому, что лгала, а потому что не обладает механизмом осознания ошибки.

Автор исследования Трент Кэш описывает это так:

«Это как друг, который утверждает, что отлично играет в бильярд, но за всю игру не попадает ни разу — и при этом искренне уверен, что у него всё получается».

Что это говорит о природе ИИ

Текущие языковые модели могут оценивать собственную "уверенность" — в техническом смысле. Но эта уверенность не основана на понимании, она не метакогнитивна. Модель не чувствует, когда ошибается. Она лишь производит вероятностный ответ — и часто выдает его с одинаково твёрдой интонацией, будь то очевидный факт или субъективная догадка.

Это не новая проблема. Но важно, что исследование показывает: проблема не уходит даже при обучении на обновлённых данных. Несмотря на то, что исследование проводилось в течение двух лет и включало новые версии моделей, склонность к переуверенности оставалась стабильной. Некоторые модели, вроде ChatGPT, демонстрировали лучшие результаты, но и они не достигали точной самооценки.

Что это значит для психолога

Для специалиста по работе с психикой эта особенность ИИ не просто технический курьёз. Это реальное ограничение в надёжности. Если вы используете ИИ как инструмент анализа, советника или обучающего ассистента — вы работаете с системой, которая не знает, когда она ошибается. И не умеет показать вам сомнение.

В общении с человеком мы считываем не только смысл, но и контекст: паузы, колебания, интонацию. Эти сигналы помогают понять: «передо мной человек, который не уверен — стоит перепроверить». С ИИ таких сигналов нет. Он говорит одинаково уверенно о населении Лондона и о том, кто выиграет Оскар через год.

Это не делает ИИ бесполезным. Но требует профессиональной осознанности. Не стоит проецировать на ИИ ту же интерпретацию уверенности, которую мы привыкли использовать в человеческом диалоге. Там, где клиент интуитивно понимает — "терапевт не уверен", — у ИИ всегда будет один и тот же спокойный, уверенный тон.

И ещё одна тонкость

Модели вроде Gemini и ChatGPT не просто ошибаются. Они не знают, что ошибаются — и продолжают действовать с той же уверенностью. Это делает их уязвимыми не из-за злого умысла, а из-за неосознаваемой неосведомлённости. А это, пожалуй, одно из самых трудных состояний — и в терапии, и в технологиях.

К этой метакогнитивной «слепоте» добавляется важное структурное ограничение: широкие LLM, созданные для универсальных задач, не учитывают контекст психотерапевтической практики.

🔹 Они не различают уровень значимости запроса. Одинаково уверенно модель может отвечать на вопрос «что приготовить на ужин» и «стоит ли мне уходить из отношений». Это связано с отсутствием приоритетной модели оценки рисков и уязвимости пользователя.

🔹 Они не видят границ профессиональной этики. LLM может непреднамеренно начать интерпретировать, давать советы или «успокаивать» — не распознавая тонкую грань между поддержкой и вмешательством, особенно если в промпте задан личный или травматичный контекст.

🔹 Они не адаптированы к речевым паттернам клиентов. Психологи обучаются распознавать косвенные сигналы — искажения, защитные конструкции, несоответствия в эмоциональном тоне. Универсальная модель не понимает, что значит «ответ не на вопрос» или «речь стала фрагментированной» — она просто продолжает диалог в среднем по больнице.

А вот узкоспециализированные ИИ — могут иначе. Если ИИ целенаправленно обучается на психотерапевтических сессиях, в рамках чётко заданной этической модели, с анализом речевых маркеров, границ допустимого и типовых стратегий психотерапии — он может справляться с частью ограничений универсальных моделей:

🔸 Распознаёт зоны уязвимости. Такая модель будет настроена на сигналы риска (например, усиление тревоги, суицидальные темы, признаки дезорганизации речи) и не продолжит диалог в стиле «обычного ассистента».

🔸 Сохраняет скромность ответа. Специализированная модель может быть настроена на заведомо заниженную уверенность, особенно в области оценочных суждений и интерпретаций, предлагая не «ответ», а «гипотезу».

🔸 Учит психолога замечать больше. Если ИИ встроен не в работу с клиентом, а в супервизию или анализ, он может подмечать речевые маркеры, зоны сопротивления, эмоциональные пики — и предлагать специалисту интерпретации как набор допущений, а не готовых выводов.

🔍 Вывод: широкие модели полезны для справки, вдохновения и вспомогательных задач. Но для взаимодействия с человеческой психикой нужен иной стандарт — осторожный, обученный, этически сдержанный. ИИ может быть помощником — если мы не позволяем ему мимикрировать под терапевта.

📚 Исследование: Quantifying Uncert-AI-nty: Testing the Accuracy of LLMs’ Confidence Judgments, Trent Cash et al., Carnegie Mellon University Журнал Memory & Cognition, 2025.
Оригинал статьи на Neuroscience News

Когда ИИ не знает, что он не знает: как работает уверенность у машин — и что с этим делать психологам