Библиотека статей: ИИ, нейротех и психология

Когда ИИ «видит» ваш паспорт: что на самом деле попадает в обучающие выборки — и почему это важно не только для юристов, но и для психологов

2025-08-03 19:09

В открытом доступе появились данные о том, что один из крупнейших наборов данных для обучения нейросетей, DataComp CommonPool, содержит миллионы изображений, включающих паспортные данные, кредитные карты, фотографии лиц, медицинские документы и другие формы персональной информации. Исследователи изучили лишь 0.1% этой базы — и уже на этой крошечной выборке нашли тысячи потенциально чувствительных изображений. Учитывая масштаб набора, можно предположить, что в полном корпусе — сотни миллионов подобных фрагментов.

Создать карусель

Добавьте описание

Словами проще: если вы когда-либо выкладывали фото своего паспорта, снимок из Zoom, рецепт от врача, или просто фото в Instagram, где на заднем плане попал документ — с высокой вероятностью эти данные уже используются в обучении ИИ. Без вашего ведома. Без вашего согласия.

Что это значит для пользователя?

Технически это предсказуемо: большинство крупных датасетов, особенно тех, что используются для генеративных моделей (вроде DALL-E, Midjourney или Sora), собираются путём автоматического сканирования интернета. Всё, что не защищено, может быть загружено. И всё, что загружено — может быть проанализировано, классифицировано, размечено и встроено в поведенческую «память» ИИ.

Но теперь эти изображения не просто копируются — они формируют взгляд ИИ на мир. Когда вы просите нейросеть «сгенерировать человека с паспортом» или «показать больничную сцену», она достраивает картинку, опираясь на то, что когда-то уже увидела. И если в этом «виденном» — реальные лица, документы, эмоции и состояния, которые она не должна была сохранять, — это больше не просто технический вопрос. Это этическая дилемма.

Психологический комментарий: почему это затрагивает и нашу сферу

Психолог работает с доверием. И доверие неотделимо от границ — в том числе границ хранения, передачи и обработки личной информации. Когда ИИ, который участвует в психотерапевтической практике (например, помогает с анализом речи, предлагает интервенции или участвует в диагностике), учится на чужой уязвимости без разрешения, мы оказываемся в очень сложной зоне.

Это уже не только вопрос этики компаний. Это вопрос доверия между клиентом и психологом.

Если клиент узнаёт, что инструмент, который вы используете, потенциально был обучен на документах, подобных его личным, он может сделать вывод, что его данные однажды тоже окажутся в такой базе. Даже если это не так — тревога будет работать на опережение. И, что ещё важнее, в терапевтическом контексте человек имеет право на иллюзию приватности, которая формирует безопасное пространство для уязвимости. Эрозия этой границы — даже косвенная — влияет на глубину контакта.

Почему отказ от медицинских дисклеймеров — тревожный сигнал

Второй тревожный тренд из этого выпуска — исчезновение дисклеймеров в ИИ-моделях при ответах на медицинские запросы. Раньше при вопросе «у меня болит грудь — что делать?» ИИ отвечал: «Я не врач». Сегодня он может не только дать совет, но и задать уточняющие вопросы, предположить диагноз и продолжить обсуждение.

Проблема не в намерениях — модели не обладают злыми умыслами. Проблема в мимикрии под человеческое знание, без его глубины и ответственности. И это крайне опасно в уязвимых состояниях: тревожном расстройстве, расстройствах пищевого поведения, суицидальных переживаниях. То, что раньше останавливалось фразой «это не медицинская рекомендация», теперь становится полуавтоматическим ответом, который звучит убедительно.

Для психолога это может быть точкой риска: если клиент уже начал доверять ИИ больше, чем реальным людям, вы столкнётесь с новым типом сопротивления — машинной рационализацией, где решения приняты не чувствами, а автоматизмом.

А теперь главный вопрос: что с этим делать?

Развивать цифровую грамотность психологов. Не только в духе «где нажать», но и на уровне понимания этических рисков, следов в данных, принципов обучения ИИ и границ допустимого.

Выбирать инструменты, которые прозрачны по источникам обучения. Если вы используете ИИ-систему — задайте себе (или поставщику) вопрос: «На чём она обучалась? Какой объём данных? Были ли там реальные сессии, медицинские документы, фото лиц?»
Поддерживать развитие узкоспециализированных этичных моделей. Только модели, созданные для терапевтической практики, с чётко заданными этическими ограничениями, смогут быть полезными. Универсальные модели типа ChatGPT или Gemini не обязаны понимать контекст психотерапии — и не должны в неё вмешиваться.
Говорить об этом с клиентами. Включайте цифровую гигиену в ваш терапевтический дискурс. Обсуждайте, откуда клиент получает информацию, какие технологии он использует и как он понимает доверие в цифровой среде.

⚠️ В цифровую эпоху психолог должен быть не только профессионалом по работе с психикой, но и навигатором по рискам ИИ. Потому что за каждым автоматизированным ответом может стоять чужая биография. И кто-то уже смотрит на неё — через линзу машинного зрения.

📎 Оригинал обсуждаемой статьи в MIT Technology Review (July 21, 2025)