🔗 Оригинал статьи: MIT Technology Review, July 15, 2025
В мире, где голос можно украсть за 5 секунд аудиозаписи, разговоры об этике звучат особенно остро. Сегодня любой нейросетевой синтезатор речи может воспроизвести не только текст, но и чужую интонацию, дыхание, структуру речи. Приятный голос — больше не гарантия, что это действительно человек. И уж точно — не вы.
Но исследователи из Сеула показали: ИИ можно разучить узнавать конкретный голос. Не запретить, не обнести «забором» из фильтров, а именно стереть знание о нём, так, будто модель его никогда и не слышала.
Это звучит почти философски, но на деле — очень практично. Допустим, кто-то использовал голос другого человека для дипфейка или рекламного ролика. До сих пор максимум, что можно было сделать — пожаловаться, попросить удалить. Теперь появляется техническая возможность потребовать, чтобы сам ИИ больше не знал, как ты звучишь. Это не блокировка — это забвение.
Работа корейской команды, представляемая на конференции по машинному обучению, показывает, как модель генерации речи (в данном случае VoiceBox от Meta) перестаёт воспроизводить «запрещённый» голос. Даже если её об этом просят напрямую. Вместо этого она озвучивает текст случайным голосом, не похожим на исходный. В результатах — снижение узнаваемости «стёртого» голоса более чем на 75 %.
Да, процесс пока не быстрый. На каждого человека нужно около пяти минут аудио и несколько дней расчётов. И модель немного хуже справляется с другими задачами. Но это плата за приватность, которая кажется всё более осмысленной.
Почему это важно именно для психологов, коучей, консультантов? Потому что голос — это не просто рабочий инструмент, а часть нашей профессиональной идентичности и канала доверия. Он несёт информацию об интонации, состоянии, настрое, уровне включённости. В сессии голос — это не «фон», а равноправный участник контакта.
Но есть ещё более уязвимая сторона — голос клиента.
Даже если вы не записываете сессии, всегда есть риск незаконного захвата голоса — через уязвимости платформ, включённые микрофоны, приложения, которые слушают «на фоне». Аудиозапись, случайно оказавшаяся в облаке или на устройстве третьего лица, может быть использована без согласия — для генерации дипфейка, подделки запроса, имитации речи. В ряде случаев — даже без злого умысла, просто по небрежности алгоритма.
Возможность потребовать, чтобы модель «забыла» этот голос — это поворотный момент в аудио-этике. Потому что право быть услышанным — не отменяет права быть не сымитированным, особенно если ты говорил в уязвимом состоянии, в поиске помощи, на доверии.
Это уже не просто вопрос технологий. Это вопрос доверия между людьми — и между людьми и машинами.
В мире, где голос можно украсть за 5 секунд аудиозаписи, разговоры об этике звучат особенно остро. Сегодня любой нейросетевой синтезатор речи может воспроизвести не только текст, но и чужую интонацию, дыхание, структуру речи. Приятный голос — больше не гарантия, что это действительно человек. И уж точно — не вы.
Но исследователи из Сеула показали: ИИ можно разучить узнавать конкретный голос. Не запретить, не обнести «забором» из фильтров, а именно стереть знание о нём, так, будто модель его никогда и не слышала.
Это звучит почти философски, но на деле — очень практично. Допустим, кто-то использовал голос другого человека для дипфейка или рекламного ролика. До сих пор максимум, что можно было сделать — пожаловаться, попросить удалить. Теперь появляется техническая возможность потребовать, чтобы сам ИИ больше не знал, как ты звучишь. Это не блокировка — это забвение.
Работа корейской команды, представляемая на конференции по машинному обучению, показывает, как модель генерации речи (в данном случае VoiceBox от Meta) перестаёт воспроизводить «запрещённый» голос. Даже если её об этом просят напрямую. Вместо этого она озвучивает текст случайным голосом, не похожим на исходный. В результатах — снижение узнаваемости «стёртого» голоса более чем на 75 %.
Да, процесс пока не быстрый. На каждого человека нужно около пяти минут аудио и несколько дней расчётов. И модель немного хуже справляется с другими задачами. Но это плата за приватность, которая кажется всё более осмысленной.
Почему это важно именно для психологов, коучей, консультантов? Потому что голос — это не просто рабочий инструмент, а часть нашей профессиональной идентичности и канала доверия. Он несёт информацию об интонации, состоянии, настрое, уровне включённости. В сессии голос — это не «фон», а равноправный участник контакта.
Но есть ещё более уязвимая сторона — голос клиента.
Даже если вы не записываете сессии, всегда есть риск незаконного захвата голоса — через уязвимости платформ, включённые микрофоны, приложения, которые слушают «на фоне». Аудиозапись, случайно оказавшаяся в облаке или на устройстве третьего лица, может быть использована без согласия — для генерации дипфейка, подделки запроса, имитации речи. В ряде случаев — даже без злого умысла, просто по небрежности алгоритма.
Возможность потребовать, чтобы модель «забыла» этот голос — это поворотный момент в аудио-этике. Потому что право быть услышанным — не отменяет права быть не сымитированным, особенно если ты говорил в уязвимом состоянии, в поиске помощи, на доверии.
Это уже не просто вопрос технологий. Это вопрос доверия между людьми — и между людьми и машинами.