
Российская исследовательница Мария Петроченкова учится в Университете Ливерпуля и работает над тем, чтобы сделать распознавание обмана более точным и быстрым, а главное, применимым в реальной жизни. В фокусе ее дипломного проекта — выступления корпоративных лидеров и несловесные признаки лжи в их речи. Разработанная ею модель машинного обучения анализирует вокальные индикаторы, такие как интонация, паузы, изменения в тембре, и в реальном времени оценивает вероятность обмана. Причем система не опирается на содержание сказанного, а работает исключительно с тем, как оно было произнесено. Мы поговорили с Марией о том, почему лабораторные дата-сеты не работают, как звучит ложь на деле, может ли искусственный интеллект действительно стать детектором лжи, и о том, возможно ли скрыться от подобных технологий.
— Можно ли попросить вас рассказать о том, что привело вас в Университет Ливерпуля и как вы пришли к изучению машинного обучения?
— Я училась в МГУ, где и защитила диссертацию. Работая над диссертацией, я по стипендии уехала в Германию и получила там работу. Изначально думала, что поработаю год-два, наберусь опыта и с этим опытом вернусь в Россию, но мне стало интересно, и я осталась в Германии на двадцать лет. Пятнадцать из них я работала в международных корпорациях, занималась аналитикой и закупками на инженерных производственных предприятиях — мы производили сложные машины и оборудование. В 2019 году появилось ощущение потолка в профессии, и я пошла в IT: начала с big data, научилась программировать, и мне так понравилось, что я поступила в Университет Ливерпуля на магистерскую программу с фокусом на машинном обучении и обработке данных и уже почти ее окончила. После я планирую идти на PhD и писать диссертацию по информатике. Это были замечательные три года, особенно сейчас, когда появился ChatGPT, стало очень интересно.
— Откуда возникла идея вашего проекта — детектор лжи?
— Я выбирала тему для дипломной работы, списалась с несколькими профессорами, поговорила с ними и выбрала своим научным руководителем того, чья тема мне больше всех отозвалась. В большей степени это была его идея, мы вместе набросали дизайн, а детали разрабатывала и писала программу я уже сама. Мы не знали, каким будет результат, могло оказаться и так, что ложь нельзя распознать по невербальным параметрам.
— Как именно работает разработанная вами система детекции обмана? На какие вокальные параметры она ориентируется?
— Система анализирует исключительно невербальные вокальные характеристики, то есть такие параметры речи, которые не связаны с ее смыслом. В отличие от слов-паразитов вроде «м-м-м» или «э-э-э», которые уже относятся к вербальным элементам, мы фокусируемся на акустических признаках, таких как средняя высота тона, ее вариабельность, темп речи, интенсивность (громкость), а также микроколебания голоса — дрожание и мерцание, отражающие, насколько голос нестабилен на уровне частоты и амплитуды. Еще в начале 2000-х начали изучать, можно ли по таким признакам определить, что человек обманывает. Тогда стало понятно, что ни один параметр по отдельности не дает надежного результата, но в сочетании они могут быть информативны. Однако вопрос, какие конкретно комбинации признаков работают лучше и какова их относительная важность, долго оставался открытым, тем более что это может сильно зависеть от индивидуальных особенностей говорящего. Именно поэтому мы используем нейронную сеть, которая обучается на реальных аудиозаписях и автоматически определяет, какие признаки наиболее значимы для идентификации обмана именно у этого человека. На основе этой оценки мы формируем взвешенную формулу, с помощью которой можно затем анализировать речь в реальном времени — быстро и без необходимости повторного обучения.
— Почему было принято решение полностью исключить лингвистические данные и сосредоточиться только на том, как говорит человек, а не на том, что он говорит?
— Это дипломная работа, я не могу объять необъятное. Лингвистическими вопросами занимается другое направление искусственного интеллекта. Мы смотрим на акустику, а есть люди, которые программируют именно слова, это другое поле деятельности — НЛП. Есть еще люди, которые программируют видеораспознавание, но это очень инвазивный способ распознавания лжи, потому что человек знает, что его снимают на камеру, и это уже влияет на то, как он себя ведет. Мы же хотели получить средство, которое было бы неинвазивным.
— А есть ли у вас планы в дальнейшем объединить несколько подходов?
— Я думаю, что это произойдет само собой. Сейчас мы думаем о том, чтобы работать с хедж-фондами, потому что всю нашу систему мы разрабатывали для аудита руководителей концернов, которые котируются на бирже, чтобы определять, насколько стоит доверять их выступлениям, например, во время квартальных отчетов. У тех людей, с кем мы разговаривали, уже есть определенные системы для такого аудита, но основанные на лингвистике, а это часто подводит. Руководители такого высокого ранга натренированы выступать на публике и контролировать когнитивный стресс, их речь заранее подготовлена, их сложно поймать на слове. Если объединить признаки из лингвистики и акустики, то результат будет более точным. Думаю, это случится естественным образом, даже если не я лично это сделаю.
— Вы упомянули, что существующие лабораторные дата-сеты лжи оказались непригодны для вашей модели. В чем ключевое отличие реальных выступлений от поставленной лжи в лабораторных тестах? Почему это важно для разработки практического решения?
— После того как мы установили, что существует индивидуальная формула невербальных голосовых признаков, значимая для оценки достоверности речи (до моей работы это было не доказано), вторым ключевым выводом моего исследования стало то, что модель эффективно работает только с речью живого человека в естественной, неигровой ситуации. С синтетической или поставленной ложью, зафиксированной в лабораторных условиях, система практически не работает. Мы протестировали систему на аудиозаписях, предоставленных двумя независимыми исследовательскими организациями, где участникам давали инструкцию солгать в контролируемой обстановке. Несмотря на разнообразие этих записей, модель не выявила характерных признаков обмана — видимо, потому что такие записи не отражают настоящий стресс или когнитивную нагрузку, которая сопровождает реальную ложь. А именно эти сигналы — микронеровности в тембре, колебания в высоте тона, нестабильность громкости — система улавливает лучше всего. Это наблюдение, безусловно, требует дальнейшего изучения, в том числе с участием специалистов в области психологии и нейронаук. Я ожидаю, что после публикации работы это станет предметом дискуссии, и для меня как исследователя такая критика будет крайне ценной.
— Можно ли эти сигналы натренировать, чтобы скрывать ложь?
— Можно натренировать и ораторскую уверенность, и выражение лица, и паузы, и реакцию, как это делают актеры. Но некоторые невербальные акустические сигналы, видимо, натренировать все-таки нельзя.
— В чем заключаются главные вызовы при создании функционального детектора обмана в реальном времени? Какие сложности приходилось преодолевать в процессе работы над прототипом?
— Были технические сложности — например, сложно было определить, какие признаки выделять и каким образом. Есть много разных техник, и определить, какая техника какому признаку лучше всего подходит, было очень трудоемким процессом. Всего этих признаков около пятнадцати, но модель сокращает их до пяти-шести, которые, по ее расчетам, наиболее важны для конкретного человека, и они дальше и рассматриваются. Это занимает довольного много времени и ресурсов. В будущем я как раз планирую заняться оптимизацией системы, чтобы сократить потребляемые ресурсы — время и энергию. Также мы хотим добиться того, чтобы работа велась в реальном времени, например приложение включалось бы, когда человек позвонил вам по телефону, и оценивало бы его фразы. Сейчас у меня там не «Алекса», прямо скажем (впрочем, для «Алексы» это задание было бы слишком сложным). Думаю, в будущем мы этого тоже добьемся, просто нужно еще поработать. Есть разные пакеты, с которыми можно работать, и это очень большое поле для экспериментов.
— Какие риски сегодня несет фальсифицированная речь и как ваш проект помогает их минимизировать?
— Фальсифицированная речь — это синтетически созданные голосовые сообщения, которые имитируют реальных людей и используются для манипуляции поведением других людей. Основной риск заключается в том, что такие аудиозаписи могут побуждать слушателя к действиям, и эти действия будут основаны на ложной информации. В финансовом контексте, на который мы ориентировались при разработке системы, это, например, может означать, что руководитель компании на публичной конференции заявляет: «Ситуация сложная, но под контролем», хотя при этом осознает, что дело движется к кризису. Если такое высказывание окажется сгенерированным или априори неискренним, оно введет инвесторов в заблуждение и, возможно, будет иметь последствия на уровне рынка. Существует и более широкий этический риск: если технологии фальсификации голоса станут массовыми и незаметными, это может подорвать базовое доверие между людьми — в медиа, в политике, в частных коммуникациях. Мы и так живем все более изолированно, а если любое голосовое сообщение потенциально может быть подделкой, это сделает социальное взаимодействие еще менее надежным. Наш проект помогает минимизировать такие риски. Он обучается распознавать особенности живой, неподдельной речи, в том числе те микросигналы, которые трудно воспроизвести даже при помощи современных нейросетей: нестабильность высоты тона, микроизменения громкости, естественную вариативность речи. В будущем такая технология может стать частью систем верификации голоса и инструментом защиты от аудиофальсификаций в чувствительных сферах.
— Сейчас постоянно говорят о сгенерированных с помощью нейросетей звонках. Это вообще реальная угроза?
— Это реальнее, чем мне бы хотелось, но не так сильно распространено, как СМИ это преподносят. С той скоростью, с которой развиваются технологии, возможно, что завтра это случится с каждым из нас. До сих пор я наблюдала это в основном в Азии, там распространена такая тенденция, и на подобные звонки ведутся не только бабушки, так как не все такие звонки эмоционально заряжены.
— Какие сферы применения вы видите для вашей технологии в ближайшие годы? Возможно ли ее внедрение, например, в сферу кибербезопасности, финансов или при проведении юридических интервью?
— В первую очередь в финансовой сфере для выявления мошенничества и всяческих вариантов обмана. Применение детекторов лжи в сфере юриспруденции или в криминальных вопросах — не очень хорошая мысль, потому что нет (и я надеюсь, не будет) для этого законодательной базы. Такая программа может быть отличным помощником для принятия решений, она может выдать мнение, врет человек или не врет, но конечное решение должно оставаться за человеком. Есть такой эффект, уже доказанный научно: больше 75% людей, получая совет от системы искусственного интеллекта, предпочитают следовать этому совету и не относятся к нему критически. В 1980-х годах появились первые компьютеры на производстве, которые выполняли расчеты и давали советы инженерам, управляющим машинами,— от них очень быстро отказались, потому что инженеры вскоре перестали включать критическое мышление. В кибербезопасности можно использовать эту систему для аутентификации дополнительно к паролю. Она не среагирует на искусственно созданный, сфабрикованный голос, отличит синтетическую речь от реальной.
— Как вы обеспечиваете этическую сторону разработки? Например, могут ли такие технологии нарушать право на частную жизнь или использоваться для несанкционированного контроля?
— Здесь уже не в системе дело, а в том, кто ее использует: законодательно запрещено человека записывать и фотографировать без его разрешения, но, естественно, это все равно все делают. Если вы делаете селфи и на заднем плане оказывается пол-улицы, вы не будете за всеми бегать и у всех спрашивать разрешения на публикацию. Вопрос в том, как будут применяться результаты. Если кто-то рассказал вам историю, а система показала, что половина этой истории выдуманная, что делать дальше? Вы можете обвинить другого человека во лжи — тогда встанет вопрос, как вы пришли к этому выводу. Человек сам себе создаст проблему.
— А может ли какая-то организация использовать детектор обмана для контроля сотрудников или давления на свидетелей в суде?
— Это делается довольно часто благодаря традиционным детекторам лжи. В США такой подход раньше был достаточно распространен: в 1990-х и начале 2000-х многие собеседования проводились с детекторами лжи. Потом это стало менее популярно. В Азии они не очень популярны, там люди больше обращают внимание на другие признаки.
— Может ли система дать ложноположительный результат, из-за которого человек будет ошибочно обвинен во лжи (например, если он переволновался), что приведет к дальнейшему недоверию?
— Да, конечно, это я и хочу подчеркнуть. Пользуясь любой системой искусственного интеллекта, нужно сохранять собственное критическое мышление и не доверяться системам полностью — ни сейчас, ни в будущем. Система — это просто инструмент, как топор, и вопрос в том, как им пользоваться: дров нарубить, чтобы всем согреться, или кому-нибудь по шее дать.
— Какие ближайшие цели стоят перед вами? Можно ли ожидать выхода полнофункциональной версии системы — и в каком формате?
— Мои личные планы — диссертация, тоже в области искусственного интеллекта. Что касается этого проекта, то либо мы пойдем по научному направлению и выпустим статью для научного комьюнити, где опишем, как система работает, и выложим ее в открытый доступ, а дальше ее может улучшать каждый, либо же мы будем продолжать работу с хедж-фондами, заинтересованными в системе, и кто-то из них ее заберет, а мы поможем ее интегрировать в их ландшафт и дополнить ею уже имеющиеся у них инструменты выявления обмана. Мы не планируем делать стартап или разрабатывать систему дальше сами: с моей точки зрения, она лучше всего будет работать, если ее интегрировать в другие инструменты, например инструменты НЛП и те, что работают с видео (так, существуют системы, которые выявляют ложь по движению — расширению и сужению — зрачка).
— Как специалист, занимающийся искусственным интеллектом, можете ли вы назвать основные риски, которые несет ИИ для обыкновенного человека и для бизнеса?
— Для бизнеса это, конечно же, множество деструкций в разных областях. Сейчас все технологии в сфере ИИ быстро развиваются, и мы не успеваем это обдумать и разработать регулирование для использования разных ИИ-инструментов. Это придет со временем, вопрос только в том, не будет ли слишком поздно. С интернетом была та же самая история: сначала это было свободное пространство без регуляции, где программисты и подростки делали все, что хотели, особых денег там не было, все работало на альтруизме. А потом появились концерны и начали на нем зарабатывать. Но на это понадобилось лет десять, а сейчас же все происходит быстрее. Я недавно вернулась из Тибета — люди там живут в деревнях, возделывают поля с рисом, компьютеров у них нет. Казалось бы, если у человека нет компьютера, то ничего для него за последние десять лет не изменилось, он так же встает с восходом солнца и идет работать в поле. На самом же деле у всех есть телефоны с доступом в интернет и солнечные панели на крышах домов, чтобы эти телефоны заряжать. И когда искусственный интеллект изменит нашу жизнь до неузнаваемости, до тибетских крестьян революция тоже доберется. Никто не сможет избежать перемен и делать вид, что жизнь продолжается как раньше.