Магия ультразвука: другая сторона

( Август 2022, idb@kiwiarxiv )

Нелинейные акустические эффекты уже давно вызывают повышенный интерес у инженеров и учёных благодаря своим занятным свойствам, похожим на мистику и волшебство.

Слышимое становится неслышным

Пять лет тому назад, в июне 2017, на стыке инфотехнологий и акустики была опубликована весьма примечательная работа, переоткрывшая для всех одну из глубоко секретных технологий шпионов. Подробности на данный счёт можно найти в тексте BackDoor, или нелинейная магия ультразвука, а если пересказывать совсем кратко, то суть там была в следующем.

Выяснилось, что благодаря нелинейным свойствам бытовой электроники, обрабатывающей звук, можно «делать неслышное слышимым». Формулируя чуть иначе, в недоступном для слуха людей диапазоне ультразвука компьютеры могут генерировать и принимать такие аудиосигналы, благодаря которым становится возможен скрытный обмен информацией между системами, никак не связанными друг с другом проводами или радиочастотными каналами…

Ныне, пять лет спустя, появилась другая работа на ту же примерно тему – о нелинейной магии ультразвука, но только теперь развёрнутой в противоположную сторону. О том, иначе говоря, «как слышное делать неслышимым» с опорой на ультразвуковые сигналы.

В последних числах июня город Балтимор, США, был местом проведения 52-й международной конференции DSN или «Надёжные Cистемы и Cети» (IEEE International Conference on Dependable Systems and Networks). А одним из наиболее примечательных выступлений, сделанных на этом форуме, стал доклад группы исследователей из Мичиганского университета – о разработанной там новой технологии обработки речи. Точнее, технологии NEC для высоко избирательного глушения в общем разговоре голоса какого-либо одного конкретного человека.

Расшифровывается аббревиатура NEC как Neural Enhanced Cancellation, что на русский можно вольно перевести как «гашение речи, улучшенное нейросетью». Все шесть авторов этой «мичиганской» работы являются работающими в США китайцами (Hanqing Guo, Chenning Li, Lingkun Li, Zhichao Cao, Qiben Yan, Li Xiao), а подробная статья, на основе которой сделан их доклад, в июле 2022 выложена на сайте препринтов Arxiv.org: NEC, Speaker Selective Cancellation via Neural Enhanced Ultrasound Shadowing. arXiv:2207.05848.

Блок-схема, поясняющая принципы работы NEC. Блоки программного обеспечения NEC обозначены зелёным цветом, аппаратное обеспечение жёлтым, модуль обучения нейросети серым.

В аннотации к своей статье авторы поясняют, что технология NEC – это своего рода новый защитный механизм, который предотвращает запись голоса говорящего подслушивающими или «неавторизованными» микрофонами. По сравнению с уже существующими подходами к подавлению звука, технология NEC обеспечивает избирательное удаление голоса целевого говорящего из потока смешанной речи, не создавая помех для всех остальных.

Для реализации такого подхода была разработана глубокая нейросеть (DNN), по образцам аудиозаписи обучаемая выделению речевых характеристик, специфичных для конкретного говорящего человека-цели. Далее же DNN обеспечивает генерирование такого «теневого» звукового сигнала, который в режиме реального времени гасит или делает неслышным для микрофонов голос только цели. Более того, поскольку теневой звук модулируется в диапазоне ультразвуковых частот, всё это избирательное глушение происходит неслышно для людей, участвующих в разговоре.

Поскольку некоторые из корней этой интересной технологии уходят весьма глубоко в недра истории, полезно напомнить происхождение наиболее важных тут элементов.

Как это всё начиналось

В годы второй мировой войны американский исследовательский центр Bell Labs, где среди прочих учёных-разработчиков трудился и знаменитейший Клод Шеннон, стал той лабораторией, где работы над засекречиванием речи породили революционную идею о «криптографии с открытым ключом».

В столь давнюю пору термина такого, правда, не было и в помине (он появится лишь три десятка лет спустя), да и об участии Шеннона – как отца теории информации и научной криптографии – именно в этом проекте ничего достоверного не известно, однако факт появления собственно идеи является несомненным и задокументированным.

Суть изобретения заключалась в том, чтобы сторона, в канале связи принимающая секретную информацию, тоже участвовала в её засекречивании – наряду с отправителем. В исходном конкретном приложении к акустике и обработке речи в телефонной линии эта идея сводилась к тому, чтобы на приёмном конце инвертировать волновой сигнал и в таком виде сразу же отправлять его обратно в канал.

Результатом такого наложения двух вариантов одной волны, находящихся в противофазе, становилось то, что в линии все информативные сигналы взаимно гасились. Из-за чего третья сторона, подслушивающая передачу, могла услышать в канале связи лишь только одну тишину…

Подробности о том, как эта красивая, но не доведённая до воплощения в военные годы идея в начале 1970-х вдохновит учёных на изобретение принципиально новой криптографии с открытым ключом, можно прочитать в материале Параллельные Миры.

В контексте же новой технологии NEC для избирательного глушения голоса-цели полезно продемонстрировать, как та же самая идея сопрягается с особенностями модуляции ультразвука и нелинейными свойствами современной аппаратуры для обработки аудиосигналов.

Неслышное становится слышимым

Согласно общепринятым воззрениям, линейность акустического сигнала – то есть возможность принимать его очень слабым, а затем усиливать и передавать без каких-либо искажений – является важнейшим условием для качественной работы всякой аудиоаппаратуры. Нелинейное же поведение таких сигналов, соответственно, с давних пор принято рассматривать как крайне нежелательный эффект, порождающий разного рода искажения и мешающий чистой передаче звука. Отчего с нелинейностью в акустике обычно принято бороться и всячески её подавлять.

Однако, в 2017 году учёные Университета Иллинойса разработали особую методику и устройства, получившие общее название BackDoor  и позволившие смотреть на ту же проблему в корне иначе. Что предоставило массу возможностей для извлечения из нелинейности всяческой пользы.

В частности, аккуратно формируя специфические ультразвуковые сигналы, исследователи продемонстрировали неожиданный феномен: генерируемые подобным образом звуки совершенно не слышны для людей, но при этом хорошо регистрируются и записываются никак не модифицированными через обычные микрофоны.

Сразу же стало ясно, что столь интересная особенность новой нелинейной акустики – всегда оставаться за пределами слышимости для людей, но отчётливо и громко появляться в аудиозаписях – при творческом или коммерческом подходе к делу может воплощаться во множество новых приложений. Начиная от акустических «водяных знаков» или неслышных аудио-коммуникаций между устройствами «интернета вещей» и заканчивая ультразвуковой защитой конфиденциальных переговоров с помощью неслышного глушения всех подслушивающих устройств.

Первое, что следует подчеркнуть относительно специфики новой электронно-акустической технологии, получившей от авторов имя BackDoor, это существенные различия между устройством естественного слухового аппарата у людей и конструктивными особенностями аппаратуры для звукозаписи.

Потому что именно из-за этих различий в стандартных электронных устройствах и существует принципиальная возможность для аппаратной обработки таких звуков, которые люди – по причинам устройства их органов слуха – слышать не могут, однако обычные микрофоны слышат их хорошо и на равных включают в общую аудиокартину.

Происходит это не оттого, что звук слишком тихий или находится на крайнем пределе частотного диапазона, доступного человеку. Те звуки, которые порождаются устройством BackDoor, на самом деле имеют частоту 40 килогерц и выше. То есть, речь идёт о частотах, которые находятся далеко и полностью за пределами не только слышимости для человеческих ушей, но и для технического диапазона работы микрофонов.

Главная хитрость заключается в том, что микрофоны – из-за устройства своих диафрагм и усилителей мощности – обладают неотъемлемо присущим им свойством нелинейности. И именно благодаря этому оказывается возможным искусственно конструировать такие звуки, которые эффективно используют данную особенность аппаратуры.

Если чуть-чуть углубиться в технические подробности, то разработчики BackDoor особым образом формируют частоту и фазу звуковых сигналов, которые воспроизводятся через ультразвуковые громкоговорители-спикеры. В своём простейшем варианте эта система выдаёт на выходе два тона с частотами 40 кГц и 50 кГц. Когда на приёмном конце два этих тона поступают вместе на усилитель мощности микрофона, то они не только усиливаются, как предусмотрено, но также перемножаются – из-за фундаментальных нелинейностей в данной системе.

Результатом перемножения частот f1 и f2 становится появление добавочных частотных компонентов сигнала или комбинационных частот, имеющих, среди прочего, значения (f1 – f2) и (f1 + f2). Мембрана микрофона и предусилитель реагируют на такие высокочастотные компоненты, однако фильтр низких частот, работающий сразу за предусилением сигнала, отсекает все ненужные компоненты с частотой выше 24 килогерц.

Однако, принимая во внимание, что конкретно в данном случае разность частот (f1 – f2) означает 10 килогерц, а эта величина заведомо лежит в рабочем диапазоне частот микрофона, такой сигнал проходит без изменений через фильтр низких частот и регистрируется аппаратурой как обычный «полезный» звук.

Схема, поясняющая эффект появления «звуковой тени» в слышимом диапазоне.

Иначе говоря, когда такого рода спаренный ультразвук на приёмном конце проходит через стандартную схему усиления сигнала от мембраны микрофона, то для звуков высокой частоты происходит порождение своеобразной низкочастотной «тени» в слышимом диапазоне.

И хотя в статье исследователей-разработчиков подробно разобран лишь самый тривиальный случай передачи – просто двух тонов на паре близких частот, эксперименты показали, что в системе BackDoor имеется возможность и для передачи информации по этому каналу. То есть в передатчике сигналы несущих частот можно модулировать содержательными данными, а затем демодулировать их обратно после приёма и регистрации сигнала-«тени» через микрофон.

Принципиально важным моментом данного трюка является то, что микрофон не требует никакой модификации, а этот факт позволяет успешно применять выявленные возможности ко всем уже выпущенным миллиардам телефонов, планшетов, ноутбуков и устройств «интернета вещей».

#

После таких пояснений уже несложно, наверное, увидеть, что нынешняя работа исследователей Мичиганского университета в их технологии NEC продуктивно сочетает идеи нелинейной акустики BackDoor и гашения голоса его инвертированием по методу Bell Labs.

Используя нелинейность микрофонных схем и аккуратно подобрав несущие ультразвуковые частоты, исследователи научили нейросеть генерировать теневой звук для целевого подавления конкретного голоса. На практических испытаниях было продемонстрировано, что ультразвуковой излучатель NEC очень эффективно срабатывает на дистанциях до 4 метров, «убирая» целевой голос для 8 микрофонов самых разных смартфонов наиболее известных фирм, таких как Apple, Samsung и Xiaomi. При этом никакого влияния на разговоры остальных участников это не оказывало.

# # #

Дополнительное чтение:

BackDoor, или нелинейная магия ультразвука

Параллельные миры

Крипто-акустика

# #

Основные источники:

NEC: Speaker Selective Cancellation via Neural Enhanced Ultrasound Shadowing. By Hanqing Guo, Chenning Li, Lingkun Li, Zhichao Cao, Qiben Yan, Li Xiao. 52nd Annual IEEE/IFIP International Conference on Dependable Systems and Networks (DSN) June 2022. arXiv:2207.05848 [cs.SD] 12 Jul 2022. DOI:10.1109/DSN53405.2022.00044

Voice Jammer Stops Anyone from Recording Your Speech, by Matthew Sparkes, New Scientist, 6 August 2022

#