Технология глубокого обучения может помочь вам отфильтровать нежелательные фоновые шумы, сохранив при этом те, которые вам нравятся.
Может ли искусственный интеллект (ИИ) помочь вам фильтровать шум плача детей или сирен, сохраняя при этом пение птиц?
Команда из Вашингтонского университета считает, что они выяснили, как можно отключаться от фоновых шумов по своему желанию.
Они разработали алгоритмы с использованием технологии глубокого обучения, которые позволяют пользователям выбирать звуки, которые они могут слушать, когда надевают наушники. Они назвали эту систему «семантическим слухом».
«На высоком уровне мы используем наушники с шумоподавлением, чтобы подавить все звуки в окружающей среде. Но мы используем нейронную сеть на смартфоне, чтобы извлечь интересующие звуки и в режиме реального времени воспроизвести их в ухе через наушники», — рассказал Euronews Next Шьям Голлакота, профессор кафедры компьютерных наук и инженерии.
Итак, как это работает? Наушники отправляют записанные звуки на подключенный смартфон, блокируя другие шумы. Пользователи могут выбирать звуки из 20 категорий (например, щебетание птиц) с помощью голосовых команд или приложения, при этом воспроизводятся только выбранные звуки.
«Целевые звуки, которые мы воспроизводим через динамики, должны соответствовать тому, что пользователь видит в окружающей среде. По этой причине у нас есть только 20 миллисекунд для обработки входного звука, извлечения целевых звуков и воспроизведения их в наушниках», — сказал Бандхав Велури, аспирант кафедры компьютерных наук, объяснив, что им нужно было создать «очень эффективную модель глубокого обучения». ».
Это ограничение по времени объясняет, почему система использует смартфоны, а не облачные серверы.
«Что здесь интересно, так это то, что когда люди в наши дни обычно говорят о нейронных сетях и искусственном интеллекте, они знакомы с большими языковыми моделями, такими как ChatGPT», — сказал Голлакота.
«Для этого требуются очень большие модели, работающие в огромных центрах обработки данных, что для нашего приложения практически невозможно. Мы разработали специальную нейронную сеть, которая может работать на смартфоне».
Протестированная в таких местах, как офисы, улицы и парки, система может различать сирены, звуки птиц, сигналы тревоги и специфические шумы, избавляясь при этом от всех других фоновых звуков.
Согласно результатам исследования, когда 22 человека высказали мнение о выводе звука системы, они в целом сказали, что он звучит лучше, чем оригинальная запись .
Однако в некоторых ситуациях системе было трудно отличить очень похожие звуки, например пение и разговор. Исследователи предполагают, что обучение моделей на большем количестве реальных данных может помочь улучшить эти результаты.
Система «созрела для вывода на потребительский рынок», сказал Велури.
«Эти две тенденции (технология шумоподавления и глубокое обучение) открывают возможности для создания будущего интеллектуальных носимых устройств с реальными возможностями, которые до сих пор были в области научной фантастики», — сказал Голлакота.
«Я очень рад, что сейчас подходящее время для создания этих интеллектуальных гарнитур и что мы начнем видеть интеллект в наших гарнитурах в течение следующих пяти лет», — добавил он.