HimeraSearchDB
Carding_EbayThief
triada
CrackerTuch
JustinSun

НОВОСТИ [Перевод] Распознавание мелодии путем изучения языка тела музыканта

NewsBot
Оффлайн

NewsBot

.
.
Регистрация
21.07.20
Сообщения
40.408
Реакции
1
Репутация
0
Перевод статьи подготовлен в преддверии старта нового набора на курс .

om3vlkd2vvsyfbt_z1yq5cdez4o.png


Инструмент распознавания музыкальных жестов на основе искусственного интеллекта, разработанный в MIT-IBM Watson AI Lab, использует движения тела, чтобы различать звуки отдельных музыкальных инструментов.

tmprhjk2klyd8aroxotkycufphe.jpeg

Image courtesy of the researchers.
Исследователи используют данные о ключевых точках скелета, чтобы сопоставлять движения музыкантов с темпом их партии, что позволяет слушателям изолировать инструменты с одинаковым звучанием.
Изображение предоставлено исследователями.


Мы наслаждаемся музыкой не только ушами, но также и глазами, с признательностью наблюдая, как пальцы пианиста летают по клавишам, а смычок скрипача качается на гребне струн. Когда ухо не в состоянии разделить два музыкальных инструмента, нам помогают наши глаза, сопоставляя движения каждого музыканта с ритмом каждой партии.

разработанный использует виртуальные глаза и уши компьютера, чтобы отделить друг от друга звуки схожие настолько, что человеку сложно их дифференцировать. Инструмент улучшен относительно предыдущих итераций путем согласования движений отдельных музыкантов с помощью ключевых точек их скелета с темпом отдельных партий, что позволяет слушателям изолировать звучание отдельной флейты или скрипки среди нескольких таких же инструментов.

Возможные применения для работы варьируются от микширования звука и увеличения громкости инструмента в записи до уменьшения путаницы, которая заставляет людей перебивать друг друга во время видеоконференций. Работа будет представлена на конференции в этом месяце.

«Ключевые точки тела предоставляют мощную структурную информацию», — говорит ведущий автор исследования , исследователь в лаборатории IBM. «Мы используем их здесь, чтобы улучшить способность ИИ слушать и отделять звук».

В этом и других подобных проектах исследователи использовали синхронизированные аудио-видео треки, чтобы воссоздать способ обучения людей. Система искусственного интеллекта, которая обучается с помощью нескольких сенсорных модальностей, может учиться быстрее, с меньшим количеством данных и без необходимости вручную добавлять надоедливые ярлыки к каждому реальному представлению. «Мы учимся на основе всех наших органов чувств, — говорит Антонио Торральба, профессор MIT и соавтор исследования. «Мультисенсорная обработка — это предшественник воплощенного интеллекта и систем искусственного интеллекта, которые могут выполнять более сложные задачи».

Данный инструмент, который использует язык тела для разделения звуков, основан на более ранней работе, в которой сигналы движения использовались в последовательностях изображений. Его самое раннее воплощение, PixelPlayer, позволял в концертном видео, чтобы сделать его громче или тише. PixelPlayer позволяет вам провести различие между двумя скрипками в дуэте путем сопоставления движений каждого музыканта с темпом их партии. Эта последняя версия добавляет данные о ключевых точках (которые используют спортивные аналитики для отслеживания результатов спортсменов, для извлечения более детализированных данных о движении), чтобы различать почти идентичные звуки.

Работа подчеркивает важность визуальных подсказок в обучении компьютеров, чтобы они могли лучше слышать, и использование звуковых подсказок, чтобы дать им более острое зрение. Точно так же, как текущее исследование использует визуальную информацию о движениях музыканта для разделения партий музыкальных инструментов с похожим звучанием, в предыдущей работе использовались звуки для разделения похожих объектов и животных одного вида.

Торральба и его коллеги показали, что модели глубокого обучения, обученные на парных аудио-видео данных, могут научиться , такие как пение птиц или удары волн о берег. Они также могут определять географические координаты по звуку его двигателя и колес, движущихся к микрофону или от него.

Последнее исследование предполагает, что инструменты отслеживания звука могут быть полезным дополнением к беспилотным автомобилям, помогая их камерам в условиях плохой видимости. «Звуковые трекеры могут быть особенно полезны ночью или в плохую погоду, помогая отмечать автомобили, которые в противном случае могли бы быть пропущены», — говорит Ханг Чжао, доктор философии '19, который участвовал в исследованиях касательно отслеживания движения и звука.

Другими авторами исследования музыкальных жестов CVPR являются Дэн Хуанг и Джошуа Тененбаум из MIT.

На этом все. Чтоб узнать о курсе подробнее, приглашаем вас записаться на день открытых дверей по ссылке ниже:


Читать ещё:


 
Сверху Снизу