HimeraSearchDB

HimeraSearchDB

Carding_EbayThief

triada

CrackerTuch

BMIX

issn24

JavaScript отключён. Чтобы полноценно использовать наш сайт, включите JavaScript в своём браузере.

НОВОСТИ Где взять аудио для машинного обучения: подборка ресурсов и библиотек с лицензией Creative Commons

Автор темы BDFpromo
Дата начала 04.04.2020

Оффлайн

BDFpromo

.

.

04.04.2020

#1

Небольшой дайджест для тех, кто разрабатывает модели машинного обучения.

Под катом — своды данных с речью, музыкой и шумом промышленных агрегатов.

[SUP]Фото
You must be registered for see links
/ Unsplash[/SUP]

You must be registered for see links

Этот набор данных курируют инженеры из

You must be registered for see links

, являющейся частью Google. В нем собраны более двух миллионов голосовых отрезков из видео на YouTube длительностью до десяти секунд. Все они разбиты на

You must be registered for see links

, которые описывают происходящее в ролике. Вот лишь пара примеров: музыка, смех, храп, взрыв, шум газонокосилки, журчание ручья, лай собаки.

AudioSet предлагает три набора:

You must be registered for see links

,

You must be registered for see links

и

You must be registered for see links

. Первый включает 20 383 видеосегмента, которые рассортированы по 527 звуковым классам. В каждом из них приведено минимум 59 роликов. Сбалансированный набор похож на тестовый, за одним исключением — в нем 22 176 сегментов. Что касается несбалансированного, то он содержит все два миллиона семплов без какой-либо сортировки.

Данные для скачивания представлены

You must be registered for see links

: как текстовые csv-файлы и как аудиопризнаки, извлеченные из видеороликов сверточной нейросетью. Чтобы выгрузить все видеозаписи, на основе которых собраны данные, можно использовать python-модуль —

You must be registered for see links

. Датасет распространяют по лицензии

You must be registered for see links

. За обновлениями можно следить в группе Google:

You must be registered for see links

.

You must be registered for see links

Инженеры из Hitachi представили базу аудиозаписей со звуками работающего промышленного оборудования. Датасет подойдет для разработки моделей машинного обучения, определяющих

You must be registered for see links

. Подборка содержит шумы клапанов, помп и вентиляторов. Более 26 тыс. десятисекундных семплов посвящены аппаратуре, работающей в штатном режиме.

Еще 6 тыс. файлов — это записи машин, функционирующих в неидеальных условиях: без смазки, со сломанными лопастями или поврежденными направляющими.

Все записи сделаны в формате WAV с частотой дискретизации 16 кГц — их общий вес превышает 150 Гбайт. Примеры можно

You must be registered for see links

. Набор распространяют по лицензии

You must be registered for see links

.

[SUP]Фото
You must be registered for see links
/ Unsplash[/SUP]

You must be registered for see links

Этот свод данных включает тысячу часов английской речи (16 кГц). Его курируют инженеры Васил Панайотов (Vassil Panayotov) и Дэниел Повей (Daniel Povey) из Университета Джонса Хопкинса. Данные взяты из аудиокниг, которые создает некоммерческий проект LibriVox. Их записывают добровольцы, читая тексты, являющиеся общественным достоянием в США — например, из

You must be registered for see links

.

Помимо

You must be registered for see links

, на сайте можно скачать

You must be registered for see links

с записями (это 87 Гбайт) и

You must be registered for see links

. Установленная лицензия — CC BY 4.0. Оценить акустические модели, натренированные с помощью этого набора данных, можно на

You must be registered for see links

.

You must be registered for see links

Бесплатная коллекция аудиопризнаков и метаданных для миллиона популярных треков. В ней нет самих аудиозаписей, однако оригинальные дорожки можно «подтянуть»,

You must be registered for see links

, предоставленный разработчиками. Ими выступили инженеры из Национального научного фонда США, отвечающего за развитие науки и технологий в стране. Одной из первых данные для датасета предоставила аналитическая платформа The Echo Nest, которой с 2014 года

You must be registered for see links

Spotify. Свой вклад также внесли Last.fm, Musixmatch и SecondHandSongs.

Вся база

You must be registered for see links

около 300 Гбайт. Но авторы предлагают небольшую

You must be registered for see links

из 10 тыс. композиций — это 1,8 Гбайт. Все они разделены на категории, среди которых

You must be registered for see links

: исполнителя, жанр, дату релиза, настроение и другие.

Больше подборок в нашем «Мире Hi-Fi»:

You must be registered for see links

You must be registered for see links

You must be registered for see links

До 5 апреля мы

You must be registered for see links

на ряд товаров. Это — отличная возможность приобрести гаджет, который вы давно для себя присматривали. Например, акустику или «вертушку» до 25 тыс. руб.:

[17 150]
You must be registered for see links
— обзор What Hi-Fi: «
You must be registered for see links
»
[24 990]
You must be registered for see links
— обзор Stereo: «
You must be registered for see links
»

P.S. Указанные цены актуальны только на дату размещения публикации. Сверяйтесь с официальным

You must be registered for see links

, чтобы выбрать подходящий по вкусу аудиогаджет.

Войдите или зарегистрируйтесь для ответа.

Поделиться:

Ссылка

В данный момент Ваши права ограничены!
Авторизуйтесь или зарегистрируйтесь, чтобы стать полноценным участником форума.

Сверху Снизу