HimeraSearchDB
Carding_EbayThief
triada
CrackerTuch
JustinSun

НОВОСТИ Где взять аудио для машинного обучения: подборка ресурсов и библиотек с лицензией Creative Commons

BDFpromo
Оффлайн

BDFpromo

.
.
Регистрация
23.09.18
Сообщения
12.347
Реакции
176
Репутация
0
Небольшой дайджест для тех, кто разрабатывает модели машинного обучения.

Под катом — своды данных с речью, музыкой и шумом промышленных агрегатов.

0htznang-k1lvya7tqjdanppcxq.jpeg

[SUP]Фото / Unsplash[/SUP]





Этот набор данных курируют инженеры из , являющейся частью Google. В нем собраны более двух миллионов голосовых отрезков из видео на YouTube длительностью до десяти секунд. Все они разбиты на , которые описывают происходящее в ролике. Вот лишь пара примеров: музыка, смех, храп, взрыв, шум газонокосилки, журчание ручья, лай собаки.

AudioSet предлагает три набора: , и . Первый включает 20 383 видеосегмента, которые рассортированы по 527 звуковым классам. В каждом из них приведено минимум 59 роликов. Сбалансированный набор похож на тестовый, за одним исключением — в нем 22 176 сегментов. Что касается несбалансированного, то он содержит все два миллиона семплов без какой-либо сортировки.

Данные для скачивания представлены : как текстовые csv-файлы и как аудиопризнаки, извлеченные из видеороликов сверточной нейросетью. Чтобы выгрузить все видеозаписи, на основе которых собраны данные, можно использовать python-модуль — . Датасет распространяют по лицензии . За обновлениями можно следить в группе Google: .





Инженеры из Hitachi представили базу аудиозаписей со звуками работающего промышленного оборудования. Датасет подойдет для разработки моделей машинного обучения, определяющих . Подборка содержит шумы клапанов, помп и вентиляторов. Более 26 тыс. десятисекундных семплов посвящены аппаратуре, работающей в штатном режиме.

Еще 6 тыс. файлов — это записи машин, функционирующих в неидеальных условиях: без смазки, со сломанными лопастями или поврежденными направляющими.​

Все записи сделаны в формате WAV с частотой дискретизации 16 кГц — их общий вес превышает 150 Гбайт. Примеры можно . Набор распространяют по лицензии .


i-6s41a7aoqmb9cg-bs5p6jg59g.jpeg

[SUP]Фото / Unsplash[/SUP]





Этот свод данных включает тысячу часов английской речи (16 кГц). Его курируют инженеры Васил Панайотов (Vassil Panayotov) и Дэниел Повей (Daniel Povey) из Университета Джонса Хопкинса. Данные взяты из аудиокниг, которые создает некоммерческий проект LibriVox. Их записывают добровольцы, читая тексты, являющиеся общественным достоянием в США — например, из .

Помимо , на сайте можно скачать с записями (это 87 Гбайт) и . Установленная лицензия — CC BY 4.0. Оценить акустические модели, натренированные с помощью этого набора данных, можно на .





Бесплатная коллекция аудиопризнаков и метаданных для миллиона популярных треков. В ней нет самих аудиозаписей, однако оригинальные дорожки можно «подтянуть», , предоставленный разработчиками. Ими выступили инженеры из Национального научного фонда США, отвечающего за развитие науки и технологий в стране. Одной из первых данные для датасета предоставила аналитическая платформа The Echo Nest, которой с 2014 года Spotify. Свой вклад также внесли Last.fm, Musixmatch и SecondHandSongs.

Вся база около 300 Гбайт. Но авторы предлагают небольшую из 10 тыс. композиций — это 1,8 Гбайт. Все они разделены на категории, среди которых : исполнителя, жанр, дату релиза, настроение и другие.


Больше подборок в нашем «Мире Hi-Fi»:

1osf72wkwrjhzpl2bwl5hcmwnbq.png

1osf72wkwrjhzpl2bwl5hcmwnbq.png

1osf72wkwrjhzpl2bwl5hcmwnbq.png



До 5 апреля мы на ряд товаров. Это — отличная возможность приобрести гаджет, который вы давно для себя присматривали. Например, акустику или «вертушку» до 25 тыс. руб.:

  • [17 150] — обзор What Hi-Fi: « »
  • [24 990] — обзор Stereo: « »

P.S. Указанные цены актуальны только на дату размещения публикации. Сверяйтесь с официальным , чтобы выбрать подходящий по вкусу аудиогаджет.
 
Сверху Снизу