- Регистрация
- 23.09.18
- Сообщения
- 12.347
- Реакции
- 176
- Репутация
- 0
Небольшой дайджест для тех, кто разрабатывает модели машинного обучения.
Под катом — своды данных с речью, музыкой и шумом промышленных агрегатов.
[SUP]Фото
Этот набор данных курируют инженеры из
AudioSet предлагает три набора:
Данные для скачивания представлены
Инженеры из Hitachi представили базу аудиозаписей со звуками работающего промышленного оборудования. Датасет подойдет для разработки моделей машинного обучения, определяющих
Все записи сделаны в формате WAV с частотой дискретизации 16 кГц — их общий вес превышает 150 Гбайт. Примеры можно
[SUP]Фото
Этот свод данных включает тысячу часов английской речи (16 кГц). Его курируют инженеры Васил Панайотов (Vassil Panayotov) и Дэниел Повей (Daniel Povey) из Университета Джонса Хопкинса. Данные взяты из аудиокниг, которые создает некоммерческий проект LibriVox. Их записывают добровольцы, читая тексты, являющиеся общественным достоянием в США — например, из
Помимо
Бесплатная коллекция аудиопризнаков и метаданных для миллиона популярных треков. В ней нет самих аудиозаписей, однако оригинальные дорожки можно «подтянуть»,
Вся база
Больше подборок в нашем «Мире Hi-Fi»:
До 5 апреля мы
P.S. Указанные цены актуальны только на дату размещения публикации. Сверяйтесь с официальным
Под катом — своды данных с речью, музыкой и шумом промышленных агрегатов.

[SUP]Фото
You must be registered for see links
/ Unsplash[/SUP]
You must be registered for see links
Этот набор данных курируют инженеры из
You must be registered for see links
, являющейся частью Google. В нем собраны более двух миллионов голосовых отрезков из видео на YouTube длительностью до десяти секунд. Все они разбиты на
You must be registered for see links
, которые описывают происходящее в ролике. Вот лишь пара примеров: музыка, смех, храп, взрыв, шум газонокосилки, журчание ручья, лай собаки.AudioSet предлагает три набора:
You must be registered for see links
,
You must be registered for see links
и
You must be registered for see links
. Первый включает 20 383 видеосегмента, которые рассортированы по 527 звуковым классам. В каждом из них приведено минимум 59 роликов. Сбалансированный набор похож на тестовый, за одним исключением — в нем 22 176 сегментов. Что касается несбалансированного, то он содержит все два миллиона семплов без какой-либо сортировки.Данные для скачивания представлены
You must be registered for see links
: как текстовые csv-файлы и как аудиопризнаки, извлеченные из видеороликов сверточной нейросетью. Чтобы выгрузить все видеозаписи, на основе которых собраны данные, можно использовать python-модуль —
You must be registered for see links
. Датасет распространяют по лицензии
You must be registered for see links
. За обновлениями можно следить в группе Google:
You must be registered for see links
.
You must be registered for see links
Инженеры из Hitachi представили базу аудиозаписей со звуками работающего промышленного оборудования. Датасет подойдет для разработки моделей машинного обучения, определяющих
You must be registered for see links
. Подборка содержит шумы клапанов, помп и вентиляторов. Более 26 тыс. десятисекундных семплов посвящены аппаратуре, работающей в штатном режиме. Еще 6 тыс. файлов — это записи машин, функционирующих в неидеальных условиях: без смазки, со сломанными лопастями или поврежденными направляющими.
Все записи сделаны в формате WAV с частотой дискретизации 16 кГц — их общий вес превышает 150 Гбайт. Примеры можно
You must be registered for see links
. Набор распространяют по лицензии
You must be registered for see links
.
[SUP]Фото
You must be registered for see links
/ Unsplash[/SUP]
You must be registered for see links
Этот свод данных включает тысячу часов английской речи (16 кГц). Его курируют инженеры Васил Панайотов (Vassil Panayotov) и Дэниел Повей (Daniel Povey) из Университета Джонса Хопкинса. Данные взяты из аудиокниг, которые создает некоммерческий проект LibriVox. Их записывают добровольцы, читая тексты, являющиеся общественным достоянием в США — например, из
You must be registered for see links
.Помимо
You must be registered for see links
, на сайте можно скачать
You must be registered for see links
с записями (это 87 Гбайт) и
You must be registered for see links
. Установленная лицензия — CC BY 4.0. Оценить акустические модели, натренированные с помощью этого набора данных, можно на
You must be registered for see links
.
You must be registered for see links
Бесплатная коллекция аудиопризнаков и метаданных для миллиона популярных треков. В ней нет самих аудиозаписей, однако оригинальные дорожки можно «подтянуть»,
You must be registered for see links
, предоставленный разработчиками. Ими выступили инженеры из Национального научного фонда США, отвечающего за развитие науки и технологий в стране. Одной из первых данные для датасета предоставила аналитическая платформа The Echo Nest, которой с 2014 года
You must be registered for see links
Spotify. Свой вклад также внесли Last.fm, Musixmatch и SecondHandSongs.Вся база
You must be registered for see links
около 300 Гбайт. Но авторы предлагают небольшую
You must be registered for see links
из 10 тыс. композиций — это 1,8 Гбайт. Все они разделены на категории, среди которых
You must be registered for see links
: исполнителя, жанр, дату релиза, настроение и другие.Больше подборок в нашем «Мире Hi-Fi»:

You must be registered for see links

You must be registered for see links

You must be registered for see links
До 5 апреля мы
You must be registered for see links
на ряд товаров. Это — отличная возможность приобрести гаджет, который вы давно для себя присматривали. Например, акустику или «вертушку» до 25 тыс. руб.:- [17 150]
You must be registered for see links— обзор What Hi-Fi: «You must be registered for see links»
- [24 990]
You must be registered for see links— обзор Stereo: «You must be registered for see links»
P.S. Указанные цены актуальны только на дату размещения публикации. Сверяйтесь с официальным
You must be registered for see links
, чтобы выбрать подходящий по вкусу аудиогаджет.