Alvaros
.
- Регистрация
- 14.05.16
- Сообщения
- 21.452
- Реакции
- 101
- Репутация
- 204
Всем привет! Я веб-разработчик и вот уже несколько лет интересуюсь машинным обучением. Поскольку в повседневной рабочей парктике мне приходится решать менее интересные для меня задачи, не связанные с машинным обучением, время от времени я забываю то, о чем когда-то читал или использовал. Чтобы составить памятку для себя, укрепить свои знания и поделиться ими с окружающими, я решил написать этот цикл статей по машинному обучению. Начну с предварительной обработки данных.
В этой статье я расскажу о том, какие проблемы случаются с данными, как их решать, а также про наиболее часто используемые методы подготовки данных перед тем как их "скармливать" разным моделям.
Пропуски
Рассмотрим набор данных следующего вида. Я его честно придумал и далее в рамках этой статьи буду ссылаться на него.
В этой статье я расскажу о том, какие проблемы случаются с данными, как их решать, а также про наиболее часто используемые методы подготовки данных перед тем как их "скармливать" разным моделям.
Пропуски
Рассмотрим набор данных следующего вида. Я его честно придумал и далее в рамках этой статьи буду ссылаться на него.
| ID | Имя | Спортивная дисциплина | Страна | Год рождения спортсмена | Вес спортсмена | Медаль |
|---|---|---|---|---|---|---|
1 | Иван | Академическая гребля | Российская Федерация | 1985 | 265 | B |
2 | Бокс | Великобритания | 1986 | 54 | S |



