Машинное обучение: карманный справочник. Краткое руководство по методам структурированного машинного обучения

Есть в наличии
330,00 ₴
Оформить заказ в 1 клик
  • ДоступностьЕсть в наличии
  • Колличество страниц320
  • Формат145x215
  • НовинкаНет
  • ISBN978-617-7812-71-4
  • EAN9786177812714
  • Специальное предложениеНет

Мэтт Харрисон (Matt Harrison) - корпоративный тренер, консультант и автор. Имеет степень по информатике, которую получил в Стэнфорде. Много преподавал и выступал на конференциях, работал с различными стартапами.

Его хобби – фрисби, садоводство и активный отдых (катание на лыжах, бег, походы, скалолазание, езда на велосипеде).

Харрисон руководит компанией MetaSnake, занимающейся обучением языку Python и науке о данных, а также оказывающей консалтинговые услуги. Он использует язык Python с 2000 года в самых разных областях: в науке о данных, бизнес-аналитике, хранении, тестировании и автоматизации, управлении стеками программ с открытым исходным кодом, финансах и поиске.

Основные темы книги

  • Классификация с использованием набора данных Titanic 
  • Как очистить данные и справиться с их недостатком 
  • Разведочный анализ данных 
  • Общие этапы предварительной обработки с использованием выборки данных 
  • Выбор признаков, полезных для модели 
  • Выбор модели 
  • Оценка метрики и классификации 
  • Примеры регрессии с использованием нескольких методов машинного обучения 
  • Метрики для оценки регрессии 
  • Кластеризация 
  • Уменьшение размерности 
  • Конвейеры Scikit-learn.

Введение

Машинное обучение и наука о данных сейчас очень популярны и являются сложными темами. Я работал с языком Python и данными большую часть своей профессиональной деятельности и хотел бы получить бумажную книгу, в которой можно было бы ознакомиться с общими методами, которые я использовал в деле и преподавал на семинарах по решению задач структурированного машинного обучения.

Я считаю, что эта книга — наилучший сборник ресурсов и примеров для решения задач прогнозирующего моделирования, если у вас есть структурированные данные. Есть много библиотек, которые выполняют часть требуемых задач, и я попытался включить в книгу те из них, которые мне показались полезными, поскольку я применял их на практике.

Многие могут посетовать на отсутствие методов глубокого обучения. Для это есть отдельные книги. Я также предпочитаю более простые методы, и другие специалисты в отрасли, кажется, со мной согласны. Глубокое обучение предназначено для неструктурированных данных (видео, аудио, изображений), а для структурированных есть такие мощные инструменты, как XGBoost.

"Я надеюсь, что эта книга послужит вам полезным справочным материалом для решения насущных проблем."

Чего ожидать

В этой книге приведены подробные примеры решения общих задач структурированных данных. В ней рассматриваются различные библиотеки и модели, их компромиссы, настройка и интерпретация. Приведенные фрагменты кода имеют такой размер, чтобы их можно было использовать и адаптировать в ваших соб- ственных проектах.

Для кого написана эта книга

В этой книге приведены подробные примеры решения общих задач структурированных данных. В ней рассматриваются различные библиотеки и модели, их компромиссы, настройка и интерпретация. Приведенные фрагменты кода имеют такой размер, чтобы их можно было использовать и адаптировать в ваших собственных проектах.

ГЛАВА 8. Выбор признаков

Мы используем выбор признаков (feature selection) для отбора тех признаков, которые полезны для модели. Нерелевантные признаки могут оказать негативное влияние на модель. Коррелированные признаки могут сделать коэффициенты регрессии (или важность признаков в древовидных моделях) нестабильными или трудными для интерпретации. Проклятие размерности (curse of dimensionality) — это еще одна проблема, которую стоит рассмотреть. По мере увеличения количества размерностей ваших данных они становятся все более и более разреженными. Это может затруднить получение сигнала, если у вас нет больше данных. По мере добавления размерностей вычисления соседей, как правило, теряют свою полезность. Кроме того, время обучения обычно зависит от количества столбцов (и иногда оно даже хуже линейного). Обеспечив краткость и точность своих столбцов, вы можете получить лучшую модель за меньшее время. Мы рассмотрим несколько примеров, используя набор данных agg_df из предыдущей главы. Помните, что это набор данных Titanic с некоторыми дополнительными столбцами с информацией о каюте. Поскольку этот набор данных агрегирует числовые значения для каждой каюты, он покажет много корреляций. К другим вариантам относятся PCA и поиск древовидного классификатора .feature_importances_...

Напишите ваш собственный отзыв
Только зарегистрированные пользователи могут оставлять отзывы. Пожалкйста авторизуйтесь или создайте аккаунт
Лучшие предложения по теме