Пошаговое руководство по полному изучению Data Science путем выполнения проектов

Пошаговое руководство по полному изучению Data Science путем выполнения проектов

На рынке труда в области науки о данных (Data Science) высокая конкуренция. Неважно, изучаете ли вы науку о данных на магистерской программе или занимаетесь самообучением. Чтобы выделиться, вам обязательно нужно иметь практический опыт.

Самый эффективный способ освоить науку о данных – это обучение в ходе выполнения проектов. Это позволяет решать некоторые реальные задачи, которые возникают в повседневной работе специалиста по анализу данных. В итоге вы изучите концепции, их реализацию и решение проблем. Самое главное – это помогает создать потрясающее портфолио в процессе изучения Data Science.

Чтобы стать готовым к работе, необходимо получить практические знания о следующем:

  1. Сбор и очистка данных.
  2. Извлечение инсайтов.
  3. Алгоритмы машинного обучения.
  4. Улучшение коммуникативных навыков и презентации проектов.

Рассмотрим каждый пункт подробнее.

1. Сбор и очистка данных

Одна из основных проблем, возникающих при изучении науки о данных по учебной программе, заключается в том, что она не знакомит вас с реальными проблемами. В большинстве учебных сред предоставляемые данные будут достаточно чистыми (обработанными и приведенными к единому формату), чтобы их можно было использовать напрямую. Наборы данных Kaggle тоже в основном чистые или, по крайней мере, отформатированы для прямого использования. В реальности специалист по исследованию данных тратит несколько дней на сбор данных из разных источников. Затем объединяет их для создания одного основного набора данных. Такие данные будут иметь проблемы с качеством и согласованностью.

Таким образом, лучшим способом освоения практических навыков сбора и очистки данных – сбор собственных наборов данных. Данные есть везде. Вам просто нужно найти интересную проблему. Ниже представлены некоторые примеры проектных идей.

Проект 1 – Влияние погоды и уровня вакцинации на ежедневные случаи заболевания Covid-19

Данные, необходимые для анализа:

  • Погодные данные – температура, количество осадков, влажность и т.д.
  • Ежедневный уровень вакцинации.
  • Общее количество инфицированных людей.
  • Ежедневное количество случаев заболевания Covid-19.

Получаемые навыки:

  • Сбор данных с помощью веб-скрейпинга.
  • Объединение различных собранных наборов данных.
  • Очистка и форматирование данных.

Проект 2 — Анализ фильмов на IMDB

Сложность этого проекта заключается в том, что он требует извлечения данных из большого количества страниц.

Объединение этого набора данных с данными из социальных сетей может привести к некоторым интересным инсайтам. Инсайт – это ценная информация, полученная с помощью анализа. Данные из социальных сетей могут включать информацию о фанатах фильмов и социальном влиянии главных героев. Это поможет сделать вашу работу уникальной и интересной.

Получаемые навыки:

  • Работа с недостающими данными.
  • Преобразование данных для приведения их в соответствие.
  • Объединение данных, собранных из разных источников.

2. Извлечение инсайтов

Данные, собранные на предыдущем этапе, могут быть использованы для дальнейшей работы. Для начала необходимо разработать ряд вопросов или гипотез. Затем нужно обратить внимание на инсайты и проверить взаимосвязь между атрибутами. В первом проекте целью было понять влияние погоды и уровня вакцинации на ежедневные случаи заболевания ковидными заболеваниями. Во втором проекте нет заранее определенных подходов. Все зависит от творческого подхода человека, работающего над ним. Ваш фокус для второго набора данных может быть направлен на понимание закономерностей успешного/неуспешного фильма, влияния присутствия в фильме популярного актера/актрисы, популярных жанров, идеальной продолжительности фильма и т.д.

Для проведения всестороннего анализа данных необходимо следовать приведенным ниже инструкциям:

  • Шаг 1 – Сформулируйте вопросы.
  • Шаг 2 – Найдите закономерности.
  • Шаг 3 – Выстройте нарратив.

Давайте рассмотрим их подробнее ниже.

Сформулируйте вопросы

Всегда начинайте с постановки дополнительных вопросов о наборе данных. Ключевым моментом здесь является наилучшее понимание проблемы. Многие проекты в области Data Science терпят неудачу из-за недостаточной сосредоточенности на фактической первопричине.

Ищите закономерности

Используйте различные методы анализа и визуализации, чтобы извлечь закономерности из набора данных. Изначально анализ должен проводиться на основе сформулированных вопросов, а также данных из других источников. Однако непредвзятость поможет выявить интересные инсайты. Всегда можно найти закономерности, противоречащие нашим ожиданиям.

Обратите внимание на взаимосвязь между атрибутами и на то, как один влияет на другой. Это поможет отобрать атрибуты для модели машинного обучения. Кроме того, сосредоточьтесь на работе с атрибутами, которые содержат много шума, включая пропущенные значения. Шум – это значение случайной ошибки в наборе данных.

Выстройте нарратив

Теперь пришло время отобрать интересные выводы и продумать нарратив. Нарратив (повествование) – это скорее связующий фактор, который помогает изложить выводы в последовательности, наиболее понятной для аудитории. Многие важные идеи и выводы будут потеряны, если их не «упаковать» в хорошее повествование. Например, если вы работаете над проблемой оттока клиентов, то изложение может быть организовано следующим образом:

  • Сколько клиентов уходит за месяц?
  • Каков уровень оттока в отрасли?
  • Каков общий профиль клиентов?
  • Кто является оттоком? Группировать их по типам профиля?
  • Каковы потери доходов в различных типах профилей?
  • Определите сегменты, имеющие наибольшую важность.
  • Исключите тех, кто ушел по истинной причине, которую невозможно остановить.
  • Топ-10 причин оттока остальных.
  • Как это можно исправить? Рекомендации?

Хороший нарратив помогает четко передать результаты анализа. Успех проекта по науке о данных заключается в том, какую ценность он представляет для бизнеса. Если бизнес-команда не видит никаких действенных идей, то проект считается неудачным. Поэтому составление хорошего нарратива так же важно, как и проведение тщательного анализа.

3. Алгоритмы машинного обучения

При изучении различных алгоритмов машинного обучения нужно обращать внимание на следующие:

  • контролируемое обучение;
  • неконтролируемое обучение;
  • нейролингвистическое программирование;
  • проблема компьютерного зрения;
  • рекомендательные системы.

Контролируемое обучение

Когда есть маркированный набор данных, нужно использовать контролируемое обучение для их решения. Основные категории контролируемого обучения – регрессия и классификация.

Цель обучения на практике – получить как можно больше практических навыков для лучшего понимания. Решайте задачи на различных наборах данных. Чтобы сделать это еще лучше, убедитесь, что вы потратили достаточно времени на чтение дискуссионных форумов kaggle. Дискуссионные форумы – это золотая жила информации. Там есть много интересных методик и советов, как лучше решать задачи.

Чтобы повысить свою обучаемость и увеличить шансы на получение работы, следуйте приведенным ниже инструкциям:

  • Начните с анализа набора данных.
  • Выявите интересные закономерности и инсайты.
  • Поймите взаимосвязь между независимыми переменными и целью.
  • Изучите построение признаков (feature engineering).
  • Попробуйте различные модели для прогнозирования.
  • Измерьте точность.
  • Уточните, пробуя различные функции, алгоритмы и настройки параметров.
  • Загрузите код в свой Git-репозиторий.
  • Напишите блог и/или загрузите свой блокнот на Kaggle с подробной информацией.

Регрессионная задача: Набор данных, связанный с этой задачей, представляет собой цену на жилье. Это поможет вам узнать о проблемах регрессии и алгоритмах, используемых для их решения. Данный набор данных содержит более 75 атрибутов, описывающих недвижимость, что поможет вам получить представление о выборе признаков и других типичных вопросах при решении задач регрессии.

Проблема классификации: Проблемы классификации – это проблемы, в которых нужно классифицировать данные. Например, медицинская страховая компания хочет предсказать интерес своих клиентов к страхованию транспортных средств. Как и при решении задач регрессии, всегда начинайте с анализа набора данных. Чем лучше человек понимает данные, тем лучше результаты прогнозирования.

Приведенные выше задачи можно найти на Kaggle. При их решении сосредоточьтесь на следующем:

  • Изучите различные методы анализов данных.
  • Изучите методы разработки признаков.
  • Постарайтесь понять, какой алгоритм хорошо работает с тем или иным типом данных.
  • Четко документируйте скрипты и размещайте их в своем Git-репозитории.
  • Пишите статьи в блоге о том, чему вы научились – поверьте, это очень помогает.

Неконтролируемое обучение

Неконтролируемое обучение используется для работы с неразмеченным набором данных. Например, когда мы хотим использовать информацию о профиле клиентов, чтобы сгруппировать их по различным категориям. Подход к решению проблемы неконтролируемого обучения и контролируемого обучения аналогичен. Всегда начинайте с анализа данных.

Познакомимся с алгоритмами кластеризации на примере задачи сегментации клиентов Mall. Речь идет о создании различных кластеров покупателей на основе предоставленной информации. Не надо останавливаться, как только кластеры определены. Можно продолжить анализ, чтобы понять сходство внутри кластера и несходство между кластерами.

Теперь давайте увеличим масштаб и будем решать данные датчиков. Это поможет научиться работать с данными, производимыми устройствами IoT. Обрабатывать и понимать человекочитаемые данные, такие как данные профиля клиента, проще. Сенсорные данные обычно сложны, поскольку требуют гораздо более тщательного анализа для извлечения инсайтов. При непосредственном изучении набора данных эти инсайты обычно не видны.

В процессе обучения основное внимание следует уделить следующим областям:

  • Понимание различных алгоритмов.
  • Сравнение эффективности алгоритмов в зависимости от данных.
  • Преобразование данных в соответствии с требованиями алгоритма.
  • Визуализации, помогающие сравнивать кластеры.

Нейролингвистическое программирование

Также следует обратить внимание на обработку естественного языка. В социальных сетях и на других онлайн-платформах генерируется все больше данных. Многие компании начинают ориентироваться на эти данные, поскольку они содержат много жизненно важной информации.

Проблемы с текстовыми данными значительно отличаются от проблем структурированных данных. Для их решения требуются различные наборы методов и подходов. При работе сосредоточьтесь на следующих вопросах:

  • Техники и методы очистки данных.
  • Устранение стоп-слов и других слов, которые не представляют интереса.
  • Обработка шума в наборе данных.
  • Библиотеки, используемые для извлечения тональности.

Проблема компьютерного зрения

Последние достижения в области вычислительной мощности сделали возможным распознавание изображений. Компьютерное зрение находит все большее применение в следующем:

  • здравоохранение;
  • безопасность и наблюдение;
  • инспекция и профилактическое обслуживание;
  • автономное вождение.

При работе над приложениями компьютерного зрения сосредоточьтесь на следующем:

  • Методы оптимизации размера изображения без потери информации.
  • Инструменты и фреймворки, которые помогают в компьютерном зрении.
  • Методы дополнения, когда недостаточно данных изображения.
  • Наличие предварительно обученных моделей для лучшего предсказания.

Рекомендательные системы

Рекомендательные системы – это очень интересная техника, которая пользуется популярностью в бизнесе. Этот метод помог многим организациям улучшить продажи и повысить качество обслуживания клиентов. Согласно отраслевому отчету McKinsey, около 35% продаж в Amazon происходит благодаря рекомендательной системе. Кроме того, 75% людей смотрят контент, рекомендованный им на Netflix.

4. Улучшение коммуникативных навыков и презентации проектов

Вести блог и иметь git-репозиторий

Хороший способ сделать так, чтобы полученные знания остались с вами надолго, — это писать о них. Это также помогает завоевать доверие к себе. В сфере науки о данных растет конкуренция, поэтому наличие блога может помочь вам выделиться. Убедитесь, что хотя бы некоторые проекты, которые вы хотели бы показать в своем резюме, доступны в вашем git-репозитории.

Создайте сайт-портфолио

Наличие веб-сайта портфолио дает представление о ваших навыках. Сайт-портфолио своего рода онлайн-версия резюме. Включите в него все свои работы и достижения.

Создайте действительно хорошее резюме

Последний шаг – это создание впечатляющего резюме. Объем знаний, полученных вами до сих пор, мало что значит без хорошего резюме. Существуют некоторые инструменты и техники, позволяющие составить впечатляющее резюме.

Заключительный комментарий

Этих проектов будет достаточно, чтобы полностью освоить важнейшие навыки, необходимые для специалиста по анализу данных. Очень важно, чтобы вы сами работали над ними, чтобы получить максимум знаний. Практический опыт, который вы получите, поможет укрепить вашу уверенность и лучше проявить себя на собеседовании. Знания, полученные в процессе практической работы, в несколько раз превосходят знания, полученные при чтении или просмотре учебников. Кроме того, они надолго остаются в памяти.

Записаться на консультацию
Остались вопросы? Разберем бесплатно простую задачу или проведем консультацию (Посмотреть пример)
Поделится:

Добавить комментарий

Ваш адрес email не будет опубликован.

Вам также может быть интересно:

Аналитика
Апр 7, 2022

RFM-анализ с помощью Python