Наука о данных за 5 минут: что такое очистка данных?

Наука о данных за 5 минут Изучение

При работе с данными ваш анализ и понимание настолько хороши, насколько хороши данные, которые вы используете. Если вы выполняете анализ данных с грязными данными, ваша организация не сможет принимать эффективные и действенные решения с этими данными. Очистка данных — важная часть управления данными, которая позволяет вам убедиться, что у вас есть данные высокого качества.

Очистка данных включает в себя больше, чем просто исправление орфографических или синтаксических ошибок. Это фундаментальный аспект аналитики науки о данных и важный метод машинного обучения. Сегодня мы узнаем больше об очистке данных, ее преимуществах, проблемах, которые могут возникнуть с вашими данными, и следующих шагах для вашего обучения.

Что такое очистка науки о данных?

Очистка данных, или очистка данных, является важным процессом исправления или удаления неправильных, неполных или повторяющихся данных в наборе данных. Очистка данных должна быть первым шагом в вашем рабочем процессе. При работе с большими наборами данных и объединении различных источников данных существует большая вероятность дублирования или неправильной маркировки данных. Если у вас есть неточные или неверные данные, они потеряют свое качество, а ваши алгоритмы и результаты станут ненадежными.

Очистка данных отличается от преобразования данных, потому что вы фактически удаляете данные, которых нет в вашем наборе данных. С преобразованием данных вы меняете свои данные в другой формат или структуру. Процессы преобразования данных иногда называют обработкой данных или изменением данных. Сегодня мы сосредоточимся на процессе очистки данных.

Итак, как мне узнать, чисты ли мои данные?

Чтобы определить качество данных, вы можете изучить их особенности и взвесить их в соответствии с тем, что важно для вашей организации и вашего проекта. При оценке данных следует обратить внимание на пять основных характеристик:

  1. Согласованность: согласованы ли ваши данные во всех наборах данных?
  2. Точность: близки ли ваши данные к истинным значениям?
  3. Полнота: включают ли ваши данные всю необходимую информацию?
  4. Срок действия: соответствуют ли ваши данные бизнес-правилам и / или ограничениям?
  5. Единообразие: указаны ли ваши данные с использованием согласованных единиц измерения? Теперь, когда мы знаем, как распознавать высококачественные данные, давайте глубже погрузимся в процесс очистки науки о данных, почему это важно и как делать это эффективно.
Читайте также:  Тензоры в Pytorch

Преимущества и шаги очистки данных

Давайте обсудим некоторые шаги по очистке, которые вы можете предпринять, чтобы убедиться, что вы работаете с высококачественными данными. Специалисты по обработке данных тратят много времени на очистку данных, потому что, как только их данные станут чистыми, гораздо проще выполнять анализ данных и строить модели.

Сначала мы обсудим некоторые проблемы, с которыми вы можете столкнуться с вашими данными, и что с ними делать.

Обработка недостающих данных

Для больших наборов данных часто встречаются пропущенные значения. Возможно, человек, записывающий данные, забыл их ввести, или, может быть, он начал собирать эти отсутствующие переменные данных на поздних этапах процесса сбора данных. Несмотря ни на что, перед работой с наборами данных следует обработать недостающие данные.

Фильтрация нежелательных выбросов

Выбросы содержат важную информацию о ваших данных, но в то же время отвлекают вас от основной группы. Хорошая идея — исследовать ваши данные с выбросами и без них. Если вы обнаружите, что хотите их использовать, обязательно выберите надежный метод, который сможет справиться с вашими выбросами. Если вы решите не использовать их, вы можете просто отказаться от них.

Вы также можете отфильтровать нежелательные выбросы, используя этот метод:

# Get the 98th and 2nd percentile as the limits of our outliers
upper_limit = np.percentile(train_df.logerror.values, 98)
lower_limit = np.percentile(train_df.logerror.values, 2)
# Filter the outliers from the dataframe
data[‘target’].loc[train_df[‘target’]>upper_limit] = upper_limit
data[‘target’].loc[train_df[‘target’]<lower_limit] = lower_limit

Стандартизация ваших данных

Данные в переменных вашей функции должны быть стандартизированы. Это значительно упрощает изучение и моделирование ваших данных. Например, давайте посмотрим на два значения, которые мы назовем «собака» и «кошка», которые находятся в переменной «животное». Если вы собирали данные, вы можете получить другие значения данных, которые вы не ожидали, например:

  • DOG, CAT (вводятся заглавными буквами)
  • Dog, Cat (вводятся с заглавной буквы)
  • dof, cart (введено опечатками)

Если бы мы преобразовали переменную функции в категориальные числа с плавающей запятой, мы не получили бы нужные нам значения 0 и 1, мы получили бы что-то вроде этого:

{
   ‘dog’: 0,
   ‘cat’: 1,
   ‘DOG’: 2,
   ‘CAT’: 3,
   ‘Dog’: 4,
   ‘Cat’: 5,
   ‘dof’: 6,
   ‘cart’: 7
}

Чтобы эффективно решать проблемы с заглавными буквами и стандартизировать данные, вы можете сделать что-то вроде этого:

# Make the string lowercase
s.lower()
# Make the first letter capitalized
s.capitalize()

Если есть проблема с опечатками, вы можете использовать функцию сопоставления:

value_map = {‘dof’: ‘dog’, ‘cart’: ‘cat’}
pd_dataframe[‘animals’].map(value_map)

Примечание. Еще один способ справиться с опечатками — это выполнить проверку орфографии и грамматики в Microsoft Excel.

Удаление нежелательных наблюдений

Иногда у вас могут быть какие-то нерелевантные данные, которые следует удалить. Допустим, вы хотите спрогнозировать продажи журнала. Вы изучаете набор данных журналов, заказанных на Amazon за последний год, и замечаете функциональную переменную под названием «font-type», которая отмечает, какой шрифт был использован в книге.

Читайте также:  4 лучших дистрибутива Linux, которые помогут вам сохранить анонимность

Это довольно несущественная функция, и она, вероятно, не поможет вам спрогнозировать продажи журнала. Эту функцию можно было бы отбросить следующим образом:

df.drop(‘feature_variable_name’, axis=1)

Удаление этих нежелательных наблюдений не только упрощает исследование данных, но и помогает обучить вашу модель машинного обучения.

Удаление грязных данных и дублирования

Грязные данные включают в себя любые точки данных, которые неверны или их просто не должно быть. Дубликаты возникают, когда точки данных повторяются в вашем наборе данных. Если у вас много дубликатов, это может помешать обучению вашей модели машинного обучения.

Для обработки грязных данных вы можете либо отбросить их, либо использовать замену (например, преобразование неправильных точек данных в правильные). Чтобы справиться с проблемами дублирования, вы можете просто удалить их из своих данных.

Удаление пустых данных

Очевидно, вы не можете использовать пустые данные для анализа данных. Пустые данные — серьезная проблема для аналитиков, поскольку они ухудшают качество данных. В идеале вы должны удалить пустые данные на этапе сбора данных, но вы также можете написать программу, которая сделает это за вас.

Устранение пробелов

Пробелы — небольшая, но распространенная проблема во многих структурах данных. Функция ОБРЕЗАТЬ поможет вам удалить пустое пространство.

Примечание. Функция ОБРЕЗАТЬ относится к текстовым функциям Excel. Это помогает удалить лишние пробелы в данных. Вы можете использовать =TRIM(text)формулу.

Исправление ошибок конвертации

Иногда при экспорте данных числовые значения преобразуются в текст. Метод VALUE — отличный способ решить эту проблему.

Процесс очистки данных кажется трудоемким, но он упрощает работу с данными и позволяет максимально эффективно использовать их. Наличие чистых данных повышает вашу эффективность и гарантирует, что вы работаете с данными высокого качества.

Некоторые преимущества очистки данных включают:

  • Существуют инструменты очистки данных, такие как DemandTools или Oracle Enterprise Data Quality, которые помогают повысить эффективность и ускорить процесс принятия решений.
  • Вы можете лучше отслеживать свои ошибки, чтобы помочь вам устранить неверные, поврежденные или несогласованные данные.
  • В целом вы сделаете меньше ошибок.
  • Вы можете сопоставить различные функции и то, что должны делать ваши данные.
  • Ошибки из нескольких источников данных легко удалить.
  • И т.п.
Оцените статью
bestprogrammer.ru
Добавить комментарий