Функция заполнения в Pandas

Абсолютное руководство по компьютерам и программированию для новичков Программирование и разработка

Обработка недостающих данных — неотъемлемый компонент любой стратегии обработки данных. Общие способы обработки отсутствующих данных включают игнорирование отсутствующих значений, удаление записей с отсутствующими записями и заполнение отсутствующих данных. В этом уроке мы рассмотрим функцию Pandas «DataFrame.ffill ()» для заполнения недостающих данных.

Метод Pandas ffill()

Метод pandas ffill() позволяет нам заполнить значение NaN во фрейме данных. Ffill означает перенаправление заполнения, что означает, что нулевые значения заменяются данными из предыдущего столбца или строки.

Синтаксис использования этого метода приведен здесь:

Синтаксис использования этого метода приведен

«Ось» — это ось, вдоль которой заполняются значения NaN. Его значение по умолчанию равно 0. Этот параметр будет использоваться в наших примерах здесь.

С помощью примеров программного кода Python мы рассмотрим, как использовать «ffill()» для пересылки пропущенных значений во всех столбцах фрейма данных pandas в этой статье.

Пример 1: Использование метода ffill() для заполнения значений вдоль строк

На этой иллюстрации вы увидите, как мы будем заполнять значения NaN во фрейме данных вдоль оси индекса с помощью метода «ffill()».

Практическая реализация любой программы начинается с выбора соответствующего инструмента исполнения. Для этого урока мы выбрали инструмент «Spyder», чтобы применить на практике пример скрипта Python. Загрузка библиотеки Pandas в наш файл Python позволит нам использовать все функции, предоставляемые Pandas. «pd» будет использоваться в коде везде, где нам нужно использовать «pandas» в качестве псевдонима.

Вторая часть кода содержит две операции; чтобы создать фрейм данных с некоторыми значениями NaN, используя метод pandas «pd.DataFrame ()», а затем заполнить эти значения NaN с помощью функции pandas «ffill ()». Взяв в свои руки первую операцию, которая заключается в создании фрейма данных с некоторыми значениями NaN, мы вызвали здесь метод pandas «pd.DataFrame ()». Этот метод создаст фрейм данных с указанными значениями или файл CSV.

Здесь мы создаем фрейм данных с пользовательскими данными вместо импорта CSV-файла. Фрейм данных инициализируется четырьмя столбцами с названиями, как указано выше: «Зеленый», «Белый», «Коричневый» и «Оранжевый». Длина каждого столбца, который мы здесь создали, равна четырем. Мы должны сделать все столбцы одинакового размера для фрейма данных. Наш первый столбец фрейма данных, «Зеленый», содержит значения «7», «1», «Нет» и «3». Столбец «Белый» содержит записи «7», «2», «1» и «9». Столбец «Коричневый» содержит значения «2», «6», «8» и «Нет», тогда как в столбце «Оранжевый» хранятся значения «Нет», «6», «9» и «2».

Чтобы сохранить этот фрейм данных, нам нужен объект фрейма данных. Поэтому мы создали его с именем «визуальный» и сделали его для хранения фрейма данных, который мы создали из метода «pd.DataFrame()». Теперь, чтобы отобразить этот фрейм данных, мы просто сохранили его в «визуальном» объекте фрейма данных, который мы назвали методом программирования Python «print()».

Чтобы сохранить этот фрейм данных, нам нужен объект фрейма

Когда мы выполняем этот скрипт Python, о котором мы подробно рассказали выше, нажав кнопку «Выполнить файл», на консоли отображается кадр данных из четырех столбцов. Здесь вы можете видеть, что этот фрейм данных имеет три значения NaN.

Когда мы выполняем этот скрипт Python, о котором мы подробно

Мы завершили первую операцию генерации фрейма данных. Теперь мы перейдем к другой части, которая должна заполнить эти значения NaN. Мы сделаем это, используя метод «заполнения» Pandas.

Мы вызвали «DataFrame.ffill ()», чтобы заполнить все значения NaN в нашем фрейме данных. Мы предоставили имя нашего фрейма данных, который мы только что создали над «визуальным» с помощью метода «.fill ()». В скобках этой функции используется параметр «ось». Мы установили его на «0», что представляет ось строки или индекса. Потому что мы использовали метод fill () для заполнения значений NaN вдоль оси строки для этой иллюстрации. Итак, мы написали все это как «visual.ffill (ось = 0)», а затем поместили это в метод «print ()», чтобы распечатать фрейм данных с заполненными значениями NaN вдоль оси строки.

чтобы заполнить все значения NaN в нашем фрейме данных

Вот кадр выходных данных. Каждое значение NaN заполняется с использованием соответствующего значения из предыдущей строки, когда ffill() выполняется по оси индекса или строки. Вы заметили, что записи в самой первой строке по-прежнему являются значениями NaN, потому что над ней нет строки, из которой распространялись бы значения, отличные от NA. Все остальные значения NaN успешно заменяются путем копирования в него соответствующих значений строки.

Вот кадр выходных данных. Каждое значение NaN

Пример 2: Использование метода ffill() для заполнения значений по столбцам

Эта иллюстрация расскажет вам, как заполнить значения NaN во фрейме данных вдоль оси столбца, используя метод pandas «fill ()». Давайте начнем работать над этой техникой.

Мы запустили инструмент «Spyder» и начали писать код на Python. Во-первых, нам нужно получить пререквизит для программы, которая загружает библиотеку Pandas. Нам нужно импортировать эту библиотеку в файл Python, потому что на этой иллюстрации мы собираемся использовать методы pandas «pd.DataFrame()» и «DataFrame.ffill()», которые можно использовать только в том случае, если у нас есть доступ к этой библиотеке.

Мы должны сгенерировать фрейм данных, используя метод Pandas «pd.DataFrame ()». Метод вызывается и инициализируется четырьмя столбцами: «P1», «P2», «P3» и «P4». Первый столбец здесь «P1» имеет значения «1», «12», «7», «4» и «Нет». Записи «P2»: «13», «9», «Нет», «4» и «3». «P3» имеет записи «Нет», «14», «1», «8» и «7». В «P4» сохранены значения «11», «3», «16», «8» и «Нет». Мы сохранили этот фрейм данных в объекте фрейма данных «score». Теперь, чтобы отобразить этот кадр данных на консоли, мы вызвали метод «print ()».

Мы должны сгенерировать фрейм данных, используя метод Pandas

Этот фрагмент кода выполняется для просмотра созданного фрейма данных. Здесь вы можете заметить, что фрейм данных имеет четыре столбца, и в каждом столбце мы нашли значение NaN. В целом у нас есть четыре нулевых записи во фрейме данных.

Этот фрагмент кода выполняется для просмотра созданного

Чтобы заполнить эти нулевые значения вдоль оси столбца во фрейме данных, мы использовали метод pandas «DataFrame.ffill ()». Мы вызвали функцию «DataFrame.ffill()». Здесь мы использовали его с параметром «ось» и установили его в «1», что относится к оси столбца, потому что мы заполняем нулевые значения вдоль столбцов для этой демонстрации. Вся строка скрипта записывается как «score.ffill(axis=1)», а затем, для необходимости показать этот результирующий заполненный фрейм данных на консоли, мы поместили эту функцию между фигурными скобками метода «print()» и вызвали ее.

Чтобы заполнить эти нулевые значения вдоль оси столбца во

Это дает нам кадр данных, показанный ниже. Как видите, значение первого столбца равно NaN, так как не осталось столбца, чтобы заполнить его значением из предыдущего столбца по оси столбца.

Как видите, значение первого столбца равно NaN, так как не осталось столбца

Заключение

Работа с фреймами данных и обработка нулевых значений в них является основной и фундаментальной потребностью в процессах анализа данных. В этом руководстве мы узнали, что Pandas предоставляет метод «DataFrame.ffill ()» для заполнения записей NaN во фрейме данных. Мы познакомили вас с двумя методами заполнения фрейма данных. Каждая стратегия проработана на практически реализованных примерах python-скриптов, выполненных с помощью инструмента «Spyder». Вы можете использовать каждую технику в соответствии с вашими потребностями.

Читайте также:  Как определить конструктор вне класса в C++?
Оцените статью
bestprogrammer.ru
Добавить комментарий