Pandas Frequency Count

Для создания архитектуры микросервисов разработчики программного Изучение

В этом руководстве по Pandas вы узнаете, как подсчитать количество вхождений данных или значений в столбце. В науке о данных бывают случаи, когда нам нужно определить, как часто определенное значение встречается в определенном столбце DataFrame. Это может произойти, например, когда вы хотите сравнить только небольшой диапазон потенциальных значений. Если вы хотите подсчитать количество повторяющихся или повторяющихся значений в столбце, это еще один пример. Кроме того, нам может потребоваться подсчитать наблюдения, которые составляют фактор, или, например, нам нужно знать долю мужчин и женщин в сборе данных.

Как использовать среднюю функцию Pandas

Нам нужно определить частоту подсчета данных/значений или элементов в одном или нескольких столбцах Pandas DataFrame. Есть несколько способов сделать это. Мы обсудим несколько методов подсчета появления или частоты элементов или значений в столбце DataFrame.

Пример 1. Подсчет частоты столбцов с помощью функции Value_Counts()

Метод value_counts() в Pandas возвращает серию с частотой уникальных значений. Результирующий ряд по умолчанию находится в порядке убывания и лишен каких-либо значений NA. Объект «pandas.Series» подходит для использования с этой функцией (value_counts()). С помощью этого метода можно получить частоту значений в одном столбце, поскольку объекты Pandas DataFrame представляют собой группу объектов Series. Сначала мы должны создать DataFrame, чтобы продемонстрировать этот пример. Функция «pandas.DataFrame()» используется для создания DataFrame. Таким образом, мы должны сначала импортировать пакет Pandas.

Метод value_counts() в Pandas возвращает серию

В функции pd.DataFrame() мы использовали словарь Python для создания нашего DataFrame. Мы присвоили столбцам в нашем DataFrame метки «X» и «Y». Мы отображаем наш DataFrame «df», используя метод print().

Во вновь созданном DataFrame «df» есть два столбца

Во вновь созданном DataFrame «df» есть два столбца — столбец «X» хранит целые значения (1, 1, 4, 3, 5, 1, 4, 3, 5, 4), а столбец «Y» хранит строковые значения («q», «r», «t», «q», «q», «t», «r», «q», «t», «r»). Вы можете заметить, что в данных обоих столбцов есть повторение. Мы можем использовать функцию value_counts() для вычисления частоты данных в определенном столбце. Подсчитаем частоту данных в столбце «Y».

Читайте также:  6 лучших Python IDE для Linux

есть два столбца — столбец «X» хранит целые значения

Функция вернула серию с количеством различных значений. Значение «q» встречается 4 раза, а значения «r» и «t» встречаются 3 раза в столбце «y». Давайте также подсчитаем уникальные значения в столбце X.

Функция вернула серию с количеством различных значени

Видно, что значения «1» и «4» встречаются в столбце «X» 3 раза, а значения «3» и «5» встречаются 2 раза.

Пример 2. Подсчет частоты столбцов с помощью функции GroupBy.Counts()

В этом примере мы группируем строки по столбцам с помощью функции Pandas DataFrame.groupby() и используем метод count() для определения количества различных значений для каждой группы, игнорируя значения None и NaN. Давайте сначала создадим DataFrame, где мы применим функцию groupby.counts().

В этом примере мы группируем строки по столбцам с помощью

Мы использовали словарь Pandas для создания нашего DataFrame после импорта модуля Pandas. Имена наших столбцов указаны как «col1» и «col2».

Мы использовали словарь Pandas для создания нашего DataFrame

В столбце «col1» у нас есть целые данные (8, 6, 5, 8, 8, 7, 7, 9, 5, 7). В столбце «col2» у нас есть строковые данные («мальчик», «мальчик», «девочка», «мальчик», «мальчик», «девочка», «девочка», «девочка», «мальчик», » мальчик«). Теперь мы применяем функцию groupby.counts() для вычисления частоты значений в каждом столбце.

В столбце «col1» у нас есть целые данные (8, 6, 5, 8, 8, 7, 7, 9, 5, 7)

Для проведения расчетов мы разделили данные на различные группы с помощью функции groupby(). Затем применяется функция count() для подсчета частот различных значений в указанном столбце DataFrame. Значение «5» встречается 2 раза. Значения «6» и «9» встречаются один раз. Тогда как значения «7» и «8» встречаются 2 раза в столбце «col1». Теперь давайте применим функцию groupby.count() к столбцу «col2».

Для проведения расчетов мы разделили данные на различные группы с помощью фу

Функция определила частоту значений «мальчик» и «девочка» как 6 и 4 раза соответственно.

Пример 3. Подсчет частоты столбцов с помощью функции GroupBy.Size()

С помощью этого метода можно подсчитать частоту элементов в отдельных столбцах. Чтобы получить объект DataFrame с подсчетом частоты, мы можем применить метод count() к объекту DataFrame, сгруппированному по одному столбцу. Во-первых, создается DataFrame, который содержит хотя бы один повторяющийся столбец, чтобы мы могли использовать функцию count() для определения частоты значений. Сначала мы импортируем модуль Pandas перед созданием DataFrame. Затем с помощью функции pd.DataFrame() мы создаем наш DataFrame.

С помощью этого метода можно подсчитать частоту элементов

В предыдущем DataFrame у нас есть два столбца — столбец «имя» со значениями («Алекс», «Джек», «Алекс», «Али», «Джек», «Джек», «Алекс», «Алекс», «Али», «Алекс», «Али», «Али», «Джек», «Алекс») и столбец «оценка», который содержит оценки отдельных лиц («А», «А», «В», » В«, «В», «В», «А», «С», «А», «С», «С», «С», «А», «Б»). Теперь, чтобы найти количество частот этих столбцов, мы используем функцию groupby.size(). Целое число, представляющее количество элементов в этом объекте, может быть получено с помощью атрибута размера. Если серия дает количество строк и если DataFrame возвращает общее количество строк, умноженное на количество столбцов.

В предыдущем DataFrame у нас есть два столбца

Это показывает, что есть два случая, когда «Алекс» имеет оценку «А». Также есть два случая, когда «Алекс» имеет оценку «B» и «C». «Али» встречалось 1 раз с оценками «А» и «В», а 2 раза со значением оценки «С». «Валет» встречался два раза с оценками «А» и «В».

Пример 4. Подсчет частоты столбца путем создания таблицы частот для определенной строки

Мы можем применить метод crosstab() для определения частот в Pandas DataFrame.

Мы можем применить метод crosstab() для определения

Теперь давайте предположим, что нам нужно создать DataFrame с подробной информацией о поле, возрасте и буквенной оценке десяти разных учеников.

Мы создали необходимый DataFrame с тремя столбцами — столбец оценок («A», «B», «A», «B», «C», «B», «B», «C», «A», » А«), столбец возраста (17, 19, 18, 17, 19, 17, 18, 18, 17, 19) и столбец пола («Ж», «М», «Ж», «М», «Ж», «Ж», «М», «М», «Ж», «Ж»). Теперь мы используем функцию crosstab() для создания таблицы частот. Таблицу перекрестных таблиц, созданную методом crosstab(), можно использовать для отображения частоты появления различных групп данных.

Мы создали необходимый DataFrame с тремя столбцами

Внутри функции pd.crosstab() мы указали столбец «оценка» в параметре индекса для расчета частоты данных в столбце и указали параметр столбцов как «частота» для хранения возвращаемых значений/частот данных группы.

Заключение

В этом руководстве по Pandas мы обсудили, как подсчитывать количество вхождений данных или значений в столбце Pandas DataFrame. Мы попытались научить, как использовать функции «value_counts()» и «groupby()» вместе с атрибутами «size()» и «count()» для подсчета частоты данных в указанном столбце. Мы также увидели, как подсчитать частоту столбца, создав таблицу частот с помощью функции crosstab().

Оцените статью
bestprogrammer.ru
Добавить комментарий