Анализ данных в гистограмме в Python

Анализ данных в гистограмме в Python Программирование и разработка

В визуализации данных мы используем графики и диаграммы для представления данных. Визуальная форма данных позволяет специалистам по данным и всем остальным легко анализировать данные и получать результаты.

Гистограмма — один из элегантных способов представления распределенных непрерывных или дискретных данных. И в этом руководстве по Python мы увидим, как мы можем анализировать данные в Python с помощью гистограммы.

Итак, приступим!

Что такое гистограмма?

Прежде чем мы перейдем к основному разделу этой статьи и представим данные на гистограммах с помощью Python и покажем взаимосвязь между гистограммой и данными, давайте обсудим краткий обзор гистограммы.

Гистограмма — это графическое представление распределенных числовых данных, в котором мы обычно представляем интервалы по оси X и частоту числовых данных по оси Y. Графическое представление гистограммы похоже на гистограмму. Тем не менее, в гистограмме мы имеем дело с интервалами, и здесь основная цель — найти контуры, разделив частоты на серию интервалов или интервалов.

Разница между Bar Graph и Histogram

Из-за схожего представления студенты часто путают гистограмму с гистограммой. Основное различие между гистограммой и столбчатой ​​диаграммой заключается в том, что гистограмма представляет данные по интервалам, тогда как столбец используется для сравнения двух или более категорий.

Гистограммы используются, когда мы хотим проверить, где сгруппировано наибольшее количество частот, и нам нужен контур для этой области. С другой стороны, гистограммы просто используются, чтобы показать разницу в категориях.

Построить гистограмму в Python

Многие библиотеки визуализации данных Python могут строить гистограммы на основе числовых данных или массивов. Среди всех библиотек визуализации данных наиболее популярной является matplotlib, и многие другие библиотеки используют ее для визуализации данных.

Теперь давайте воспользуемся библиотекой Python numpy и matplotlib для генерации случайных частот и построения гистограмм на Python.

Для начала мы построим гистограмму, сгенерировав случайный массив из 1000 элементов, и посмотрим, как построить гистограмму с использованием массива.

import numpy as np #pip install numpy

import matplotlib.pyplot as plt #pip install matplotlib

#generate a random numpy array with 1000 elements

data = np.random.randn(1000)

#plot the data as histogram

plt.hist(data,edgecolor=«black», bins =10)

#histogram title

plt.title(«Histogram for 1000 elements»)

#histogram x axis label

plt.xlabel(«Values»)

#histogram y axis label

plt.ylabel(«Frequencies»)

#display histogram

plt.show()

Приведенный выше вывод показывает, что среди 1000 случайных элементов значение большинства

Приведенный выше вывод показывает, что среди 1000 случайных элементов значение большинства элементов находится в диапазоне от −1 до 1. Это основная цель гистограммы; он показывает большинство и меньшинство распределения данных. Поскольку ячейки гистограммы более сгруппированы между значениями от −1 до 1, между этими двумя значениями интервала находится больше элементов.

Примечание. И numpy, и matplotlib являются сторонними пакетами Python; их можно установить с помощью команды Python pip install.

Реальный пример с гистограммой Python

Теперь давайте представим гистограмму с более реалистичным набором данных и проанализируем ее.

Мы будем строить гистограмму, используя файл titanic.csv, который вы можете скачать по этой ссылке.

Файл titanic.csv содержит набор данных о титанических пассажирах. Мы обработаем файл tatanic.csv с помощью библиотеки Python panda и построим гистограмму для возраста разных пассажиров, а затем проанализируем результат гистограммы.

import numpy as np #pip install numpyimport pandas as pd #pip install pandas

import matplotlib.pyplot as plt

#read the csv file

df = pd.read_csv(‘titanic.csv’)

#remove the Not a Number values from age

df=df.dropna(subset=[‘Age’])

#get all passangers age data

ages = df[‘Age’]

plt.hist(ages,edgecolor=«black», bins =20)

#histogram title

plt.title(«Titanic Age Group»)

#histogram x axis label

plt.xlabel(«Ages»)

#histogram y axis label

plt.ylabel(«Frequencies»)

#display histogram

plt.show()

Файл titanic.csv содержит набор данных о титанических пассажирах

Анализируйте гистограмму

В приведенном выше коде Python мы отображаем возрастную группу всех пассажиров Titanic с помощью гистограммы. Посмотрев на гистограмму, мы легко можем сказать, что из 891 пассажира возраст большей части составляет от 20 до 30 лет. Значит, на титаническом корабле было много молодежи.

Заключение

Гистограмма — одно из лучших графических представлений, когда мы хотим анализировать распределенные наборы данных. Он использует интервал и их частоту, чтобы определить большинство или меньшинство распределения данных. Статистики и специалисты по данным в основном используют гистограммы для анализа распределения значений.

Читайте также:  Assert C++
Оцените статью
bestprogrammer.ru
Добавить комментарий