В визуализации данных мы используем графики и диаграммы для представления данных. Визуальная форма данных позволяет специалистам по данным и всем остальным легко анализировать данные и получать результаты.
Гистограмма — один из элегантных способов представления распределенных непрерывных или дискретных данных. И в этом руководстве по Python мы увидим, как мы можем анализировать данные в Python с помощью гистограммы.
Итак, приступим!
Что такое гистограмма?
Прежде чем мы перейдем к основному разделу этой статьи и представим данные на гистограммах с помощью Python и покажем взаимосвязь между гистограммой и данными, давайте обсудим краткий обзор гистограммы.
Гистограмма — это графическое представление распределенных числовых данных, в котором мы обычно представляем интервалы по оси X и частоту числовых данных по оси Y. Графическое представление гистограммы похоже на гистограмму. Тем не менее, в гистограмме мы имеем дело с интервалами, и здесь основная цель — найти контуры, разделив частоты на серию интервалов или интервалов.
Разница между Bar Graph и Histogram
Из-за схожего представления студенты часто путают гистограмму с гистограммой. Основное различие между гистограммой и столбчатой диаграммой заключается в том, что гистограмма представляет данные по интервалам, тогда как столбец используется для сравнения двух или более категорий.
Гистограммы используются, когда мы хотим проверить, где сгруппировано наибольшее количество частот, и нам нужен контур для этой области. С другой стороны, гистограммы просто используются, чтобы показать разницу в категориях.
Построить гистограмму в Python
Многие библиотеки визуализации данных Python могут строить гистограммы на основе числовых данных или массивов. Среди всех библиотек визуализации данных наиболее популярной является matplotlib, и многие другие библиотеки используют ее для визуализации данных.
Теперь давайте воспользуемся библиотекой Python numpy и matplotlib для генерации случайных частот и построения гистограмм на Python.
Для начала мы построим гистограмму, сгенерировав случайный массив из 1000 элементов, и посмотрим, как построить гистограмму с использованием массива.
import numpy as np #pip install numpy
import matplotlib.pyplot as plt #pip install matplotlib
#generate a random numpy array with 1000 elements
data = np.random.randn(1000)
#plot the data as histogram
plt.hist(data,edgecolor=«black», bins =10)
#histogram title
plt.title(«Histogram for 1000 elements»)
#histogram x axis label
plt.xlabel(«Values»)
#histogram y axis label
plt.ylabel(«Frequencies»)
#display histogram
plt.show()
Приведенный выше вывод показывает, что среди 1000 случайных элементов значение большинства элементов находится в диапазоне от −1 до 1. Это основная цель гистограммы; он показывает большинство и меньшинство распределения данных. Поскольку ячейки гистограммы более сгруппированы между значениями от −1 до 1, между этими двумя значениями интервала находится больше элементов.
Примечание. И numpy, и matplotlib являются сторонними пакетами Python; их можно установить с помощью команды Python pip install.
Реальный пример с гистограммой Python
Теперь давайте представим гистограмму с более реалистичным набором данных и проанализируем ее.
Мы будем строить гистограмму, используя файл titanic.csv, который вы можете скачать по этой ссылке.
Файл titanic.csv содержит набор данных о титанических пассажирах. Мы обработаем файл tatanic.csv с помощью библиотеки Python panda и построим гистограмму для возраста разных пассажиров, а затем проанализируем результат гистограммы.
import numpy as np #pip install numpyimport pandas as pd #pip install pandas
import matplotlib.pyplot as plt
#read the csv file
df = pd.read_csv(‘titanic.csv’)
#remove the Not a Number values from age
df=df.dropna(subset=[‘Age’])
#get all passangers age data
ages = df[‘Age’]
plt.hist(ages,edgecolor=«black», bins =20)
#histogram title
plt.title(«Titanic Age Group»)
#histogram x axis label
plt.xlabel(«Ages»)
#histogram y axis label
plt.ylabel(«Frequencies»)
#display histogram
plt.show()
Анализируйте гистограмму
В приведенном выше коде Python мы отображаем возрастную группу всех пассажиров Titanic с помощью гистограммы. Посмотрев на гистограмму, мы легко можем сказать, что из 891 пассажира возраст большей части составляет от 20 до 30 лет. Значит, на титаническом корабле было много молодежи.
Заключение
Гистограмма — одно из лучших графических представлений, когда мы хотим анализировать распределенные наборы данных. Он использует интервал и их частоту, чтобы определить большинство или меньшинство распределения данных. Статистики и специалисты по данным в основном используют гистограммы для анализа распределения значений.