Процентиль
В какой-то момент вам может понадобиться вычислить процентиль определённого значения в наборе данных. Процентили — это полезные статистические показатели, которые помогают понять, как заданное значение соотносится с остальными данными. Вычисление процентилей в Python — простая задача, которую можно выполнить с помощью стандартных статистических функций. В этой статье мы покажем, как вычислять процентиль в Python с использованием numpy.
Введение
В этом разделе мы кратко объясним, что такое процентили и почему они полезны в анализе данных. Процентиль — это мера, используемая в статистике для указания значения, ниже которого находится заданный процент наблюдений в группе наблюдений. Процентили используются для сравнения конкретного результата с другими результатами в том же распределении. Другими словами, они позволяют увидеть, как определённое значение соотносится с остальными данными.
Шаг 1: Импорт необходимых библиотек
Прежде чем мы начнём вычислять процентили, нам нужно импортировать необходимые библиотеки. В этой статье мы будем использовать библиотеки numpy и pandas. Numpy — это библиотека для языка программирования Python, которая добавляет поддержку больших многомерных массивов и матриц, а также обширный набор высокоуровневых математических функций для работы с этими массивами. Pandas — это библиотека для обработки и анализа данных. Она предоставляет структуры данных и функции, необходимые для удобной работы со структурированными данными.
Шаг 2: Загрузка данных
После того как мы импортировали необходимые библиотеки, следующим шагом будет загрузка данных. Для этой статьи мы будем использовать пример набора данных, содержащий оценки студентов в классе. Мы загрузим этот набор данных в dataframe pandas.
Read data from a csv using pandas in Python
import pandas as pd
data = pd.read_csv("student_scores.csv")Шаг 3: Предобработка данных
Прежде чем мы начнём вычислять процентили, нам нужно выполнить предобработку данных. Это включает удаление любых отсутствующих или недопустимых значений из набора данных. В этой статье мы будем считать, что набор данных чистый и не содержит отсутствующих или недопустимых значений. Мы также извлечём конкретный столбец, содержащий оценки, чтобы использовать его для вычислений.
Шаг 4: Вычисление процентиля
Теперь, когда мы загрузили и предобработали данные, мы можем вычислить процентиль. Для вычисления процентиля набора данных мы будем использовать библиотеку numpy. Функция percentile принимает два аргумента: массив значений и ранг процентиля (0–100), который мы хотим вычислить.
Calculate a specific percentile rank in a dataset in Python using numpy
import numpy as np
# Extract the scores column
scores = data['score']
# Calculate the 75th percentile
percentile_value = np.percentile(scores, 75)Шаг 5: Визуализация результатов
Наконец, мы можем визуализировать результаты нашего вычисления. Мы будем использовать библиотеку matplotlib, чтобы построить гистограмму набора данных и выделить положение вычисленного процентиля.
Create a histogram of the dataset and highlight the position of the calculated percentile in Python using Matplotlib
import matplotlib.pyplot as plt
plt.hist(scores, bins=10)
plt.axvline(percentile_value, color='r', linestyle='dashed', linewidth=1)
plt.show()Заключение
В этой статье мы показали, как вычислить процентиль набора данных с помощью стандартных статистических функций в Python. Мы рассмотрели необходимые библиотеки, загрузку и предобработку данных, вычисление процентиля и визуализацию результатов.