Медиана в статистике: понятие, свойства и расчет

Среднее значение

Часто так называют среднеарифметическое значение выборки (или множества чисел). Это, пожалуй, самый распространенный термин, из вышеперечисленных трех. Хотя бы потому, что почти каждый день мы слышим это слово в СМИ. Значение его тоже объясняет само название. Тем не менее, для тех, кому непонятен смысл этого слова, объясним “на пальцах”.

Это сумма данных чисел, деленное на количество. Если написать в виде формулы, это выглядит так.

$bar{x} = dfrac{a_1+a_2+a_3+ … +a_n}{n}$

Здесь $bar{x}$ – среднее арифметическое значение. Если у Вас имеется $5$ чисел ${10, 12, 5, 20, 8}$, то их сумма будет $10+12+3+20+8=55$ . Так как количество равно $5$, то делим $55:5=11$. Это и есть среднеарифметическое значение.

Пример из практики

Допустим, у вас есть магазин, и вы торгуете чем то. В день, выручка составляет от $600$ до $1,200$ у.е. По итогам месяца вы наторговали на сумму $30,000$ у.е. Если условное количество дней в месяце $30$, значит, ваша средняя ежедневная выручка составляет $1,000$ у.е. ($30000:30 = 1000$).

Медиана

Медиана – число, характеризующее выборку, т.е. если взять все элементы множества, то это число ровно делит множество пополам. Одна половина множества равна или больше этого число, а другая меньше или равна этому числу.

Объясним это на примере. Допустим, дано следующее множество: ${2, 5, 10, 8, 7}$. Здесь число $7$ делит это множество пополам. $2$ и $5$ меньше, а $10$ и $8$ больше этого числа. Для удобства нахождения медианы сначала нужно отсортировать выборку в возрастающем или убывающем порядке ${2, 5, 7, 8, 10}$. Тогда элемент, стоящий ровно посередине, будет медианой. Как видите, это число $7$.

А как быть, если во множестве четное количество чисел? Например ${2, 5, 6, 8, 10, 15}$. Тогда берем среднеарифметическое значение двух чисел, которые стоят посередине. У нас эти числа $6$ и $8$. Значит $(6+8):2=14:2=7$. Среднее значение этих двух чисел, а значит медиана равна $7$.

Пример из практики

Допустим, в стране $1%$ взрослого населения зарабатывает $1$ млн. у.е. в год (может быть больше, но для примера ограничимся этим числом), $10%$ населения зарабатывает по $20,000$ у.е. в год. Остальные живут за чертой бедности, зарабатывая всего $100$ у.е. в год. Тогда, несмотря на большие заработки $11%$ населения, медиана все равно будет равна $100$ у.е. Потому что подавляющее большинство получает всего $100$ у.е. в год. Теперь вычислим среднее значение.

$1%$ получает $1,000,000$ у.е. = $1 cdot 1,000,000 = 1,000,000$ у.е.
$10%$ получают $20,000$ у.е. = $10 cdot 20,000 = 200,000$ у.е.
$89%$ получают $100$ у.е. = $89 cdot 100 = 8,900$ у.е.

Значит, среднее значение в год составляет

$(1,000,000 + 200,000 + 8,900) : 100 = 1,208,900 : 100 = 12,089$ у.е.

Зная соотношение неработающих людей, на каждого работающего, и поделив полученное на это число, получим доход на душу населения (с учетом детей, стариков и больных без пенсии).

Итак, такая статистика показывает, что народ живет припеваючи, зарабатывая примерно 1,000 у.е. в месяц, а действительность другая. Как раз, так и вычисляется доход на душу населения. Берется национальный доход и делится на численность населения. Теперь вы понимаете, почему в сводках всегда называют эту цифру, потому что она никоим образом не отображает благосостояние большинства, а только является показателем экономического благосостояния страны.

Мода

Название этого термина само говорит за себя. Это значение, которое больше всего встречается в выборке. Чего больше, то и “в моде”. Например, посмотрим множество ${5, 3, 1, 3, 7, 5, 3, 10}$. В этом множестве больше всего встречается число $3$. Это число является модой данного множества. Если выборка имеет несколько мод, т.е. несколько часто встречающихся элементов, число повторений которых равно, то эта выборка мультимодальна. Например, рассмотрим множество ${1, 3, 10, 3, 1, 2}$. Здесь числа $1$ и $3$ встречаются больше всех. В статистике мода применяется больше по отношению к нечисловым данным.

Пример из практики

Если постоять на проспекте и в течение 10 минут и посчитать все проезжающие автомобили и классифицировать их по цветам, то можно определить моду для цвета автомобилей этого города. Допустим, насчитали 95 белых, 45 черных, 12 красных, 38 серых и 70 других цветов. Значит, модой в этом городе являются автомобили белого цвета. Это хорошая информация для дистрибьюторов автомобилей.

Подробнее о среднем значении

Иногда вычисляют среднее значение для группы данных. Тогда значения разбивают на группы и вычисляют серединную точку каждой группы. Затем эти значения умножают на количество членов каждой группы (на частотность) и складывают. А результат делят на общее количество. Такое значение называют средним значением группы. Посмотрите на этот пример:

Группа Частота Середина
1-20 5 10.5
21-40 25 30.5
41-60 37 50.5
61-80 23 70.5

Здесь середина вычисляется таким образом: $(20+1):2 = 10.5, (40+21):2 = 30.5$, и т.д.

Умножаем эти значения на частоты и складываем, затем делим на общее количество:

$dfrac{10.5 cdot 5+30.5 cdot 25+50.5 cdot 37+70.5 cdot 23}{5+25+37+23} = dfrac{4305}{90} approx 47.8$

Как уже показали на примере с доходом населения, экстремумы сильно влияют на среднеарифметическое значение, поэтому иногда полезно их отбрасывать. Тогда среднее значение называется урезанным средним.

Иногда среднее значение вычисляется для дихотомных данных (когда члены множества принимают два значения) используя $0-1$ кодировку. Например, если из $10$ людей $6$ мужчин и $4$ женщины, то обозначив мужчин числом $1$, а женщин числом $0$, можно найти процент мужчин, вычисляя среднее значение.

$dfrac{1+1+1+1+1+1+0+0+0+0}{10} = dfrac{6}{10} = 0.6$ или $60%$

В симметричном распределении (типа нормального распределения) среднее значение, медиана и мода равны или близки друг другу. В асимметричном же, они отличаются, и число, на которое отличаются эти показатели, дают информацию о “скошенности” распределения относительно нормального.

Надеемся, что нам удалось “на пальцах” объяснить значение терминов среднеарифметическое значение, медиана и мода.

Связанные понятия

Кванти́ль в математической статистике — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Если вероятность задана в процентах, то квантиль называется процентилем или перцентилем (см. ниже).
Сре́днее арифмети́ческое (в математике и статистике) множества чисел — число, равное сумме всех чисел множества, делённой на их количество. Является одной из наиболее распространённых мер центральной тенденции.
Для определения средних или наиболее типичных значений совокупности используются показатели центра распределения. Основные из них — математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, среднее степенное, взвешенные средние, центр сгиба, медиана, мода.
В математической статистике критерий знаков используется при проверке нулевой гипотезы о равенстве медианы некоторому заданному значению (для одной выборки) или о равенстве нулю медианы разности (для двух связанных выборок). Это непараметрический критерий, то есть он не использует никаких данных о характере распределения, и может применяться в широком спектре ситуаций, однако при этом он может иметь меньшую мощность, чем более специализированные критерии.
Закон больших чисел (ЗБЧ) в теории вероятностей — принцип, описывающий результат выполнения одного и того же эксперимента много раз. Согласно закону, среднее значение конечной выборки из фиксированного распределения близко к математическому ожиданию этого распределения.

Упоминания в литературе

Вычисление среднего и медианы не представляет особых трудностей; самое главное в этом случае – определить, какой именно показатель «середины» более точен в каждой конкретной ситуации (именно этот фактор нередко используется для манипулирования средними показателями). Между тем у медианы имеются весьма полезные «родственники». Как указывалось выше, медиана делит любое распределение пополам. Затем его можно разбить на четверти, или, как их еще называют, квартили. Первый квартиль состоит из нижних 25 % наблюдений; второй из следующих 25 % наблюдений и т. д. Еще один вариант – разделить распределение на децили, каждый из которых заключает в себе 10 % наблюдений. (Если ваш доход находится в верхнем дециле американского распределения доходов, то это означает, что вы зарабатываете больше, чем 90 % ваших коллег-рабочих.) Можно пойти еще дальше и разбить распределение на сотые доли, или процентили. Каждый процентиль представляет 1 % распределения; таким образом, первый процентиль представляет нижний 1 % данного распределения, а 99-й – его верхний 1 %.
Чарльз Уилан, Голая статистика. Самая интересная книга о самой скучной науке, 2013
Наиболее распространенными характеристиками статистического распределения являются средние величины: мода, медиана и средняя арифметическая (или выборочная средняя). Мода (Мо) равна варианте, которой соответствует наибольшая частота. Медиана (Ме) равна варианте, которая расположена в середине статистического распределения. Она делит статистический (вариационный) ряд на две равные части. Выборочная средняя (ХВ) определяется как среднее арифметическое значение вариант статистического ряда.
В. А. Подколзина, Медицинская физика
Во многих случаях поэтому целесообразно дихотомизировать значение критерия или разделить его на соответствующее количество степеней. Однако дихотомизацию нельзя механически проводить по медиане – ведь мы не знаем, каким на самом деле является распределение значений критерия в исследуемой выборке. Скажем, мы хотели бы с помощью какого-нибудь теста определять индивидов с безошибочным и точным наблюдением. Если мы в качестве критерия возьмем количество пропущенных ошибок в тексте, тогда у половины испытуемых окажется в тесте 0–4 ошибки, а у второй половины 5 и больше ошибок. Но нам нужна группа, которая работает безошибочно (а это только 20 % испытуемых). Высоковероятно, что психические явления не бывают, как правило, распределены по кривой нормального распределения Гаусса. Значит, целесообразно, например, в категорию «имеет характеристику» включить 80 % испытуемых со значением критерия от максимума по уровень, соответствующий 21 %, а в категорию «не имеет характеристики» включить оставшиеся 20 % лиц, и т. п.
Е. С. Романова, Психодиагностика
Кроме того, сложность построения искомой вероятностной модели для описания реальных систем связана с разнообразием характеристик. Так, в качестве характеристики положения распределения можно рассматривать: математическое ожидание, медиану, квантили заданного порядка, моду, антимоду; в качестве характеристики рассеяния: среднее квадратическое отклонение, срединное отклонение, интерквартильную широту; в качестве характеристик связи: корреляционные и кумулянтные функции (коэффициенты) разных порядков, структурные и дисперсионные функции. Каждая из указанных характеристик имеет свои функциональные достоинства или недостатки. Эти характеристики должны отвечать цели и назначению изучаемой вероятностной или статистической модели.
В. Б. Живетин, Введение в теорию риска (динамических систем), 2009
Основным статистическим методом изучения демографических процессов является (статистическое наблюдение. Оно используется для сбора данных о населении и получения информации о происходящих процессах возобновления. Используется также метод группировки и классификации, который позволяет разделить рассматриваемую совокупность на группы по конкретным признакам. Структуру явлений по количественным признакам изучают с помощью таких статистических показателей, как средняя, мода, медиана, показатели вариации. Для более глубокого изучения демографии используют следующие методы статистики: корреляционный и факторный анализ, индексный метод, метод выравнивания динамических рядов и др.
А. В. Белозерова, Демография и статистика населения. Шпаргалка, 2009

Формула медианы

Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.

Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:

где

Me – номер значения, соответствующего медиане,

N – количество значений в совокупности данных.

Тогда медиана обозначается, как

Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:

В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу.

Для начала (после ранжирования данных) находят медианный интервал. Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.

Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.

Обратимся к наглядной схеме.

Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:

где xMe — нижняя граница медианного интервала;

iMe — ширина медианного интервала;

∑f/2 — количество всех значений, деленное на 2 (два);

S(Me-1)— суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;

fMe — число наблюдений в медианном интервале.

Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%.

Для примера рассчитаем медиану по следующим данным.

Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.

По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.

То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.

Расчет медианы в Excel

Медиану для числовых данных легко найти, используя функцию Excel, которая так и называется — МЕДИАНА. Другое дело интервальные данные. Соответствующей функции в Excel нет. Поэтому нужно задействовать приведенную выше формулу. Что поделаешь? Но это не очень трагично, так как расчет медианы по интервальным данным – редкий случай. Можно и на калькуляторе разок посчитать.

Напоследок предлагаю задачку. Имеется набор данных. 15, 5, 20, 5, 10. Каково среднее значение? Четыре варианта:

а) 11;

б) 5;

в) 10;

г) 5, 10, 11.

Мода, медиана и среднее значение выборки – это разный способ определить центральную тенденцию в выборке.

Определение моды и медианы по несгруппированным данным

Рассмотрим определение моды и медианы по несгруппированным данным. Предположим, рабочие бригады, состоящей из 9 человек, имеют следующие тарифные разряды: 4 3 4 5 3 3 6 2 6. Так как в данной бригаде больше всего рабочих 3-го разряда, этот тарифный разряд будет модальным. Mo = 3.
Для определения медианы необходимо провести ранжирование: 2 3 3 3 4 4 5 6 6. Центральным в этом ряду является рабочий 4-го разряда, следовательно, данный разряд и будет медианным. Если ранжированный ряд включает четное число единиц, то медиана определяется как средняя из двух центральных значений.
Если мода отражает наиболее распространенный вариант значения признака, то медиана практически выполняет функции средней для неоднородной, не подчиняющейся нормальному закону распределения совокупности. Проиллюстрируем ее познавательное значение следующим примером.
Допустим, нам необходимо дать характеристику среднего дохода группы людей, насчитывающей 100 человек, из которых 99 имеют доходы в интервале от 100 до 200 долларов в месяц, а месячные доходы последнего составляют 50000 долларов (табл. 1).
Таблица 1 – Месячные доходы исследуемой группы людей.

N п/п 1 2 3 4 50 51 99 100
Доход, долл. 100 104 104 107 162 164 100 50 000

Если воспользоваться средней арифметической, то получим средний доход, равный примерно 600 – 700 долларов, который имеет мало общего с доходами основной части группы. Медиана же, равная в данном случае Me = 163 доллара, позволит дать объективную характеристику уровня доходов 99 % данной группы людей.
Рассмотрим определение моды и медианы по сгруппированным данным (рядам распределения).
Предположим, распределение рабочих всего предприятия в целом по тарифному разряду имеет следующий вид (табл. 2).
Таблица 2 – Распределение рабочих предприятия по тарифному разряду

Тарифный разряд Численность рабочих, человек
2 12
3 48
4 56
5 60
6 14
ВСЕГО 190
Моду и медиану можно найти с помощью онлайн-калькуляторов.

Определение моды по дискретному вариационному ряду

Используется построенный ранее ряд значений признака, отсортированных по величине. Если объем выборки нечетный, берем центральное значение; если объем выборки четный, берем среднее арифметическое двух центральных значений.
Определение моды по дискретному вариационному ряду: наибольшую частоту (60 человек) имеет 5-й тарифный разряд, следовательно, он и является модальным. Mo = 5.
Для определения медианного значения признака по следующей формуле находят номер медианной единицы ряда (NMe): , где n – объем совокупности.
В нашем случае: , где n – объем совокупности.
В нашем случае:
.
Полученное дробное значение, всегда имеющее место при четном числе единиц совокупности, указывает, что точная середина находится между 95 и 96 рабочими. Необходимо определить, к какой группе относятся рабочие с этими порядковыми номерами. Это можно сделать, рассчитав накопленные частоты. Рабочих с этими номерами нет в первой группе, где всего лишь 12 человек, нет их и во второй группе (12+48=60). 95-й и 96-й рабочие находятся в третьей группе (12+48+56=116), следовательно, медианным является 4-й тарифный разряд.

Моду и медиану можно найти с помощью онлайн-калькуляторов.

Определение моды и медианы графическим методом

Моду и медиану в интервальном ряду можно определить графически. Мода определяется по гистограмме распределения. Для этого выбирается самый высокий прямоугольник, который является в данном случае модальным. Затем правую вершину модального прямоугольника соединяем с правым верхним углом предыдущего прямоугольника. А левую вершину модального прямоугольника – с левым верхним углом последующего прямоугольника. Из точки их пересечения опускаем перпендикуляр на ось абсцисс. Абсцисса точки пересечения этих прямых и будет модой распределения (рис. 3).

Рис. 3. Графическое определение моды по гистограмме.

Рис. 3. Графическое определение моды по гистограмме.

Рис. 4. Графическое определение медианы по кумуляте
Для определения медианы из точки на шкале накопленных частот (частостей), соответствующей 50 %, проводится прямая, параллельная оси абсцисс до пересечения с кумулятой. Затем из точки пересечения опускается перпендикуляр на ось абсцисс. Абсцисса точки пересечения является медианой.

Неуникальность значения

Если имеется чётное количество случаев и два средних значения различаются, то медианой, по определению, может служить любое число между ними (например, в выборке {1, 2, 3, 4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений.

Как найти медиану чисел

Лучше рассмотреть процесс вычисления медианы на примере. Пусть у нас есть ряд чисел: 13 19 24 17 15 11. Для удобства числа будет записывать через пробел. Найдем его медиану. Для начала необходимо расположить числа в порядке возрастания. Эта процедура называется сортировкой. Получим новый ряд: 11 13 15 17 19 24. Так как количество чисел в ряду равно 6, а число 6 четное, то середина ряда будет между числами 15 и 17. Найдем среднее этих двух чисел: (15 + 17) / 2 = 16. Это и будет медианой ряда. Не стоит путать медиану, среднее гармоническое и среднее арифметическое — это принципиально разные понятия.

Рассмотрим другой пример, когда количество чисел в ряду нечетное. Есть такой ряд: 18 46 10 5 38. Найдем медиану набора этих чисел. Отсортируем ряд по возрастанию и получим ряд: 5 10 18 38 48. Так как количество чисел в этом ряду 5, то у него есть середина — это элемент с номером 2. Значит медиана этого ряда равна элементу с номером 2. Получаем ответ 18.

И еще пример — найдем медиану чисел 158 166 134 130 132. Отсортируем и получим ряд 130 132 134 158 166. Количество чисел нечетное и равно 5, значит средний элемент имеет номер 3. Третий элемент нашего отсортированного ряда — число 134. Это и есть медиана.

 

Область применения медианы

При вычислении типичного признака неоднородных рядов, имеющих «выбросы» – значения во много раз отличающиеся от других значений ряда.

Пример использования

Предположим, что в одной комнате оказалось 19 бедняков и один миллионер. У каждого бедняка есть 5 ₽, а у миллионера — 1 млн ₽ (106). В сумме получается 1 000 095 ₽. Если мы разделим деньги равными долями на 20 человек, то получим 50 004,75 ₽. Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате.

Медиана в этом случае будет равна 5 ₽ (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. Разделив всю компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе у каждого не больше 5 ₽, во второй же — не меньше 5 ₽. В общем случае можно сказать, что медиана — это то, сколько принёс с собой «средний» человек. Наоборот, среднее арифметическое — неподходящая характеристика, так как оно значительно превышает сумму наличных, имеющуюся у среднего человека.

Неуникальность значения

Если имеется чётное количество случаев и два средних значения различаются, то медианой, по определению, может служить любое число между ними (например, в выборке {1, 3, 5, 7} медианой может служить любое число из интервала (3,5)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений (в примере выше это число (3+5)/2=4). Для выборок с чётным числом элементов можно также ввести понятие «нижней медианы» (элемент с номером n/2 в упорядоченном ряду из элементов; в примере выше это число 3) и «верхней медианы» (элемент с номером (n+2)/2; в примере выше это число 5). Эти понятия определены не только для числовых данных, но и для любой порядковой шкалы.

Советы

Вам будет легче найти моду и медиану, если вы запишете числа в порядке возрастания.

Источники


  • https://jsoft.ws/?content=mean-median-mode.html
  • https://kartaslov.ru/%D0%BA%D0%B0%D1%80%D1%82%D0%B0-%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B9/%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0+%28%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0%29
  • https://statanaliz.info/statistica/opisanie-dannyx/mediana-v-statistike/
  • https://math.semestr.ru/group/structural-characteristics.php
  • https://dic.academic.ru/dic.nsf/ruwiki/29853
  • https://calculat.ru/mediana-ryada-chisel
  • http://galyautdinov.ru/post/mediana
  • https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0_(%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0)
  • https://ru.wikihow.com/%D0%BD%D0%B0%D0%B9%D1%82%D0%B8-%D1%81%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%B5-%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5,-%D0%BC%D0%BE%D0%B4%D1%83-%D0%B8-%D0%BC%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D1%83

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Все об Экселе: формулы, полезные советы и решения