Точечные оценки

Меры центральной тенденции.

Частотное распределение доходности класса активов показывает характер рисков, с которыми инвесторы могут столкнуться в конкретном классе активов. Гистограмма годовой доходности S&P 500 ясно показывает, что большие положительные и отрицательные значения годовой доходности являются обычной ситуацией.

Хотя таблицы частотных распределений и гистограммы предоставляют собой удобный способ обобщить серии наблюдений, эти методы являются лишь первым шагом к описанию финансовых данных.

В этом разделе мы обсудим использование количественных показателей, которые объясняют характеристики данных. Наше внимание сосредоточено на мерах центральной тенденции и других показателях (или параметрах), характеризующих положение данных.

Показатель или мера центральной тенденции (англ. ‘measure of central tendency’) указывает, насколько центрированы финансовые данные.

Меры центральной тенденции, вероятно, используются более широко, чем любые другие статистические показатели, потому что их легко рассчитать и применить. Меры положения (англ. ‘measures of location’) включают в себя не только меры центральной тенденции, но и другие показатели, которые иллюстрируют местоположение или распространение данных в рамках распределения.

Далее мы рассмотрим общепринятые меры центральной тенденции – среднее арифметическое, медиану, моду, взвешенное среднее и среднее геометрическое. Мы также объясняем другие полезные меры положения, включая квартили, квинтили, децили и процентили.

Среднее арифметическое.

Финансовые аналитики и портфельные менеджеры часто хотят получить одно число, которое репрезентативно описывает возможный исход инвестиционного решения. Среднее арифметическое – безусловно, наиболее часто используемая мера середины или центра данных.

Определение среднего арифметического.

Среднее арифметическое (англ. ‘arithmetic mean’) – это сумма наблюдений, деленная на количество наблюдений.

Мы можем вычислить среднее арифметическое как для совокупностей, так и для выборок. Эти показатели известны как среднее по совокупности и выборочное среднее значение соответственно.

Среднее значение для совокупности.

Среднее значение для совокупности (математическое ожидание или среднее по совокупности, от англ. ‘population mean’) – это среднее арифметическое значение, рассчитанное для совокупности.

Если мы можем адекватно определить совокупность, то мы можем рассчитать среднее значение для совокупности как среднее арифметическое всех наблюдений или значений в совокупности.

Например, аналитики, изучающие годовой рост продаж крупных оптовых клубов в США за 2013 финансовый год, могут определить интересующую совокупность, включив в нее только три компании: BJ’s Wholesale Club (частная компания с 2011 г.), Costco Wholesale Corporation. и Sam’s Club, входящую в группу Wal-Mart.

Оптовый клуб (англ. ‘wholesale club’) – это формат магазина, предназначенного в основном для оптовых продаж в торговых точках размером со склад для клиентов, которые платят членские взносы. По состоянию на начало 2010-х годов эти три оптовых клуба доминировали в данном сегменте в Соединенных Штатах.

В качестве другого примера можно привести портфельного менеджера, специализирующегося на индексе Nikkei 225. Интересующая его совокупность включает 225 акций из первой секции Токийской фондовой биржи, которые формируют индекс Nikkei.

Формула среднего значения для совокупности.

Среднее по совокупности, μ, является средним арифметическим значением совокупности.

Для конечной совокупности используется следующая формула среднего значения:

(mathbf{ mu = {sum_{i=1}^{N}X_i over N} }) (формула 2),

где:

  • N – количество наблюдений во всей совокупности, а
  • Xi – i-е наблюдение.

Среднее по совокупности является примером статистического параметра. Среднее значение для совокупности уникально; то есть, данная совокупность имеет только одно среднее значение.

Чтобы проиллюстрировать расчеты по приведенной формуле, мы можем найти среднее по совокупности для доли прибыли в выручке американских компаний, управляющих крупными оптовыми клубами за 2012 год.

В течение года прибыль в процентах от выручки для оптовых клубов BJ, Costco Wholesale Corporation, и Wal-Mart Stores составляли 0,9%, 1,6% и 3,5% соответственно, согласно списку Fortune 500 за 2012 год. Таким образом, среднее значение по совокупности для прибыли в процентах от выручки составило

μ = (0,9 + 1,6 + 3,5)/3 = 6/3 = 2%.

Дисперсия выборки. Стандартное отклонение

Дисперсией величины называется среднее значение квадрата отклонения величины от её среднего значения. Дисперсию генеральной совокупности рассчитывают по формуле:

(4)

Дисперсию выборки рассчитывают по формуле:

(5)

для негруппированных выборок и

(6)

для группированных выборок.

Пример 3. В таблице – данные о возрасте жителей административной территории Т в 2013 году. Не будем приводить эту таблицу из-за её громоздкости. Отметим лишь, что в таблице дана численность каждого из возрастов (по одному году, например, 33 года, 40 лет, 65 лет и т.д.) в группах от 0 лет по 94 года (включительно) и численность всей возрастной группы в интервале 95-99 лет, а также численность жителей старше 100 лет.

Требуется найти средний возраст жителей административной территории и дисперсию среднего возраста.

Решение. Найдём средний возраст. Так как данные в таблице являются данными генеральной совокупности, находим средний возраст генеральной совокупности:

В таблице – данные о числе жителей каждого возраста, исключение же – жители в возрасте 95-99 лет и старше 100 лет. Поэтому рассчитали центр интервала возрастной группы 95-99 лет: 97 лет и в расчётах использовали его.

Так как число жителей старше 100 лет относительно небольшое, чтобы упростить расчёты, нижнюю границу интервала приняли за значение признака.

Итак, средний возраст жителей административной территории Т – 38,2 года

Найдём теперь его дисперсию:

Пример 4. Найти дисперсию урожайности зерновых в сельских хозяйствах, используя данные примера 2.

Решение. Средняя урожайность по выборке составляет 15,6 центнеров с га. Чтобы найти дисперсию, создадим дополнительную таблицу.

Центры интервалов

Число хозяйств

2,5

4244

-13,1

172,1

730412,3

7,5

10446

-8,1

65,9

688558,6

12,5

18956

-3,1

9,7

184391,3

17,5

20207

1,9

3,5

71505,7

22,5

8159

6,9

47,3

386328,5

27,5

4165

11,9

141,2

585113,6

32,5

1316

16,9

285,0

375024,0

37,5

792

21,9

478,8

379196,9

42,5

183

26,9

722,6

132234,9

47,5

182

31,9

1016,4

184986,0

52,5

161

36,9

1360,2

218995,1

Всего

68791

393679,1

Теперь у нас есть всё, чтобы найти дисперсию:

Пример 5. Найти дисперсию температуры в населённом пункте N в 2009 году, используя данные примера 1.

Решение. Данная выборка – негруппированная, найдём дисперсию температуры для негруппированной выборки:

Стандартное отклонение равно положительному корню из дисперсии. Стандартное отклонение генеральной совокупности находят по формуле

(7)

Стандартное отклонение выборки находят по формуле

. (9)

для негруппированных выборок и

(10)

для группированных выборок.

Погрешности выборки

Погрешности выборки характеризуют, насколько значительная ошибка допущена при замещении генеральной совокупности выборкой. Сколь бы тщательно ни подбирали выборку, параметр генеральной совокупности и оценка выборки Т всегда будут отличаться. Их разница является погрешность выборки и оценка выборки Т всегда будут отличаться. Их разница является погрешность выборки .

Среднюю стандартную погрешность выборки находят по формуле

(11)

Средняя стандартная погрешность выборки характеризует рассеяние средних арифметических выборки по отношению к средним генеральной совокупности: чем больше погрешность, тем дальше среднее арифметическое выборки может находиться от среднего генеральной совокупности. В свою очередь, чем меньше погрешность, тем ближе к среднему генеральной совокупности находится среднее выборки. При увеличении числа наблюдений n стандартная погрешность уменьшается.

Стандартную погрешность называют также абсолютной погрешностью средней величины и нередко записывают .


Пример 6. Найти стандартную погрешность средней урожайности сельских хозяйств и интервал оценки, используя результаты примеров 2 и 4.

Решение. В примере 2 найдена средняя урожайность зерновых, равная 15,6 центнеров с га. В примере 4 найдена дисперсия урожайности, равная 57,2. Найдём стандартное отклонение урожайности:

Найдём теперь стандартную погрешность:

Интервал оценки средней урожайности:

Вычисляем дисперсию

Дисперсией случайной величины называется математическое ожидание квадрата отклонения случайной величины от ее математического ожидания.

Дисперсия случайной величины

Чтобы вычислить дисперсию случайной величины, необходимо знать ее функцию распределения .

Для дисперсии случайной величины Х часто используют обозначение Var(Х). Дисперсия равна математическому ожиданию квадрата отклонения от среднего E(X): Var(Х)=E[(X-E(X)) 2 ]

Если случайная величина имеет дискретное распределение , то дисперсия вычисляется по формуле:

где x i – значение, которое может принимать случайная величина, а μ – среднее значение ( математическое ожидание случайной величины ), р(x) – вероятность, что случайная величина примет значение х.

Если случайная величина имеет непрерывное распределение , то дисперсия вычисляется по формуле:

где р(x) – плотность вероятности .

Для распределений, представленных в MS EXCEL , дисперсию можно вычислить аналитически, как функцию от параметров распределения. Например, для Биномиального распределения дисперсия равна произведению его параметров: n*p*q.

Примечание : Дисперсия, является вторым центральным моментом , обозначается D[X], VAR(х), V(x). Второй центральный момент – числовая характеристика распределения случайной величины, которая является мерой разброса случайной величины относительно математического ожидания .

Примечание : О распределениях в MS EXCEL можно прочитать в статье Распределения случайной величины в MS EXCEL .

Размерность дисперсии соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность дисперсии будет кг 2 . Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из дисперсии стандартное отклонение .

Некоторые свойства дисперсии :

Var(Х+a)=Var(Х), где Х – случайная величина, а – константа.

Var(aХ)=a 2 Var(X)

Var(Х)=E[(X-E(X)) 2 ]=E[X 2 -2*X*E(X)+(E(X)) 2 ]=E(X 2 )-E(2*X*E(X))+(E(X)) 2 =E(X 2 )-2*E(X)*E(X)+(E(X)) 2 =E(X 2 )-(E(X)) 2

Это свойство дисперсии используется в статье про линейную регрессию .

Var(Х+Y)=Var(Х) + Var(Y) + 2*Cov(Х;Y), где Х и Y – случайные величины, Cov(Х;Y) – ковариация этих случайных величин.

Если случайные величины независимы (independent), то их ковариация равна 0, и, следовательно, Var(Х+Y)=Var(Х)+Var(Y). Это свойство дисперсии используется при выводе стандартной ошибки среднего .

Покажем, что для независимых величин Var(Х-Y)=Var(Х+Y). Действительно, Var(Х-Y)= Var(Х-Y)= Var(Х+(-Y))= Var(Х)+Var(-Y)= Var(Х)+Var(-Y)= Var(Х)+(-1) 2 Var(Y)= Var(Х)+Var(Y)= Var(Х+Y). Это свойство дисперсии используется для построения доверительного интервала для разницы 2х средних .

Свойства дисперсии

Свойство 1. Дисперсия постоянной величины A равна 0 (нулю).

D(A) = 0

Свойство 2. Если случайную величину умножить на постоянную А, то дисперсия этой случайной величины увеличится в А2 раз. Другими словами, постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат.

D(AX) = А2 D(X)

Свойство 3. Если к случайной величине добавить (или отнять) постоянную А, то дисперсия останется неизменной.

D(A + X) = D(X)

Свойство 4. Если случайные величины X и Y независимы, то дисперсия их суммы равна сумме их дисперсий.

D(X+Y) = D(X) + D(Y)

Свойство 5. Если случайные величины X и Y независимы, то дисперсия их разницы также равна сумме дисперсий.

D(X-Y) = D(X) + D(Y)

Расчет cреднеквадратичного (стандартного) отклонения в Excel

Для расчета стандартного отклонения достаточно из дисперсии извлечь квадратный корень. Но в Excel есть и готовые функции: СТАНДОТКЛОН.Г и СТАНДОТКЛОН.В (по генеральной и выборочной совокупности соответственно).

Среднеквадратичное отклонение имеет те же единицы измерения, что и анализируемый показатель, поэтому является сопоставимым с исходными данными.

Коэффициент вариации

Значение стандартного отклонения зависит от масштаба самих данных, что не позволяет сравнивать вариабельность разных выборках. Чтобы устранить влияние масштаба, необходимо рассчитать коэффициент вариации по формуле:

По нему можно сравнивать однородность явлений даже с разным масштабом данных. В статистике принято, что, если значение коэффициента вариации менее 33%, то совокупность считается однородной, если больше 33%, то – неоднородной. В реальности, если коэффициент вариации превышает 33%, то специально ничего делать по этому поводу не нужно. Это информация для общего представления. В общем коэффициент вариации используют для оценки относительного разброса данных в выборке.

Расчет коэффициента вариации в Excel

Расчет коэффициента вариации в Excel также производится делением стандартного отклонения на среднее арифметическое:

=СТАНДОТКЛОН.В()/СРЗНАЧ()

Коэффициент вариации обычно выражается в процентах, поэтому ячейке с формулой можно присвоить процентный формат:

Использование метода «сырого счета» (пример с готовкой)

Существует более эффективный способ вычисления дисперсии, известный как метод «сырого счета». Хотя с первого взгляда уравнение может показаться весьма громоздким, на самом деле оно не такое уж страшное. Можете в этом удостовериться, а потом и решите, какой метод вам больше нравится.

где:

— сумма каждого значения данных после возведения в квадрат,

— квадрат суммы всех значений данных.

Не теряйте рассудок прямо сейчас. Позвольте представить все это в виде таблицы, и тогда вы увидите, что вычислений здесь меньше, чем в предыдущем примере.

Как видите, результат получился тот же, что и при использовании предыдущего метода. Достоинства данного метода становятся очевидными по мере роста размера выборки (n).

Понятие о сплошном и выборочном наблюдении

С точки зрения охвата объекта исследования, статистический анализ можно разделить на два вида: сплошной и выборочный. Сплошной статанализ предполагает изучение генеральной совокупности данных, то есть всего явления во всем его многообразии без распространения выводов на другие элементы, не входящие в анализируемую совокупность. Из названия данного типа явствует, что наблюдению подвергаются тотально все элементы. Результат анализа распространяется на всю генеральную совокупность без каких-либо допущений и поправок на ошибку. Данный тип статистического исследования является наиболее полным и точным, так как дополнительные знания почерпнуть уже неоткуда – информация собрана со всех элементов объекта исследования. Это бесспорный плюс.

Отличным примером сплошного наблюдения является перепись населения. «Всесоюзная перепись населения» — красиво звучало! Кстати, советская статистика, как и наука в целом, была одной из самых лучших в мире. Денег на проведение сплошных обследований не жалели, так как при СССР статистика выполняла свою прямую функцию – исследовала реальность, без чего невозможно было строить «светлое будущее». При этом советские ученые-статистики справедливо критиковали буржуазную статистику за то, что те скрывают от народа реальное положение дел и используют статистику для промывки мозгов. Об этом, кстати, писали и сами буржуи. Более практичный пример сплошного наблюдения – опрос жителей многоэтажного дома на предмет заваривания мусоропровода. Опрашиваются все, результат дает вполне однозначный ответ об отношении жителей к мусоропроводу. Ошибки в выводах маловероятны.

Как бы там ни было, у сплошного наблюдения есть отрицательное качество: на организацию и проведение исследования могут потребоваться значительные ресурсы. Одно дело взять пробу из партии товаров, другое – проверять всю партию. Одно дело опросить тысячу прохожих на улице, совсем другое – организовать перепись населения.

В противовес сплошному придумали выборочное наблюдение. Название метода точно отражает его суть: из генеральной совокупности отбирается и анализируется только часть данных, а выводы распространяют на всю генеральную совокупность. Отбор данных происходит таким образом, чтобы выборка была репрезентативной, то есть, сохранила внутреннюю структуру и закономерности генеральной совокупности. Если это условие не соблюдено, то дальнейший анализ во многом теряет смысл.

Сам анализ выборочных данных происходит так же, как и при сплошном наблюдении (рассчитываются различные показатели, делаются прогнозы и т.д.), только с поправкой на ошибку. Это значит, что рассчитывая тот или иной показатель, мы понимаем, что при повторной выборке его значение будет другим. К примеру, провели опрос общественного мнения. Опрос показал, что за кандидата N желают проголосовать 60% опрошенных. Если провести еще один такой же опрос, даже в том же месте, то результат будет отличаться. То есть, взяв первое значение 60%, следует понимать, что с той или иной вероятностью оно могло быть, скажем, и 58%, и 62%. Точность и разброс выборочных показателей зависят от характера данных и их количества.

У выборочного наблюдения есть один существенный плюс и один минус, однако по сравнению со сплошным наблюдением крайности меняются местами. Плюс заключается в том, что для проведения выборочного обследования требуется гораздо меньше ресурсов. Минус – в том, что выборочное наблюдение всегда ошибочно. Поэтому основная задача проведения выборочного наблюдения – добиться максимальной точности при приемлемых затратах на его проведение.

Заключение

Дисперсия в Excel вычисляется очень просто, намного быстрее и удобнее, чем делать это вручную, ведь функция математическое ожидание довольно сложная и на ее вычисление может уйти много времени и сил.

Источники


  • https://fin-accounting.ru/cfa/l1/quantitative/cfa-measures-of-central-tendency-arithmetic-mean
  • https://function-x.ru/statistics1.html
  • http://tehno-bum.ru/raschet-dispersii-v-microsoft-excel/
  • https://excel2.ru/articles/dispersiya-i-standartnoe-otklonenie-v-ms-excel
  • https://statanaliz.info/statistica/opisanie-dannyx/dispersiya-standartnoe-otklonenie-koeffitsient-variatsii/
  • http://word-office.ru/kak-sdelat-dispersiyu-v-excel.html
  • https://statanaliz.info/statistica/opisanie-dannyx/vyborochnaya-dispersiya/

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Все об Экселе: формулы, полезные советы и решения