Распределение Пуассона и формула Пуассона

Краткая теория

Рассмотрим некоторый поток событий, в котором события наступают независимо друг от друга и с некоторой фиксированной средней интенсивностью $lambda$ (событий в единицу времени). Тогда случайная величина $X$, равная числу событий $k$, произошедших за фиксированное время, имеет распределение Пуассона. Вероятности вычисляются по следующей формуле:

$$ P(X=k)=frac{lambda^k}{k!}cdot e^{-lambda}, k=0,1,2,… $$

Для пуассоновской случайной величины математическое ожидание и дисперсия совпадают с интенсивностью потока событий:

$$M(X)=lambda, quad D(X)=lambda.$$

Распределение Пуассона играет важную роль в теории массового обслуживания. При увеличении $lambda$ данное распределение стремится к нормальному распределению $N(lambda, sqrt{lambda})$. В свою очередь, оно само является “приближенной” моделью биномиального распределения при больших $n$ и крайне малых $p$ (см. теорию про формулу Пуассона).

Распределение Пуассона – определение

Распределение Пуассона — вероятностное распределение дискретного типа, моделирует случайную величину, представляющую собой число событий, произошедших за фиксированное время, при условии, что данные события происходят с некоторой фиксированной средней интенсивностью и независимо друг от друга. Другими словами, если событие происходит с некоторой периодичностью, то мы можем определить вероятность, что такое событие произойдёт n раз за интересующий нас период.

Параметр лямбда – λ

Распределение Пуассона зависит только от одного параметра – λ, данный параметр зависит от вероятности успешного события и общего количества событий.
Успешное событие: распределение Пуассона применяется только тогда, когда есть разделение на результат “да” и “нет”, например, лампочка перегорела: да – успешное событие; шина прокололась: да – успешное событие и так далее.

Успешное событие не то же самое, что желаемое

λ = n*p, где p – вероятность успешного события, а n – общее количество событий, для которых ведётся расчёт.
Например, если гроза проходит раз в месяц и мы хотим посчитать вероятность грозы за 24 месяца, то вероятность равна единице, а количество событий равно 24, откуда лямбда равна 24.
Можно считать по-другому, вероятность грозы в конкретный день – 1/30, количество событий – 730 дней, лямбда равна 24.3.

Пример

В тысяче ящиков с антоновками в одном попадается голден, какова вероятность, что в 5000 ящиках будет меньше 4 ящиков с яблоком голден?

Вероятность ящика с яблоком голден – 0.1% (1 ящик на 1000 = 1/1000, если в процентах – 1/1000 * 100 = 0.1%)
Общее количество событий – 5000 ящиков
Из вышесказанного следует:
λ = 5000 * 0.001 = 5

Функция вероятности (формула Пуассона)

Вероятность, что успешное событие произойдёт k раз:

f(k) = P(k) = λk * e / k!

Пример

В тысяче ящиков с антоновками в одном попадается голден, какова вероятность, что в 5000 ящиках будет 2 ящика с яблоком голден?

Из предыдущего примера мы знаем, что λ=5, теперь мы ищем вероятность, что k будет равно 2, для этого используем формулу функции вероятности:

f(4) = P(k = 4) = λk e / k! = 52 * e-5 / 2! = 0.084 = 8.4%

Условия возникновения распределения Пуассона

Рассмотрим условия, при которых возникает распределение Пуассона.

Во-первых, распределение Пуассона является предельным для биномиального распределения, когда число опытов n неограниченно увеличивается (стремится к бесконечности) и одновременно вероятность p успеха в одном опыте неограниченно уменьшается (стремится к нулю), но так, что их произведение np сохраняется в пределе постоянным и равным λ (лямбде):

.

В математическом анализе доказано, что распределение Пуассона с параметром λ = np можно приближенно применять вместо биномиального, когда число опытов n очень велико, а вероятность p очень мала, то есть в каждом отдельном опыте событие A появляется крайне редко.

Во-вторых, распределение Пуассона имеет место, когда есть поток событий, называемым простейшим (или стационарным пуассоновским потоком). Потоком событий называют последовательность таких моментов, как поступление вызовов на коммуникационный узел, приходы посетителей в магазин, прибытие составов на сортировочную горку и тому подобных. Пуассоновский поток обладает следующими свойствами:

  • стационарность: вероятность наступления m событий в определённый период времени постоянна и не зависит от начала отсчёта времени, а зависит только от длины участка времени;
  • ординарность: вероятность попадания на малый участок времени двух или более событий пренебрежимо мала по сравнению с вероятностью попадания на него одного события;
  • отсутствие последствия: вероятность наступления m событий в определённый период времени не зависит от того, сколько событий наступило в предыдущий период.

Характеристики случайной величины, распределённой по закону Пуассона

Характеристики случайной величины, распределённой по закону Пуассона:

математическое ожидание

стандартное отклонение

дисперсия .

Распределение Пуассона и расчёты в MS Excel

Вероятность распределения Пуассона P(m) и значения интегральной функции F(m) можно вычислить при помощи функции MS Excel ПУАССОН.РАСП. Окно для соответствующего расчёта показано ниже (для увеличения нажать левой кнопкой мыши).

MS Excel требует ввести следующие данные:

  • x – число событий m
  • среднее;
  • интегральная – логическое значение: 0 – если нужно вычислить вероятность P(m) и 1 – если вероятность F(m).

Почему Пуассон изобрел свое распределение?

Чтобы предсказывать количествобудущихсобытий!

Или более формально: чтобы предсказывать вероятность данного числа событий, происходящих в определенный интервал времени.

В продажах, например, “событие” это покупка (сам момент покупки, не просто выбор). Событием может быть количество посетителей в день на веб-сайте, кликов на рекламном объявлении в следующем месяце, число звонков в рабочее время или число людей, которые умрут от смертельных заболеваний в следующем году, и так далее.

Недостатки биномиального распределения

a) Биномиальная случайная величина бинарна — 0 или 1.

В примере выше у нас было 17 лайков в неделю. Это 17/7 = 2.4 человека в день и 17/(7*24) = 0.1 в час.

Если моделировать вероятность успеха в часах (0.1 человек в час), используя биномиальную случайную величину, получим, что в большем количестве часов лайков будет 0, а в некоторые часы ровно 1 лайк. Также возможно, что в час будет больше 1 лайка (2, 3, 5 и т.д.).

Проблема с биномиальным распределением в том, что оно не может содержать более одного события в единицу времени (1 час в примере).

Так может разделить 1 час на 60 минут и принять за единицу времени минуту? Тогда в 1 час поместится несколько событий. (Помним, что 1 минута содержит только ноль или одно событие).

Теперь проблема решена?

Вроде бы. Но что если в течение одной минуты мы получим несколько лайков? (например, кто-то поделился постом в Твиттере, и трафик вырос в эту минуту). Что тогда? Можно разделить минуту на секунды. Тогда единицей времени становится секунда, и в минуту помещается несколько событий. Но проблема бинарного контейнера будет существовать для все меньших единиц времени.

Дело в том, что биномиальная случайная величина может содержать несколько событий, если делить единицу времени на все меньшие единицы. В результате изначальная единица времени будет содержать более одного события.

Математически это означает n → ∞. Если предположим, что среднее значение фиксировано, тогда p → 0. В противном случае n*p — количество событий — чрезмерно возрастет.

Единица времени с использованием этого лимита может быть бесконечно мала. Больше не нужно беспокоиться о более чем одном событии в единицу времени. Так получается распределение Пуассона.

b) В биномиальном распределении количество попыток (n) должно быть известно заранее.

Нельзя посчитать вероятность успеха при помощи биномиального распределения, зная только среднее значение (17 человек в неделю). Нужно больше информации (n и p), чтобы использовать формулу.

Распределение Пуассона же не обязывает вас знать ни n ни p. Предположим, что n бесконечно велико, а p бесконечно мала. Единственный параметр распределения — значение λ (ожидаемое значение x). В реальной жизни чаще известно только значение (например, с 2 до 4 часов дня я принял 3 телефонных звонка), а не значения n и p.

Решение задачи на распределение Пуассона в Excel

Пример 1. Отдел технического контроля определил, что среднее число не соблюденных допусков в размерах производимых деталей составляет 6. Определить вероятности следующих событий обеими рассматриваемыми функциями (для сравнения результатов вычислений):

  1. Вероятность наличия 3 и менее погрешностей в случайно отобранной детали.
  2. Вероятность наличия ровно 3 погрешностей в случайно выбранной детали.

Вид таблицы данных:

Рассчитаем вероятность наличия трех и менее дефектов с помощью функций:

=ПУАССОН(B3;B2;ИСТИНА())

=ПУАССОН.РАСП(B3;B2;ИСТИНА())

Описание аргументов:

  • B3 – среднее значение;
  • B2 – предполагаемое значение, для которого рассчитывается вероятность;
  • ИСТИНА – указатель на интегральный тип функции.

Полученные результаты:

Для нахождения вероятности выбора детали с наличием ровно трех дефектов используем функции:

=ПУАССОН(B3;B2;ЛОЖЬ())

=ПУАССОН.РАСП(B3;B2;ЛОЖЬ())

Для расчета вероятности точного совпадения третий аргумент задан в качестве логического ЛОЖЬ.

Результаты вычислений:

Как видно, результаты вычислений обеих функций идентичны.

Числовые характеристики случайной величины Х

Математическое ожидание распределения Пуассона
M[X] = λ

Дисперсия распределения Пуассона
D[X] = λ

Пример №1. Семена содержат 0.1% сорняков. Какова вероятность при случайном отборе 2000 семян обнаружить 5 семян сорняков?
Решение.
Вероятность р мала, а число n велико. np = 2 P(5) = λ5e-5/5! = 0.03609
Математическое ожидание: M[X] = λ = 2
Дисперсия: D[X] = λ = 2

Пример №2. Среди семян ржи имеется 0.4% семян сорняков. Составить закон распределения числа сорняков при случайном отборе 5000 семян. Найти математическое ожидание и дисперсию этой случайной величины.
Решение. Математическое ожидание: M[X] = λ = 0.004*5000 = 20. Дисперсия: D[X] = λ = 20
Закон распределения:

X 0 1 2 m
P e-20 20e-20 200e-20 20me-20/m!

Пример №3. На телефонной станции неправильное соединение происходит с вероятностью 1/200. Найдите вероятность того, что среди 200 соединений произойдет:
а) ровно одно неправильное соединение;
б) меньше чем три неправильных соединения;
в) больше чем два неправильных соединения.
Решение. По условию задачи вероятность события мала, поэтому используем формулу Пуассона (15).
а) Задано: n = 200, p = 1/200, k = 1. Найдем P200(1).
Получаем: . Тогда P200(1) ≈ e-1≈ 0,3679.
б) Задано: n = 200, p = 1/200, k < 3. Найдем P200(k < 3).
Имеем: a = 1.
. Тогда P200(1) ≈ e-1≈ 0,3679.
б) Задано: n = 200, p = 1/200, k < 3. Найдем P200(k < 3).
Имеем: a = 1.

в) Задано: n = 200, p = 1/200, k > 2. Найдем P200(k > 2).
Эту задачу можно решить проще: найти вероятность противоположного события, так как в этом случае нужно вычислить меньше слагаемых. Принимая во внимание предыдущий случай, имеем

Рассмотрим случай, когда n является достаточно большим, а p — достаточно малым; положим np = a, где a — некоторое число. В этом случае искомая вероятность определяется формулой Пуассона:

Вероятность появления k событий за время длительностью t можно также найти по формуле Пуассона:

где λ — интенсивность потока событий, то есть среднее число событий, которые появляются в единицу времени.

Пример №4. Вероятность того, что деталь бракованная, равна 0.005. проверяется 400 деталей. Укажите формулу вычисления вероятности того, что больше 3 деталей оказались с браком.

Пример №5. Вероятность появления бракованных деталей при их массовом производстве равна p. определить вероятность того, что в партии из N деталей содержится а) ровно три детали; б) не более трех бракованных деталей.
p=0,001; N = 4500
Решение.
Вероятность р мала, а число n велико. np = 4.5 < 10. Значит случайная величина Х – распределена по Пуассоновскому распределению. Составим закон.
Случайная величина X имеет область значений (0,1,2,…,m). Вероятности этих значений можно найти по формуле:

Найдем ряд распределения X.
Здесь λ = np = 4500*0.001 = 4.5
P(0) = e– λ = e-4.5 = 0.01111
P(1) = λe = 4.5e-4.5 = 0.04999

Найдем ряд распределения X.
Здесь λ = np = 4500*0.001 = 4.5
P(0) = e– λ = e-4.5 = 0.01111
P(1) = λe = 4.5e-4.5 = 0.04999

Тогда вероятность того, что в партии из N деталей содержится ровно три детали, равна:

Тогда вероятность того, что в партии из N деталей содержится не более трех бракованных деталей:
P(x<3) = P(0) + P(1) + P(2) = 0,01111 + 0,04999 + 0,1125 = 0,1736

Пример №6. Автоматическая телефонная станция получает в среднем за час N вызовов. Определить вероятность того, что за данную минуту она получит: а) ровно два вызова; б) более двух вызовов.
N = 18
Решение.
За одну минуту АТС в среднем получает λ = 18/60 мин. = 0,3
Считая, что случайное число X вызовов, поступивших на АТС за одну минуту,
подчиняется закону Пуассона, по формуле найдем искомую вероятность

Найдем ряд распределения X.
Здесь λ = 0.3
P(0) = e– λ = e-0.3 = 0.7408
P(1) = λe = 0.3e-0.3 = 0.2222

Найдем ряд распределения X.
Здесь λ = 0.3
P(0) = e– λ = e-0.3 = 0.7408
P(1) = λe = 0.3e-0.3 = 0.2222

Вероятность того, что за данную минуту она получит ровно два вызова:
P(2) = 0,03334
Вероятность того, что за данную минуту она получит более двух вызовов:
P(x>2) = 1 – 0,7408 – 0,2222 – 0,03334 = 0,00366

Пример №7. Рассматриваются два элемента, работающих независимо друг от друга. Продолжительность времени безотказной работы имеет показательное распределение с параметром λ1 = 0,02 для первого элемента и λ2 = 0,05 для второго элемента. Найти вероятность того, что за 10 часов: а) оба элемента будут работать безотказно; б) только Вероятность того, что за 10 часов элемент №1 не выйдет из строя:
Рещение.
P1(0) = e-λ1*t = e-0.02*10 = 0,8187

Вероятность того, что за 10 часов элемент №2 не выйдет из строя:
P2(0) = e-λ2*t = e-0.05*10 = 0,6065

а) оба элемента будут работать безотказно;
P(2) = P1(0)*P2(0) = 0,8187*0,6065 = 0,4966
б) только один элемент выйдет из строя.
P(1) = P1(0)*(1-P2(0)) + (1-P1(0))*P2(0) = 0.8187*(1-0.6065) + (1-0.8187)*0.6065 = 0.4321

Пример №7. Производство даёт 1% брака. Какова вероятность того, что из взятых на исследование 1100 изделий выбраковано будет не больше 17?
Примечание: поскольку здесь n*p=1100*0.01=11 > 10, то необходимо использовать теорему Лапласа.

Формула Пуассона

Давайте получим формулу Пуассона математически из формулы функции биномиального распределения.

Получение формулы Пуассона

Теперь вы знаете, откуда берутся компоненты λ^k , k! и e^-λ!

Теперь нужно только показать, что умножение первых двух множителей n!/((n-k)!*n^k) дает1, когда n стремится к бесконечности.

Это 1.

Мы получили формулу Пуассона!

Из Википедии: Распределение Пуассона

Теперь понятнее:

Введите ваши данные в формулу и проверьте даст ли P(x) необходимый результат!

Ниже мой:

< Сравнение биномиального распределения и распределения Пуассона > ╔══════╦═══════════════════╦═══════════════════════╗
║ k ║ Binomial P(X=k) ║ Poisson P(X=k;λ=17) ║
╠══════╬═══════════════════╬═══════════════════════╣
║ 10 ║ 0.02250 ║ 0.02300 ║
║ 17 ║ 0.09701 ║ 0.09628 ║
║ 20 ║ 0.06962 ║ 0.07595 ║
║ 30 ║ 0.00121 ║ 0.00340 ║
║ 40 ║ < 0.000001 ║ < 0.000001 ║
╚══════╩═══════════════════╩═══════════════════════╝
* Оба можно легко посчитать здесь:
Биномиальное: https:
//stattrek.com/online-calculator/binomial.aspx
Пуассона: https:
//stattrek.com/online-calculator/poisson.aspx

Несколько замечаний:

  • Несмотря на то, что распределение Пуассона моделирует редкие события, значение λ может быть любым, оно не обязательно всегда должно быть маленьким.
  • Распределение Пуассона асимметрично — оно всегда смещено вправо, потому что слева его ограничивает нулевой барьер (не существует такой вещи как “минус один” лайк), а справа ограничений нет.
  • Чем больше становится значение λ, тем ближе график к графику нормального распределения.
Распределение Пуассона

4. Ограничения распределения Пуассона:

a. Среднее значение событий в единицу времени постоянно.
Что это значит? Количество людей, посещающих блог в
час может не следовать распределению Пуассона, потому что значение посещений в час не является постоянным (‘значение n выше днем, ниже вечером). Использование значения за месяц для потребительских или биологических данных тоже будет лишь приблизительным, потому что сезонный эффект в этой области не предсказуем.

b. События независимы.

Появление посетителей не всегда независимо. Например, посетители могут прийти группой, потому что кто-то популярный упомянул вас в своем блоге, или ваш блог оказался на первой странице сайта. Количество землетрясений в год в стране также может не соответствовать распределению Пуассона, если одно сильное землетрясение увеличивает вероятность последующих толчков.

5. Соотношение между распределением Пуассона и экспоненциальным распределением.

Если количество событий в единицу времени соответствует распределению Пуассона, тогда период времени между событиями соответствует экспоненциальному распределению. Распределение Пуассона дискретно, а экспоненциальное непрерывно, но они тесно связаны.

Источники


  • https://www.MatBuro.ru/ex_tv.php?p1=tvpoir
  • https://k-tree.ru/articles/statistics/poisson.php
  • https://function-x.ru/probabilities_distribution_poisson.html
  • https://nuancesprog.ru/p/4689/
  • https://exceltable.com/funkcii-excel/funkciya-raspredeleniya-puassona
  • https://math.semestr.ru/probability/poisson.php
  • https://zen.yandex.ru/media/nuancesprog/chto-takoe-raspredelenie-puassona-5e960f2c2df22c6338f5ada1

Рейтинг
( Пока оценок нет )
Понравилась статья? Поделиться с друзьями:
Все об Экселе: формулы, полезные советы и решения