Выражение эмпирической функции распределения. Эмпирическая функция распределения, свойства. Вариационный ряд. Полигон и гистограмма
Вариационный ряд. Полигон и гистограмма.
Ряд распределения - представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.
В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:
§ Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными .
Вариационный ряд распределения состоит из двух столбцов:
В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами
и обозначаются . Дискретная варианта - выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант
, выраженное через частоты или частости:
Частоты - это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.
Частости () - это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.
Графическое изображение рядов распределения
Наглядно ряды распределения представляются при помощи графических изображений.
Ряды распределения изображаются в виде:
§ Полигона
§ Гистограммы
§ Кумуляты
Полигон
При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) - частоты или частости.
1. Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.

Гистограмма
Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).
На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Рис.1. Распределение населения России по возрастным группам
Эмпирическая функция распределения, свойства.
Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функция определяет вероятность события X При росте n относительная частота события X Основные свойства Пусть зафиксирован элементарный исход . Тогда является функцией распределения дискретного распределения, задаваемого следующейфункцией вероятности: где , а Математическое ожидание этого распределения имеет вид: Таким образом выборочное среднее - это теоретическое среднее выборочного распределения. Аналогично, выборочная дисперсия - это теоретическая дисперсия выборочного распределения. Случайная величина имеет биномиальное распределение: Выборочная функция распределения является несмещённой оценкой функции распределения : Дисперсия выборочной функции распределения имеет вид: Согласно усиленному закону больших чисел, выборочная функция распределения сходится почти наверное к теоретической функции распределения: Выборочная функция распределения является асимптотически нормальной оценкой теоретической функции распределения. Если , то По распределению при . Пусть изучается некоторый количественный признак? генеральной совокупности, и предположим, что при любом объеме выборки известно распределение частот этого признака. Зафиксировав объем выборки равным п,
обозначим через п х
число вариант, меньших чем х. Тогда нетрудно видеть, что отношение njn
выражает относительную частоту события (? Это отношение зависит от фиксированного числа х и, следовательно, является некоторой функцией этой величины х. Обозначим ее через F*(x).
Определение 1.10. Функция F*
(х) = -, выражающая относительную частоту события (? эмпирической функцией распределения
(функцией распределения выборки
или статистической функцией распределения
). Таким образом, по определению Напомним, что функция распределения признака ?,
генеральной совокупности определяется как вероятность события (?
и в отличие от эмпирической функции распределения называется теоретической функцией распределения.
Так как эмпирическая функция распределения - вероятность этого же события, то согласно теореме Бернулли (см. п. 5.4, ) при большом объеме выборки они мало отличаются друг от друга в том смысле, что где е - любое сколь угодно малое положительное число. Соотношение (1.2) показывает, что если теоретическая функция распределения неизвестна, то найденную из выборки эмпирическую функцию распределения можно использовать в качестве ее выборочной оценки. Из формулы (1.2) одновременно следует, что эта оценка и состоятельна (см. определение 2.4). Замечание
1.6. Отношение пJn
можно интерпретировать еще как долю
тех членов выборки, которые лежат левее фиксированного числа х. Обозначим ее через со^.Следовательно, А теперь рассмотрим пример построения эмпирической функции распределения для дискретной выборки. Пример 1.2. Известно распределение выборки (табл. 1.7). Табл и ца 1.7 Варианта х.
Частота
я. Построить ее эмпирическую функцию распределения. Сначала найдем объем выборки: Варианта х х
- наименьшая. Поэтому п х = 0 и F*(x)
= 0 при х
% 3, то п
з = 6, т.е. левее точки х
= 3 находятся шесть значений выборки. Следовательно, F*
(3) = - = 0,12. Левее х = 5
располо-
жены п х=5 = 6 + 9=
15 вариант выборки. Поэтому F n
(5) = - = 0,3. Так как п х=1 =
6 + 9 + 18 = 33, то F n
(7) = - = 0,66. Аналогично находим 33 + 12 = 45. Поэтому F*
(9) = ^ = 0,9. Варианта х 5 = 9 - наибольшая. Следовательно, при х > 9 вся выборка лежит левее этой точки х. Поэтому п х>9
= 50 и F*
(х) = -= 1 при х > 9. 50 Таким образом, из вычислений, проведенных выше, следует, что искомая эмпирическая функция однозначно определена на всей вещественной оси, кусочно-постоянна и имеет вид График этой функции представляет ступенчатую фигуру и изображен на рис. 1.6. ? Что касается вопроса о построении эмпирической функции для непрерывных выборок, то эта задача решается, вообще говоря, далеко не однозначно. Это связано с тем обстоятельством, что значения эмпирической функции можно найти однозначно только в концевых точках частичных интервалов, на которые разбит основной интервал, содержащий выборочную совокупность. А во внутренних точках частичных интервалов она не определена. В этих точках она доопределяется либо кусочно-постоянной функцией (см. предыдущий пример), либо некоторой возрастающей непрерывной функцией, например линейной функцией, т.е. для построения эмпирической функции распределения используется линейная аппроксимация. Пример 1.3. По данным таблицы 1.3 найти эмпирическую функцию распределения работников предприятия по стажу работы. Для определенности предположим, что рассматриваемые частичные промежутки слева замкнуты, а справа открыты, т.е. они содержат только свои левые концы. Пусть х = 2. Тогда событие п 2 = 0 и F*(2)
= 0. Если же х е (2; 6), то в этой точке величина п х
уже не определена и вместе с ней не определено и значение эмпирической функции. Например, если х = 3, то из условия задачи нельзя определить число рабочих, имеющих стаж работы менее трех лет, т.е. нельзя найти частоту п х
и, следовательно, F*(x).
Далее, рассуждая аналогично, убеждаемся, что искомая функция F*(x)
принимает конкретные значения в левых концевых точках частичных интервалов, например: «6) = 4/100 = 0,04; «10) = 0,12; «14) = 0,24; «18) = 0,59; F*(22) =
0,78; «26) = 0,90”; «30) = 1, но она не определена во внутренних точках частичных интервалов. Для окончательного решения задачи искомую функцию во внутренних точках частичных интервалов доопределяют либо кусочно-постоянной функцией (рис. 1.7), либо некоторой непрерывной возрастающей функцией (рис. 1.8, где искомая эмпирическая функция доопределена линейной функцией). ? Лекция 13. Понятие о статистических оценках случайных величин
Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X < x равна и является функцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической. Эмпирической функцией распределения
(функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X < x. Таким образом, по определению ,где - число вариант, меньших x, n – объем выборки. В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения.
Различие между этими функциями состоит в том, что теоретическая функцияопределяет вероятность
события X < x, тогда как эмпирическая – относительную частоту
этого же события. При росте n относительная частота события X < x, т.е. стремится по вероятности к вероятности этого события. Иными словами Свойства эмпирической функции распределения
: 1) Значения эмпирической функции принадлежат отрезку 2) - неубывающая функция 3) Если - наименьшая варианта, то = 0 при , если - наибольшая варианта, то =1 при . Эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности. Пример
. Построим эмпирическую функцию по распределению выборки: Найдем объем выборки: 12+18+30=60. Наименьшая варианта равна 2, поэтому =0 при x £ 2. Значение x<6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2< x £6. Аналогично, значения X < 10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6< x £10. Так как x=10 – наибольшая варианта, то =1 при x> 10. таким образом, искомая эмпирическая функция имеет вид: Важнейшие свойства статистических оценок
Пусть требуется изучить некоторый количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно
распределение имеет признак и необходимо оценить параметры, которыми оно определяется. Например, если изучаемый признак распределен в генеральной совокупности нормально, то нужно оценить математическое ожидание и среднее квадратическое отклонение; если признак имеет распределение Пуассона – то необходимо оценить параметр l. Обычно имеются лишь данные выборки, например значения количественного признака , полученные в результате n независимых наблюдений. Рассматривая как независимые случайные величины можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – значит найти функцию от наблюдаемых случайных величин, которая дает приближенное значение оцениваемого параметра.
Например, для оценки математического ожидания нормального распределения роль функции выполняет среднее арифметическое Для того чтобы статистические оценки давали корректные приближения оцениваемых параметров, они должны удовлетворять некоторым требованиям, среди которых важнейшими являются требования несмещенности
и состоятельности
оценки. Пусть - статистическая оценка неизвестного параметра теоретического распределения. Пусть по выборке объема n найдена оценка . Повторим опыт, т.е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным получим другую оценку . Повторяя опыт многократно, получим различные числа . Оценку можно рассматривать как случайную величину, а числа - как ее возможные значения. Если оценка дает приближенное значение с избытком
, т.е. каждое число больше истинного значения то, как следствие, математическое ожидание (среднее значение) случайной величины больше, чем :. Аналогично, если дает оценку с недостатком
, то . Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. Если, напротив, , то это гарантирует от систематических ошибок. Несмещенной
называют статистическую оценку , математическое ожидание которой равно оцениваемому параметру при любом объеме выборки . Смещенной
называют оценку, не удовлетворяющую этому условию. Несмещенность оценки еще не гарантирует получения хорошего приближения для оцениваемого параметра, так как возможные значения могут быть сильно рассеяны
вокруг своего среднего значения, т.е. дисперсия может быть значительной. В этом случае найденная по данным одной выборки оценка, например , может оказаться значительно удаленной от среднего значения ,а значит, и от самого оцениваемого параметра. Эффективной
называют статистическую оценку, которая, при заданном объеме выборки n, имеет наименьшую возможную дисперсию
. При рассмотрении выборок большого объема к статистическим оценкам предъявляется требование состоятельности
. Состоятельной
называется статистическая оценка, которая при n®¥ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n®¥ стремится к нулю, то такая оценка оказывается и состоятельной. Как известно, закон
распределения случайной величины можно
задавать различными способами. Дискретную
случайную величину можно задать с
помощью ряда распределения или
интегральной функции, а непрерывную
случайную величину – с помощью или
интегральной, или дифференциальной
функции. Рассмотрим выборочные аналоги
этих двух функций. Пусть имеется
выборочная совокупность значений
некоторой случайной величины
объема Определение
10.15.
Эмпирической
функцией распределения
(функцией распределения выборки) называют
функцию
В отличие от
эмпирической функции распределения
выборки функцию распределения F
(x
)
генеральной совокупности называют
теоретической
функцией распределения
.
Различие между ними состоит в том, что
теоретическая функция F
(x
)
определяет вероятность события
т.е. при больших
Функция
Свойства
Пример 10.4.
Построить эмпирическую функцию по
данному распределению выборки: Варианты
Частоты
Решение:
Найдем объем выборки n
=
12+18+30=60.
Наименьшая варианта
Значение x
<
10,
а именно
Искомая эмпирическая
функция распределения: График
Р 1. Какие основные
задачи решает математическая статистика?
2. Генеральная и выборочная совокупность?
3. Дайте определение объема выборки. 4.
Какие выборки называются репрезентативными?
5. Ошибки репрезентативности. 6. Основные
способы образования выборки. 7. Понятия
частоты, относительной частоты. 8. Понятие
статистического ряда. 9. Запишите формулу
Стэрджеса. 10. Сформулируйте понятия
размаха выборки, медианы и моды. 11.
Полигон частот, гистограмма. 12. Понятие
точечной оценки выборочной совокупности.
13. Смещенная и несмещенная точечная
оценка. 14. Сформулируйте понятие
выборочной средней. 15. Сформулируйте
понятие выборочной дисперсии. 16.
Сформулируйте понятие выборочного
среднеквадратического отклонения. 17.
Сформулируйте понятие выборочного
коэффициента вариации. 18. Сформулируйте
понятие выборочной средней геометрической.
- количество элементов выборки, равных . В частности, если все элементы выборки различны, то
.
.
.
.
почти наверное при .![]()


Варианты
Частоты
и каждому варианту из этой совокупности
поставлена в соответствие его частость.
Пусть далее,
– некоторое действительное число, а
– число выборочных значений случайной
величины
,
меньших
.Тогда
число
является частостью наблюдаемых в выборке
значений величиныX
,
меньших
,
т.е. частостью появления события
.
При измененииx
в общем случае будет изменяться и
величина
.
Это означает, что относительная частота
является функцией аргумента
.
А так как эта функция находится по
выборочным данным, полученным в результате
опытов, то ее называют выборочной илиэмпирической
.
,
определяющую для каждого значенияx
относительную частоту события
.
(10.19)
,
а эмпирическая – относительную частоту
этого же события. Из теоремы Бернулли
следует
,
(10.20)
вероятность
и относительная частота события
,
т.е.
мало отличаются одно от другого. Уже
отсюда следует целесообразность
использования эмпирической функции
распределения выборки для приближенного
представления теоретической (интегральной)
функции распределения генеральной
совокупности.
и
обладают одинаковыми свойствами. Это
вытекает из определения функции.
:


,
следовательно,
при
.
Значение
,
а именно
наблюдалось 12 раз, следовательно:
=
при
.
и
наблюдались 12+18=30 раз, следовательно,
=
при
.
При
.
=
представлен на рис. 10.2
ис.
10.2Контрольные вопросы
