Дискретный вариационный ряд и его характеристики

п.1. Классификация рядов распределения

Статистический ряд распределения – это количественное распределение единиц совокупности на однородные группы по некоторому варьирующему признаку.
В зависимости от природы признака различают атрибутивные и вариационные ряды.
Атрибутивный ряд распределения построен на качественном признаке.
Вариационный ряд распределения построен на количественном признаке.

Например:
Качественными признаками, которые не поддаются измерению, являются: профессия, пол, национальность и т.п.
Количественными признаками, которые можно подсчитать или измерить, являются: количество людей в группе, число повторений в опыте, возраст, вес, рост, скорость, температура и т.п.

По упорядоченности вариационные ряды делятся на упорядоченные (ранжированные) и неупорядоченные. Упорядочить ряд можно по возрастанию или убыванию исследуемого признака.
По характеру непрерывности признака вариационные ряды делятся на дискретные и интервальные.

Например:
Дискретными признаками, которые принимают отдельные значения, являются: количество людей в группе, число детей в семье, количество домов, число опытов и т.п.
Непрерывными признаками, которые могут принимать любые значения в интервале, являются: возраст, вес, рост, скорость, температура и т.п.
Классификация рядов распределения

Варианты – это отдельные значения признака, которые он принимает в вариационном ряду.
Частоты – это численности отдельных вариант.

Например:

Распределение учеников по оценкам за контрольную работу
Оценка, \(x_i\) 2 3 4 5 Всего
К-во учеников, \(f_i\) 3 15 10 5 33

В данном ряду признак – это оценка, варианты признака \(x_i\) – это множество {2;3;4;5}, частоты \(f_i\) – это количество учеников, получивших каждую из оценок.

п.2. Дискретный вариационный ряд, полигон частот и кумулята

Дискретный вариационный ряд – это ряд распределения, в котором однородные группы составлены по признаку, меняющемуся прерывно и принимающему конечное множество значений.
Общий вид дискретного вариационного ряда
Варианты, \(x_i\) \(x_1\) \(x_2\) ... \(x_k\)
Частоты, \(f_i\) \(f_1\) \(f_2\) ... \(f_k\)

Здесь k - число вариант исследуемого признака.
Тогда общее количество исходов (число единиц в совокупности): \(N=\sum_{i=1}^k f_i\)

Полигон частот – это ломаная, которая соединяет точки \((x_i,f_i)\).

Например:

Для распределения учеников по оценкам из нашего примера получаем такой полигон: Полигон частот
Относительная частота варианты \(x_i\) - это отношение частоты \(f_i\) к общему количеству исходов: $$ w_i=\frac{f_i}{N},\ \ i=\overline{1,k} $$ Относительная частота \(w_i\) является эмпирической оценкой вероятности варианты \(x_i\) в исследуемом ряду.
Полигон относительных частот – это ломаная, которая соединяет точки \((x_i,w_i)\).
Полигон относительных частот является эмпирическим законом распределения исследуемого признака.
Накопленные относительные частоты – это суммы: $$ S_1=w_1,\ \ S_i=S_{i-1}+w_i,\ \ i=\overline{2,k} $$ Кумулята – это ломаная, которая соединяет точки \((x_i,S_i)\).
Ступенчатая кривая \(F(x_i)\), построенная по точкам \((x_i,S_i)\), является эмпирической функцией распределения исследуемого признака.

Например:
Проведем необходимые расчеты и построим полигон относительных частот, кумуляту и эмпирическую функцию распределения учеников по оценкам.

Оценка, \(x_i\) 2 3 4 5 Всего
К-во учеников, \(f_i\) 3 15 10 5 33
\(w_i\) 0,0909 0,4545 0,3030 0,1515 1
\(S_i\) 0,0909 0,4545 0,8485 1 -

Полигон относительных частот (эмпирический закон распределения)
Полигон относительных частот
Кумулята (красная ломаная) и эмпирическая функция распределения (ступенчатая синяя кривая).
Кумулята и эмпирическая функция распределения
Эмпирическая функция распределения: $$ F(x)= \begin{cases} 0,\ x\leq 2\\ 0,0909,\ 2\lt x\leq 3\\ 0,5455,\ 3\lt x\leq 4\\ 0,8485,\ 4\lt x\leq 5\\ 1,\ x\gt 5 \end{cases} $$

п.3. Выборочная средняя, мода и медиана

Выборочная средняя дискретного вариационного ряда определяется как средняя взвешенная по частотам: $$ X_{cp}=\frac{x_1f_1+x_2f_2+...+x_kf_k}{N}=\frac1N\sum_{i=1}^k x_if_i $$ Или, через относительные частоты: $$ X_{cp}=\sum_{i=1}^k x_iw_i $$
Мода дискретного вариационного ряда – это варианта с максимальной частотой: $$ M_o=x*,\ \ f(x*)=\underset{i=\overline{1,k}}{max}f_i $$ Мод может быть несколько. Тогда говорят, что ряд мультимодальный.

На полигоне частот мода – это абсцисса самой высокой точки.

Медиана дискретного вариационного ряда – это значение варианты посредине упорядоченного ряда.

Алгоритм:
1. Отсортировать ряд по возрастанию.
2а. Если общее количество измерений N нечётное, найти \(m=\lceil\frac N2\rceil\) и округлить в сторону увеличения. \(M_e=x_m\) - искомая медиана.
2б. Если общее количество измерений N чётное, найти \(m=\frac N2\) и вычислить медиану как среднее \(M_e=\frac{x_m+x_{m+1}}{2}\).

На графике кумуляты медиана – это абсцисса первой точки слева, ордината которой превысила 0,5.
Например:
1) Найдем выборочную среднюю для распределения учеников по оценкам:

Оценка, \(x_i\) 2 3 4 5 Всего
К-во учеников, \(f_i\) 3 15 10 5 33
\(x_if_i\) 6 45 40 25 116

$$ X_{cp}=\frac{6+45+40+25}{33}=\frac{116}{33}\approx 3,5 $$ Средняя оценка за контрольную – 3,5.
2) Найдем моду. Максимальная частота – 15 человек – у троечников. Значит: \(M_o=3\).
3) Найдем медиану. Общее количество измерений N=33 - нечетное.
Находим: \(m=\lceil\frac N2\rceil=17\)
Смотрим на ряд слева направо. Сначала у нас идет 3 двоечника, затем 15 троечников.
Вместе их 18, и 17-й человек в ряду - троечник. Группа троечников является медианной: \(M_e=3\).
Также, медиану можно найти по графику кумуляты. (3;0,5455) – это первая слева точка, в которой ордината больше 0,5. Значит, медиана равна абсциссе этой точки, т.е. \(M_e=3\).

п.4. Степень асимметрии вариационного ряда

В рядах с асимметрией или выбросами выборочная средняя не отражает в полной мере особенности исследуемого признака. Типичный случай – значение среднего уровня доходов в странах с высоким индексом Джини, где 5% населения получает 95% доходов. Или анекдотичный случай со «средней температурой по больнице».
Поэтому, кроме средней, в статистическом исследовании всегда следует определять моду и медиану.

Мода, медиана и выборочная средняя совпадут, если вариационный ряд является симметричным: $$ X_{cp}=M_o=M_e $$ Если вершина распределения сдвинута влево и правая часть ветви длиннее левой (длинный правый хвост), такая асимметрия называется правосторонней. При правосторонней асимметрии: $$ M_o\lt M_e\lt X_{cp} $$ Если вершина распределения сдвинута вправо и левая часть ветви длиннее правой (длинный левый хвост), такая асимметрия называется левосторонней. При левосторонней асимметрии: $$ M_o\gt M_e\gt X_{cp} $$ Для умеренно асимметричных рядов (по Пирсону) модуль разности между модой и средней не более 3 раз превышает модуль разности между медианой и средней: $$ \frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}\geq 3 $$

Например:
Для распределения учеников по оценкам мы получили \(X_{cp}=3,5;\ M_o=3;\ M_e=3\).
Т.к. средняя оказалась больше моды и медианы, наше распределение имеет правостороннюю асимметрию (что видно на полигоне частот – правый хвост длиннее).
При этом \(\frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}=\frac{0,5}{0,5}=1\lt 3\), т.е. распределение умеренно асимметрично.

п.5. Выборочная дисперсия и СКО

Выборочная дисперсия дискретного вариационного ряда определяется как средняя взвешенная для квадрата отклонения от средней: \begin{gather*} D=\frac{(x_1-X_{cp})^2 f_1+(x_2-X_{cp})^2 f_2+...+(x_k-X_{cp})^2 f_k}{N}=\\ =\frac1N\sum_{i=1}^k(x_i-X_{cp})^2 f_i=\frac1N\sum_{i=1}^k x_i^2 f_i-X_{cp}^2 \end{gather*} Или, через относительные частоты: $$ D=\sum_{i=1}^k(x_i-X_{cp})^2 w_i=\sum_{i=1}^k x_i^2 w_i-X_{cp}^2 $$
Выборочное среднее квадратичное отклонение (СКО) определяется как корень квадратный из выборочной дисперсии: $$ \sigma=\sqrt{D} $$

Например:
1) Найдем выборочную дисперсию для распределения учеников по оценкам:

Оценка, \(x_i\) 2 3 4 5 Всего
К-во учеников, \(f_i\) 3 15 10 5 33
\(x_i^2\) 4 9 16 25 -
\(x_i^2 f_i\) 12 135 160 125 432

$$ D=\frac{12+135+160+125}{33}-3,5^2=\frac{432}{33}-3,5^2\approx 0,73 $$ 2) Значение СКО: \(\sigma=\sqrt{D}\approx 0,86\)

п.6. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации

Исправленная выборочная дисперсия дискретного вариационного ряда определяется как: \begin{gather*} S^2=\frac{1}{N-1}\sum_{i=1}^k(x_i-X_{cp})^2 f_i=\frac{N}{N-1}D \end{gather*}

В теоретической статистике доказывается, что выборочная дисперсия D является смещенной оценкой дисперсии при распространении на генеральную совокупность.
А именно, выборочная дисперсия D всегда меньше математического ожидания для дисперсии генеральной совокупности.
Исправленная выборочная дисперсия S2 является несмещенной оценкой.

Стандартное отклонение выборки определяется как корень квадратный из исправленной выборочной дисперсии: $$ s=\sqrt{S^2} $$
Коэффициент вариации это отношение стандартного отклонения выборки к выборочной средней, выраженное в процентах: $$ V=\frac{s}{X_{cp}}\cdot 100\text{%} $$

Если показатель вариации V<33%, то выборка считается однородной, т.е. большинство полученных в ней вариант находятся недалеко от средней, и выборочная средняя хорошо характеризует среднюю генеральной совокупности.
В противном случае, выборка неоднородна. Варианты в выборке находятся далеко от средней, есть выбросы. А значит, и в генеральной совокупности они возможны. Т.е., распространять результаты выборки на генеральную совокупность нельзя.

Внимание!
Если исследуется не выборка, а вся генеральная совокупность, дисперсию «исправлять» не нужно.

Например:
Для распределения учеников по оценкам получаем:
1) Исправленная выборочная дисперсия $$ S^2=\frac{N}{N-1}D=\frac{33}{32}\cdot 0,73\approx 0,76 $$ 2) Стандартное отклонение $$ x=\sqrt{S^2}\approx 0,87 $$ 3) Коэффициент вариации: $$ V=\frac{0,87}{3,5}\cdot 100\text{%}\approx 24,8\text{%}\lt 33\text{%} $$ Выборка является однородной.
Это означает, что согласно коэффициенту вариации полученные результаты контрольной работы можно рассматривать в качестве «типичных» и распространить их на генеральную совокупность, т.е. на всех школьников, которые будут писать эту работу.

п.7. Алгоритм исследования дискретного вариационного ряда

На входе: таблица с вариантами \(x_i\) и частотами \(f_i,\ i=\overline{1,k}\)
Шаг 1. Составить расчетную таблицу. Найти \(w_i,S_i,x_if_i,x_i^2,x_i^2f_i\)
Шаг 2. Построить полигон относительных частот (эмпирический закон распределения) и график кумуляты с эмпирической функцией распределения. Записать эмпирическую функцию распределения.
Шаг 3. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 4. Найти выборочную дисперсию и СКО.
Шаг 5. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.

п.8. Примеры

Пример 1. На площадке фриланса была проведена выборка из 100 фрилансеров и подсчитано количество постоянных заказчиков, с которыми они работают.
В результате было получено следующее распределение:

Число постоянных заказчиков 0 1 2 3 4 5
Число фрилансеров 22 35 27 11 3 1

Исследуйте полученный вариационный ряд.


1) Вариационный ряд является дискретным.
Исследуемый признак – «число постоянных заказчиков».
Варианты признака \(x_i\in\left\{0;1;..;5\right\}\). Количество вариант k=6.
Составим расчетную таблицу:

\(x_i\) 0 1 2 3 4 5
\(f_i\) 23 35 27 11 3 1 100
\(w_i\) 0,23 0,35 0,27 0,11 0,03 0,01 -
\(S_i\) 0,23 0,58 0,85 0,96 0,99 1 -
\(x_if_i\) 0 35 54 33 12 5 139
\(x_i^2\) 0 1 4 9 16 25 -
\(x_i^2f_i\) 0 35 108 99 48 25 315

2) Полигон относительных частот (эмпирический закон распределения):
Пример 1
Кумулята и эмпирическая функция распределения:
Пример 1
$$ F(x)= \begin{cases} 0,\ x\leq 0\\ 0,23,\ 0\lt x\leq 1\\ 0,58,\ 1\lt x\leq 2\\ 0,85,\ 2\lt x\leq 3\\ 0,96,\ 3\lt x\leq 4\\ 0,99,\ 4\lt x\leq 5\\ 1,\ x\gt 5 \end{cases} $$ 3) Выборочная средняя: $$ X_{cp}=\frac1N\sum_{i=1}^k x_if_i= \frac{1}{100}\cdot 139=1,39 $$ Мода (абсцисса самой высокой точки на полигоне частот): \(M_0=1\).
Медиана (абсцисса первой слева точки на кумуляте, где значение превысило 0,5): точка (1;0,58), \(M_e=1\).

\(X_{cp}\gt M_e=M_0\) – распределение асимметрично, с правосторонней асимметрией.
При этом \(\frac{|M_0-X_{cp}|}{|M_e-X_{cp}|}=\frac{0,39}{0,39}=1\lt 3\), т.е. распределение умеренно асимметрично.

4) Выборочная дисперсия: $$ D=\frac1N\sum_{i=1}^k x_i^2f_i-X_{cp}^2=\frac{1}{100}\cdot 315-1,39^2=1,2179\approx 1,218 $$ CKO: $$ \sigma=\sqrt{D}\approx 1,104 $$
5) Исправленная выборочная дисперсия: $$ S^2=\frac{N}{N-1}D=\frac{100}{99}\cdot 1,218\approx 1,230 $$ Стандартное отклонение выборки: $$ s=\sqrt{S^2}\approx 1,109 $$ Коэффициент вариации: $$ V=\frac{s}{X_{cp}}\cdot 100\text{%}=\frac{1,109}{1,39}\cdot 100\text{%}\approx 79,8\text{%}\gt 33\text{%} $$ Представленная выборка неоднородна. Полученное значение средней \(X_{cp}=1,39\) не может быть распространено на генеральную совокупность всех фрилансеров.

Регистрация
Войти с помощью
Необходимо принять пользовательское соглашение
Войти
Войти с помощью
Восстановление пароля
Пожаловаться
Задать вопрос