Дискретный вариационный ряд и его характеристики
- Классификация рядов распределения
- Дискретный вариационный ряд, полигон частот и кумулята
- Выборочная средняя, мода и медиана
- Степень асимметрии вариационного ряда
- Выборочная дисперсия и СКО
- Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
- Алгоритм исследования дискретного вариационного ряда
- Примеры
п.1. Классификация рядов распределения
Атрибутивный ряд распределения построен на качественном признаке.
Вариационный ряд распределения построен на количественном признаке.
Например:
Качественными признаками, которые не поддаются измерению, являются: профессия, пол, национальность и т.п.
Количественными признаками, которые можно подсчитать или измерить, являются: количество людей в группе, число повторений в опыте, возраст, вес, рост, скорость, температура и т.п.
Например:
Дискретными признаками, которые принимают отдельные значения, являются: количество людей в группе, число детей в семье, количество домов, число опытов и т.п.
Непрерывными признаками, которые могут принимать любые значения в интервале, являются: возраст, вес, рост, скорость, температура и т.п.
Частоты – это численности отдельных вариант.
Например:
Оценка, \(x_i\) | 2 | 3 | 4 | 5 | Всего |
К-во учеников, \(f_i\) | 3 | 15 | 10 | 5 | 33 |
В данном ряду признак – это оценка, варианты признака \(x_i\) – это множество {2;3;4;5}, частоты \(f_i\) – это количество учеников, получивших каждую из оценок.
п.2. Дискретный вариационный ряд, полигон частот и кумулята
Варианты, \(x_i\) | \(x_1\) | \(x_2\) | ... | \(x_k\) |
Частоты, \(f_i\) | \(f_1\) | \(f_2\) | ... | \(f_k\) |
Здесь k - число вариант исследуемого признака.
Тогда общее количество исходов (число единиц в совокупности): \(N=\sum_{i=1}^k f_i\)
Например:
Для распределения учеников по оценкам из нашего примера получаем такой полигон: | ![]() |
Полигон относительных частот является эмпирическим законом распределения исследуемого признака.
Ступенчатая кривая \(F(x_i)\), построенная по точкам \((x_i,S_i)\), является эмпирической функцией распределения исследуемого признака.
Например:
Проведем необходимые расчеты и построим полигон относительных частот, кумуляту и эмпирическую функцию распределения учеников по оценкам.
Оценка, \(x_i\) | 2 | 3 | 4 | 5 | Всего |
К-во учеников, \(f_i\) | 3 | 15 | 10 | 5 | 33 |
\(w_i\) | 0,0909 | 0,4545 | 0,3030 | 0,1515 | 1 |
\(S_i\) | 0,0909 | 0,4545 | 0,8485 | 1 | - |
Полигон относительных частот (эмпирический закон распределения)
Кумулята (красная ломаная) и эмпирическая функция распределения (ступенчатая синяя кривая).
Эмпирическая функция распределения: $$ F(x)= \begin{cases} 0,\ x\leq 2\\ 0,0909,\ 2\lt x\leq 3\\ 0,5455,\ 3\lt x\leq 4\\ 0,8485,\ 4\lt x\leq 5\\ 1,\ x\gt 5 \end{cases} $$
п.3. Выборочная средняя, мода и медиана
На полигоне частот мода – это абсцисса самой высокой точки.
Алгоритм:
1. Отсортировать ряд по возрастанию.
2а. Если общее количество измерений N нечётное, найти \(m=\lceil\frac N2\rceil\) и округлить в сторону увеличения. \(M_e=x_m\) - искомая медиана.
2б. Если общее количество измерений N чётное, найти \(m=\frac N2\) и вычислить медиану как среднее \(M_e=\frac{x_m+x_{m+1}}{2}\).
На графике кумуляты медиана – это абсцисса первой точки слева, ордината которой превысила 0,5.
Например:
1) Найдем выборочную среднюю для распределения учеников по оценкам:
Оценка, \(x_i\) | 2 | 3 | 4 | 5 | Всего |
К-во учеников, \(f_i\) | 3 | 15 | 10 | 5 | 33 |
\(x_if_i\) | 6 | 45 | 40 | 25 | 116 |
$$ X_{cp}=\frac{6+45+40+25}{33}=\frac{116}{33}\approx 3,5 $$ Средняя оценка за контрольную – 3,5.
2) Найдем моду. Максимальная частота – 15 человек – у троечников. Значит: \(M_o=3\).
3) Найдем медиану. Общее количество измерений N=33 - нечетное.
Находим: \(m=\lceil\frac N2\rceil=17\)
Смотрим на ряд слева направо. Сначала у нас идет 3 двоечника, затем 15 троечников.
Вместе их 18, и 17-й человек в ряду - троечник. Группа троечников является медианной: \(M_e=3\).
Также, медиану можно найти по графику кумуляты. (3;0,5455) – это первая слева точка, в которой ордината больше 0,5. Значит, медиана равна абсциссе этой точки, т.е. \(M_e=3\).
п.4. Степень асимметрии вариационного ряда
В рядах с асимметрией или выбросами выборочная средняя не отражает в полной мере особенности исследуемого признака. Типичный случай – значение среднего уровня доходов в странах с высоким индексом Джини, где 5% населения получает 95% доходов. Или анекдотичный случай со «средней температурой по больнице».
Поэтому, кроме средней, в статистическом исследовании всегда следует определять моду и медиану.
Например:
Для распределения учеников по оценкам мы получили \(X_{cp}=3,5;\ M_o=3;\ M_e=3\).
Т.к. средняя оказалась больше моды и медианы, наше распределение имеет правостороннюю асимметрию (что видно на полигоне частот – правый хвост длиннее).
При этом \(\frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}=\frac{0,5}{0,5}=1\lt 3\), т.е. распределение умеренно асимметрично.
п.5. Выборочная дисперсия и СКО
Например:
1) Найдем выборочную дисперсию для распределения учеников по оценкам:
Оценка, \(x_i\) | 2 | 3 | 4 | 5 | Всего |
К-во учеников, \(f_i\) | 3 | 15 | 10 | 5 | 33 |
\(x_i^2\) | 4 | 9 | 16 | 25 | - |
\(x_i^2 f_i\) | 12 | 135 | 160 | 125 | 432 |
$$ D=\frac{12+135+160+125}{33}-3,5^2=\frac{432}{33}-3,5^2\approx 0,73 $$ 2) Значение СКО: \(\sigma=\sqrt{D}\approx 0,86\)
п.6. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
В теоретической статистике доказывается, что выборочная дисперсия D является смещенной оценкой дисперсии при распространении на генеральную совокупность.
А именно, выборочная дисперсия D всегда меньше математического ожидания для дисперсии генеральной совокупности.
Исправленная выборочная дисперсия S2 является несмещенной оценкой.
Если показатель вариации V<33%, то выборка считается однородной, т.е. большинство полученных в ней вариант находятся недалеко от средней, и выборочная средняя хорошо характеризует среднюю генеральной совокупности.
В противном случае, выборка неоднородна. Варианты в выборке находятся далеко от средней, есть выбросы. А значит, и в генеральной совокупности они возможны. Т.е., распространять результаты выборки на генеральную совокупность нельзя.
Например:
Для распределения учеников по оценкам получаем:
1) Исправленная выборочная дисперсия $$ S^2=\frac{N}{N-1}D=\frac{33}{32}\cdot 0,73\approx 0,76 $$ 2) Стандартное отклонение $$ x=\sqrt{S^2}\approx 0,87 $$ 3) Коэффициент вариации: $$ V=\frac{0,87}{3,5}\cdot 100\text{%}\approx 24,8\text{%}\lt 33\text{%} $$ Выборка является однородной.
Это означает, что согласно коэффициенту вариации полученные результаты контрольной работы можно рассматривать в качестве «типичных» и распространить их на генеральную совокупность, т.е. на всех школьников, которые будут писать эту работу.
п.7. Алгоритм исследования дискретного вариационного ряда
На входе: таблица с вариантами \(x_i\) и частотами \(f_i,\ i=\overline{1,k}\)
Шаг 1. Составить расчетную таблицу. Найти \(w_i,S_i,x_if_i,x_i^2,x_i^2f_i\)
Шаг 2. Построить полигон относительных частот (эмпирический закон распределения) и график кумуляты с эмпирической функцией распределения. Записать эмпирическую функцию распределения.
Шаг 3. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 4. Найти выборочную дисперсию и СКО.
Шаг 5. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.
п.8. Примеры
Пример 1. На площадке фриланса была проведена выборка из 100 фрилансеров и подсчитано количество постоянных заказчиков, с которыми они работают.
В результате было получено следующее распределение:
Число постоянных заказчиков | 0 | 1 | 2 | 3 | 4 | 5 |
Число фрилансеров | 22 | 35 | 27 | 11 | 3 | 1 |
Исследуйте полученный вариационный ряд.
1) Вариационный ряд является дискретным.
Исследуемый признак – «число постоянных заказчиков».
Варианты признака \(x_i\in\left\{0;1;..;5\right\}\). Количество вариант k=6.
Составим расчетную таблицу:
\(x_i\) | 0 | 1 | 2 | 3 | 4 | 5 | ∑ |
\(f_i\) | 23 | 35 | 27 | 11 | 3 | 1 | 100 |
\(w_i\) | 0,23 | 0,35 | 0,27 | 0,11 | 0,03 | 0,01 | - |
\(S_i\) | 0,23 | 0,58 | 0,85 | 0,96 | 0,99 | 1 | - |
\(x_if_i\) | 0 | 35 | 54 | 33 | 12 | 5 | 139 |
\(x_i^2\) | 0 | 1 | 4 | 9 | 16 | 25 | - |
\(x_i^2f_i\) | 0 | 35 | 108 | 99 | 48 | 25 | 315 |
2) Полигон относительных частот (эмпирический закон распределения):
Кумулята и эмпирическая функция распределения:
$$ F(x)= \begin{cases} 0,\ x\leq 0\\ 0,23,\ 0\lt x\leq 1\\ 0,58,\ 1\lt x\leq 2\\ 0,85,\ 2\lt x\leq 3\\ 0,96,\ 3\lt x\leq 4\\ 0,99,\ 4\lt x\leq 5\\ 1,\ x\gt 5 \end{cases} $$ 3) Выборочная средняя: $$ X_{cp}=\frac1N\sum_{i=1}^k x_if_i= \frac{1}{100}\cdot 139=1,39 $$ Мода (абсцисса самой высокой точки на полигоне частот): \(M_0=1\).
Медиана (абсцисса первой слева точки на кумуляте, где значение превысило 0,5): точка (1;0,58), \(M_e=1\).
\(X_{cp}\gt M_e=M_0\) – распределение асимметрично, с правосторонней асимметрией.
При этом \(\frac{|M_0-X_{cp}|}{|M_e-X_{cp}|}=\frac{0,39}{0,39}=1\lt 3\), т.е. распределение умеренно асимметрично.
4) Выборочная дисперсия: $$ D=\frac1N\sum_{i=1}^k x_i^2f_i-X_{cp}^2=\frac{1}{100}\cdot 315-1,39^2=1,2179\approx 1,218 $$ CKO: $$ \sigma=\sqrt{D}\approx 1,104 $$
5) Исправленная выборочная дисперсия: $$ S^2=\frac{N}{N-1}D=\frac{100}{99}\cdot 1,218\approx 1,230 $$ Стандартное отклонение выборки: $$ s=\sqrt{S^2}\approx 1,109 $$ Коэффициент вариации: $$ V=\frac{s}{X_{cp}}\cdot 100\text{%}=\frac{1,109}{1,39}\cdot 100\text{%}\approx 79,8\text{%}\gt 33\text{%} $$ Представленная выборка неоднородна. Полученное значение средней \(X_{cp}=1,39\) не может быть распространено на генеральную совокупность всех фрилансеров.