Интервальный вариационный ряд и его характеристики
- Построение интервального вариационного ряда по данным эксперимента
- Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения
- Выборочная средняя, мода и медиана. Симметрия ряда
- Выборочная дисперсия и СКО
- Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
- Алгоритм исследования интервального вариационного ряда
- Примеры
п.1. Построение интервального вариационного ряда по данным эксперимента
Интервалы, \(\left.\left[a_{i-1},a_i\right.\right)\) | \(\left.\left[a_{0},a_1\right.\right)\) | \(\left.\left[a_{1},a_2\right.\right)\) | ... | \(\left.\left[a_{k-1},a_k\right.\right)\) |
Частоты, \(f_i\) | \(f_1\) | \(f_2\) | ... | \(f_k\) |
Здесь k - число интервалов, на которые разбивается ряд.
Эмпирическое правило определения оптимального количества интервалов k, на которые следует разбить ряд из N чисел: $$ k=1+\lfloor\log_2 N\rfloor $$ или, через десятичный логарифм: $$ k=1+\lfloor 3,322\cdot\lg N\rfloor $$
Скобка \(\lfloor\ \rfloor\) означает целую часть (округление вниз до целого числа).
Скобка \(\lceil\ \rceil\) означает округление вверх, в данном случае не обязательно до целого числа.
Алгоритм построения интервального ряда
На входе: все значения признака \(\left\{x_j\right\},\ j=\overline{1,N}\)
Шаг 1. Найти размах вариации \(R=x_{max}-x_{min}\)
Шаг 2. Найти оптимальное количество интервалов \(k=1+\lfloor\log_2 N\rfloor\)
Шаг 3. Найти шаг интервального ряда \(h=\left\lceil\frac{R}{k}\right\rceil\)
Шаг 4. Найти узлы ряда: $$ a_0=x_{min},\ \ a_i=1_0+ih,\ \ i=\overline{1,k} $$ Шаг 5. Найти частоты \(f_i\) – число попаданий значений признака в каждый из интервалов \(\left.\left[a_{i-1},a_i\right.\right)\).
На выходе: интервальный ряд с интервалами \(\left.\left[a_{i-1},a_i\right.\right)\) и частотами \(f_i,\ i=\overline{1,k}\)
Заметим, что поскольку шаг h находится с округлением вверх, последний узел \(a_k\geq x_{max}\).
Например:
Проведено 100 измерений роста учеников старших классов.
Минимальный рост составляет 142 см, максимальный – 197 см.
Найдем узлы для построения соответствующего интервального ряда.
По условию: \(N=100,\ x_{min}=142\ см,\ x_{max}=197\ см\).
Размах вариации: \(R=197-142=55\) (см)
Оптимальное число интервалов: \(k=1+\lfloor 3,322\cdot\lg 100\rfloor=1+\lfloor 6,644\rfloor=1+6=7\)
Шаг интервального ряда: \(h=\lceil\frac{55}{5}\rceil=\lceil 7,85\rceil=8\) (см)
Получаем узлы ряда: $$ a_0=x_{min}=142,\ a_i=142+i\cdot 8,\ i=\overline{1,7} $$
\(\left.\left[a_{i-1},a_i\right.\right)\) cм | \(\left.\left[142;150\right.\right)\) | \(\left.\left[150;158\right.\right)\) | \(\left.\left[158;166\right.\right)\) | \(\left.\left[166;174\right.\right)\) | \(\left.\left[174;182\right.\right)\) | \(\left.\left[182;190\right.\right)\) | \(\left[190;198\right]\) |
п.2. Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения
Площадь гистограммы равна 1 (с точностью до округлений), и она является эмпирическим законом распределения исследуемого признака.
Кумулята – это ломаная, которая соединяет точки \((x_i,S_i)\), где \(x_i\) - середины интервалов.
Например:
Продолжим анализ распределения учеников по росту.
Выше мы уже нашли узлы интервалов. Пусть, после распределения всех 100 измерений по этим интервалам, мы получили следующий интервальный ряд:
i | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
\(\left.\left[a_{i-1},a_i\right.\right)\) cм | \(\left.\left[142;150\right.\right)\) | \(\left.\left[150;158\right.\right)\) | \(\left.\left[158;166\right.\right)\) | \(\left.\left[166;174\right.\right)\) | \(\left.\left[174;182\right.\right)\) | \(\left.\left[182;190\right.\right)\) | \(\left[190;198\right]\) |
\(f_i\) | 4 | 7 | 11 | 34 | 33 | 8 | 3 |
Найдем середины интервалов, относительные частоты и накопленные относительные частоты:
\(x_i\) | 146 | 154 | 162 | 170 | 178 | 186 | 194 |
\(w_i\) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 |
\(S_i\) | 0,04 | 0,11 | 0,22 | 0,56 | 0,89 | 0,97 | 1 |
Построим гистограмму и полигон:
Построим кумуляту и эмпирическую функцию распределения:
Эмпирическая функция распределения (относительно середин интервалов): $$ F(x)= \begin{cases} 0,\ x\leq 146\\ 0,04,\ 146\lt x\leq 154\\ 0,11,\ 154\lt x\leq 162\\ 0,22,\ 162\lt x\leq 170\\ 0,56,\ 170\lt x\leq 178\\ 0,89,\ 178\lt x\leq 186\\ 0,97,\ 186\lt x\leq 194\\ 1,\ x\gt 194 \end{cases} $$
п.3. Выборочная средняя, мода и медиана. Симметрия ряда
Или, через относительные частоты: $$ X_{cp}=\sum_{i=1}^k x_iw_i $$
\(h\) – шаг интервального ряда;
\(x_o\) - нижняя граница модального интервала;
\(f_m,f_{m-1},f_{m+1}\) - соответственно, частоты модального интервала, интервала слева от модального и интервала справа.
\(h\) – шаг интервального ряда;
\(x_o\) - нижняя граница медианного интервала;
\(S_{me-1}\) накопленная относительная частота для интервала слева от медианного;
\(w_{me}\) относительная частота медианного интервала.
Расположение выборочной средней, моды и медианы в зависимости от симметрии ряда аналогично их расположению в дискретном ряду (см. §65 данного справочника).
Например:
Для распределения учеников по росту получаем:
\(x_i\) | 146 | 154 | 162 | 170 | 178 | 186 | 194 | ∑ |
\(w_i\) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 | 1 |
\(x_iw_i\) | 5,84 | 10,78 | 17,82 | 57,80 | 58,74 | 14,88 | 5,82 | 171,68 |
$$ X_{cp}=\sum_{i=1}^k x_iw_i=171,68\approx 171,7\ \text{(см)} $$ На гистограмме (или полигоне) относительных частот максимальная частота приходится на 4й интервал [166;174). Это модальный интервал.
Данные для расчета моды: \begin{gather*} x_o=166,\ f_m=34,\ f_{m-1}=11,\ f_{m+1}=33,\ h=8\\ M_o=x_o+\frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h=\\ =166+\frac{34-11}{(34-11)+(34-33)}\cdot 8\approx 173,7\ \text{(см)} \end{gather*} На кумуляте значение 0,5 пересекается на 4м интервале. Это – медианный интервал.
Данные для расчета медианы: \begin{gather*} x_o=166,\ w_m=0,34,\ S_{me-1}=0,22,\ h=8\\ \\ M_e=x_o+\frac{0,5-S_{me-1}}{w_me}h=166+\frac{0,5-0,22}{0,34}\cdot 8\approx 172,6\ \text{(см)} \end{gather*} \begin{gather*} \\ X_{cp}=171,7;\ M_o=173,7;\ M_e=172,6\\ X_{cp}\lt M_e\lt M_o \end{gather*} Ряд асимметричный с левосторонней асимметрией.
При этом \(\frac{|M_o-X_{cp}|}{|M_e-X_{cp}|}=\frac{2,0}{0,9}\approx 2,2\lt 3\), т.е. распределение умеренно асимметрично.
п.4. Выборочная дисперсия и СКО
Или, через относительные частоты: $$ D=\sum_{i=1}^k(x_i-X_{cp})^2 w_i=\sum_{i=1}^k x_i^2 w_i-X_{cp}^2 $$
Например:
Для распределения учеников по росту получаем:
$x_i$ | 146 | 154 | 162 | 170 | 178 | 186 | 194 | ∑ |
\(w_i\) | 0,04 | 0,07 | 0,11 | 0,34 | 0,33 | 0,08 | 0,03 | 1 |
\(x_iw_i\) | 5,84 | 10,78 | 17,82 | 57,80 | 58,74 | 14,88 | 5,82 | 171,68 |
\(x_i^2w_i\) - результат | 852,64 | 1660,12 | 2886,84 | 9826 | 10455,72 | 2767,68 | 1129,08 | 29578,08 |
$$ D=\sum_{i=1}^k x_i^2 w_i-X_{cp}^2=29578,08-171,7^2\approx 104,1 $$ $$ \sigma=\sqrt{D}\approx 10,2 $$
п.5. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации
Подробней о том, почему и когда нужно «исправлять» дисперсию, и для чего использовать коэффициент вариации – см. §65 данного справочника.
Например:
Для распределения учеников по росту получаем: \begin{gather*} S^2=\frac{100}{99}\cdot 104,1\approx 105,1\\ s\approx 10,3 \end{gather*} Коэффициент вариации: $$ V=\frac{10,3}{171,7}\cdot 100\text{%}\approx 6,0\text{%}\lt 33\text{%} $$ Выборка однородна. Найденное значение среднего роста \(X_{cp}\)=171,7 см можно распространить на всю генеральную совокупность (старшеклассников из других школ).
п.6. Алгоритм исследования интервального вариационного ряда
На входе: все значения признака \(\left\{x_j\right\},\ j=\overline{1,N}\)
Шаг 1. Построить интервальный ряд с интервалами \(\left.\right[a_{i-1},\ a_i\left.\right)\) и частотами \(f_i,\ i=\overline{1,k}\) (см. алгоритм выше).
Шаг 2. Составить расчетную таблицу. Найти \(x_i,w_i,S_i,x_iw_i,x_i^2w_i\)
Шаг 3. Построить гистограмму (и/или полигон) относительных частот, эмпирическую функцию распределения (и/или кумуляту). Записать эмпирическую функцию распределения.
Шаг 4. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 5. Найти выборочную дисперсию и СКО.
Шаг 6. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.
п.7. Примеры
Пример 1. При изучении возраста пользователей коворкинга выбрали 30 человек.
Получили следующий набор данных:
18,38,28,29,26,38,34,22,28,30,22,23,35,33,27,24,30,32,28,25,29,26,31,24,29,27,32,24,29,29
Постройте интервальный ряд и исследуйте его.
1) Построим интервальный ряд. В наборе данных: $$ x_{min}=18,\ \ x_{max}=38,\ \ N=30 $$ Размах вариации: \(R=38-18=20\)
Оптимальное число интервалов: \(k=1+\lfloor\log_2 30\rfloor=1+4=5\)
Шаг интервального ряда: \(h=\lceil\frac{20}{5}\rceil=4\)
Получаем узлы ряда: $$ a_0=x_{min}=18,\ \ a_i=18+i\cdot 4,\ \ i=\overline{1,5} $$
\(\left.\left[a_{i-1},a_i\right.\right)\) лет | \(\left.\left[18;22\right.\right)\) | \(\left.\left[22;26\right.\right)\) | \(\left.\left[26;30\right.\right)\) | \(\left.\left[30;34\right.\right)\) | \(\left.\left[34;38\right.\right)\) |
Считаем частоты для каждого интервала. Получаем интервальный ряд:
\(\left.\left[a_{i-1},a_i\right.\right)\) лет | \(\left.\left[18;22\right.\right)\) | \(\left.\left[22;26\right.\right)\) | \(\left.\left[26;30\right.\right)\) | \(\left.\left[30;34\right.\right)\) | \(\left.\left[34;38\right.\right)\) |
\(f_i\) | 1 | 7 | 12 | 6 | 4 |
2) Составляем расчетную таблицу:
\(x_i\) | 20 | 24 | 28 | 32 | 36 | ∑ |
\(f_i\) | 1 | 7 | 12 | 6 | 4 | 30 |
\(w_i\) | 0,033 | 0,233 | 0,4 | 0,2 | 0,133 | 1 |
\(S_i\) | 0,033 | 0,267 | 0,667 | 0,867 | 1 | - |
\(x_iw_i\) | 0,667 | 5,6 | 11,2 | 6,4 | 4,8 | 28,67 |
\(x_i^2w_i\) | 13,333 | 134,4 | 313,6 | 204,8 | 172,8 | 838,93 |
3) Строим полигон и кумуляту
Эмпирическая функция распределения: $$ F(x)= \begin{cases} 0,\ x\leq 20\\ 0,033,\ 20\lt x\leq 24\\ 0,267,\ 24\lt x\leq 28\\ 0,667,\ 28\lt x\leq 32\\ 0,867,\ 32\lt x\leq 36\\ 1,\ x\gt 36 \end{cases} $$ 4) Находим выборочную среднюю, моду и медиану $$ X_{cp}=\sum_{i=1}^k x_iw_i\approx 28,7\ \text{(лет)} $$ На полигоне модальным является 3й интервал (самая высокая точка).
Данные для расчета моды: \begin{gather*} x_0=26,\ f_m=12,\ f_{m-1}=7,\ f_{m+1}=6,\ h=4\\ M_o=x_o+\frac{f_m-f_{m-1}}{(f_m-f_{m-1})+(f_m+f_{m+1})}h=\\ =26+\frac{12-7}{(12-7)+(12-6)}\cdot 4\approx 27,8\ \text{(лет)} \end{gather*}
На кумуляте медианным является 3й интервал (преодолевает уровень 0,5).
Данные для расчета медианы: \begin{gather*} x_0=26,\ w_m=0,4,\ S_{me-1}=0,267,\ h=4\\ M_e=x_o+\frac{0,5-S_{me-1}}{w_{me}}h=26+\frac{0,5-0,4}{0,267}\cdot 4\approx 28,3\ \text{(лет)} \end{gather*} Получаем: \begin{gather*} X_{cp}=28,7;\ M_o=27,8;\ M_e=28,6\\ X_{cp}\gt M_e\gt M_0 \end{gather*} Ряд асимметричный с правосторонней асимметрией.
При этом \(\frac{|M_o-X_{cp}|}{|M_e-X_{cp}|} =\frac{0,9}{0,1}=9\gt 3\), т.е. распределение сильно асимметрично.
5) Находим выборочную дисперсию и СКО: \begin{gather*} D=\sum_{i=1}^k x_i^2w_i-X_{cp}^2=838,93-28,7^2\approx 17,2\\ \sigma=\sqrt{D}\approx 4,1 \end{gather*}
6) Исправленная выборочная дисперсия: $$ S^2=\frac{N}{N-1}D=\frac{30}{29}\cdot 17,2\approx 17,7 $$ Стандартное отклонение \(s=\sqrt{S^2}\approx 4,2\)
Коэффициент вариации: \(V=\frac{4,2}{28,7}\cdot 100\text{%}\approx 14,7\text{%}\lt 33\text{%}\)
Выборка однородна. Найденное значение среднего возраста \(X_{cp}=28,7\) лет можно распространить на всю генеральную совокупность (пользователей коворкинга).