Среднее арифметическое, мода и медиана
Предмет, цели и методы математической статистики
Начиная с XVIII века, в общем направлении статистических исследований начинает активно формироваться математическая статистика.
Математическая статистика – раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений.
В зависимости от предмета исследований математическая статистика делится на:
- статистику чисел;
- многомерный статистический анализ;
- анализ функций (процессов) и временных рядов;
- статистику объектов с нечисловыми характеристиками.
В зависимости от цели и методов исследований математическая статистика делится на: описательную статистику; теорию оценивания; теорию проверки гипотез.
Описательная статистика | Теория оценивания | Теория проверки гипотез | |
Цель | Обработка и систематизация эмпирических данных | Оценивание ненаблюдаемых данных и сигналов от объектов наблюдения на основе наблюдаемых данных | Обоснование предположений о виде распределения и свойствах случайной величины |
Методы |
1. Наглядное представление в форме графиков и таблиц. 2. Количественное описание с помощью статистических показателей. |
1. Параметрические методы (наименьших квадратов, максимального правдоподобия и др.). 2. Непараметрические методы. |
1. Последовательный анализ. 2. Статистические критерии. |
Метод выборочных исследований
Статистика получила признание в различных областях человеческой деятельности благодаря заметной экономии времени и прочих ресурсов. Её основная идея: не нужно измерять всё, измерьте только часть всего и сделайте предположение об остальном.
«Всё» в статистике называется генеральной совокупностью.
«Часть всего», которую мы тщательно исследуем, называется выборкой.
Метод выборочных исследований – способ определения свойств группы объектов (генеральной совокупности) на основании статистического исследования её части (выборки).
Например, чтобы оценить средние размеры апельсина, который продаётся в магазине в декабре, необязательно денно и нощно мерить все апельсины во всех ящиках (сколько же для этого нужно времени и людей?!). Достаточно сделать выборку – мерить по одному апельсину из каждого ящика в течение месяца (тут уже и один человек справится).
Статистика предоставляет методику и оценки для того, чтобы правильно провести выборку и на основании знаний о среднем размере апельсина в выборке (выборочной средней) судить о средних размерах всех декабрьских апельсин (генеральной средней).
Средняя арифметическая, простая и взвешенная
Статистическое исследование опирается на собранные данные о каком-то признаке (рост, вес, возраст, доход и т.п.).
Варианта – полученное эмпирическое значение признака.
Вариационный ряд – совокупность собранных вариант.
Пусть мы сделали выборку, провели N измерений и получили x_1,x_2,…,x_N вариант.
Вариационный ряд, состоящий из отдельных вариант, называют дискретным.
Чтобы найти выборочную среднюю дискретного вариационного ряда, нужно вычислить среднюю арифметическую простую:
$$ x_{cp} = \frac{1}{N} \sum_{i=1}^N x_i ,i = \overline{1,N} $$
Знак Σ означает «сумма», i - это индекс полученных вариант, который пробегает все значения, от 1 до N.
Например:
На протяжении четверти школьник получил такие оценки по алгебре: 5,4,3,5,4,4,5,4,3,5,5,4,3,5,4,4. Найдите среднюю оценку за четверть.
Считаем среднюю арифметическую простую:
$$ x_cp = \frac{5+4+3+⋯+4}{16} ≈ 4,2 $$
Нетрудно заметить, что оценки повторяются, и вычисления можно упростить, если вместо сложения одинаковых оценок использовать умножение оценок на их количество.
Чтобы найти выборочную среднюю при повторяющихся вариантах, удобно вычислять среднюю арифметическую взвешенную:
$$ x_{cp} = \frac{1}{N} \sum_{i=1}^K x_i n_i , N = \sum_{i=1}^K n_i , i = \overline{1,K} $$
где K – количество групп с повторяющимися вариантами, $x_i$ - значение варианты в -й группе, $n_i$ – частота варианты $x_i$.
Например:
Рассматриваем тот же ряд оценок: 5,4,3,5,4,4,5,4,3,5,5,4,3,5,4,4 и составляем таблицу:
x_i
3
4
5
Σ
n_i
3
7
6
16
x_i n_i
9
28
30
67
$$ x_cp = \frac{3\cdot3+4\cdot7+5\cdot6}{3+7+6} ≈ 4,2 $$
Вычисления заметно упростились.
Мода и медиана
Мода дискретного вариационного ряда – это варианта с максимальной частотой. Мод может быть несколько. Тогда говорят, что ряд мультимодальный.
В примере с оценками по алгебре мода $M_0 = 4$ - эта оценка встречается чаще всего, её частота равна 7.
Медиана дискретного вариационного ряда – это значение варианты посредине упорядоченного ряда.
Алгоритм:
-
Отсортировать ряд по возрастанию.
-
Если общее количество измерений N нечётное, найти m = $\lceil \frac{N}{2}\rceil$ и округлить в сторону увеличения. $M_e = x_m$ - искомая медиана.
-
Если общее количество измерений N чётное, найти $m = \frac{N}{2}$ и вычислить медиану как среднее $M_e = \frac{x_m+x_{m+1}}{2}$.
В примере с оценками по алгебре N = 16 - четное. $m = \frac{N}{2} = 8 $.
Сортируем ряд оценок по возрастанию: 3,3,3,4,4,4,4, 4,4, 4,5,5,5,5,5,5
$$ x_8 = 4, x_9 = 4 \Rightarrow M_e = \frac{4+4}{2} = 4 $$
Внимание!
Мода и медиана учитывают индивидуальные варианты и поэтому важны для характеристики вариационного ряда.
Особенное значение мода и медиана приобретают в рядах с выбросами – одиночными очень большими или очень малыми вариантами. В этом случае они оберегают от выводов на основании «средней температуры по больнице».
Примеры
Пример 1. В исследовании месячных доходов десяти человек были получены следующие данные: 200,100,300,300,1000,5000,100,200, 300,400 (дол.).
Найдите выборочную среднюю, моду и медиану.
Почему при оценке доходов мода и медиана предпочтительней выборочной средней?
Составим таблицу:
$x_i$, дол.
100
200
300
400
1000
5000
$\sum$
$n_i$, чел.
2
2
3
1
1
1
10
$x_i n_i$
200
400
900
400
1000
5000
7900
Выборочная средняя:$ x_{cp} = \frac{7900}{10} = 790$ (дол.)
Мода: $M_o$ = 300 (дол.) – максимальная частота 3
Медиана:
100, 100, 200, 200, 300, 300, 300, 400, 1000, 5000
$$ m = \frac{10}{2} = 5, x_5 = x_6 = 300, M_e = \frac{300+300}{2} = 300 (дол.) $$
Выборочная средняя не отражает доходов большей части людей в выборке, поскольку даже один человек с большими доходами может резко сместить оценку вправо. Мода и медиана хорошо отражают доходы большей части людей в выборке.
Пример 2. Исследовалось время решения задачи. В исследовании принимало участие 20 человек, из них двое задачу не решили. Время решения остальных участников:
$x_i$, мин
10
15
20
25
30
n_i, чел
2
5
5
4
2
Найдите выборочную среднюю, моду и медиану.
При подборе задач для контрольной работы, сколько времени следует отвести на решение подобной задачи?
Проведём вычисления:
$x_i$
10
15
20
25
30
$\sum$
$n_i$, чел
2
5
5
4
2
18
$x_i n_i$
20
75
100
100
60
355
$$x_cp = \frac{355}{18} ≈ 19,7 мин $$
В выборке 2 моды: $M_{o1}$ = 15 мин, $M_{o2}$ = 20 мин
Положение медианы: $m = \frac{N}{2} = \frac{18}{2} = 9, x_9 = x_10 = 20, Me = 20$ мин
Средняя, одна из мод и медиана равны 20 мин. Поэтому при составлении контрольной следует отвести на подобную задачу 20 мин.
Пример 3. работа по геометрии показала следующие результаты:
$x_i$
2
3
4
5
$n_i$, чел
5
22
10
2
Найдите выборочную среднюю, моду и медиану.
Что вы можете сказать об уровне понимания материала?
Проведём вычисления:
$x_i$
2
3
4
5
$\sum$
$n_i$
5
22
10
2
39
$x_i n_i$
10
66
40
10
126
$$x_cp = \frac{126}{39} ≈ 3,2$$
Мода: $M_o$ = 3 - эта оценка получена 22 раза
Положение медианы: $m = ⌈ \frac{N}{2}⌉ = ⌈\frac{39}{2}⌉ = 20, x_{20} = 3, Me = 3$
Средняя, мода и медиана равны 3.
Уровень понимания удовлетворительный, «на троечку».