Оценки параметров генеральной совокупности. Доверительные интервалы
- Переход от выборки к генеральной совокупности
- Способы, виды и методы отбора
- Распространение результатов выборки на генеральную совокупность при изучении альтернативного признака
- Алгоритм построения доверительного интервала для оценки генеральной доли
- Для каких величин строят доверительные интервалы?
- Примеры
п.1. Переход от выборки к генеральной совокупности
В статистическом исследовании при изучении некоторого признака (или набора признаков) проводят конечное число наблюдений \(x_1,x_2,…,x_k\).
Реально полученная совокупность наблюдений \(\left\{x_i\right\}\) называется выборкой (sample).
Как правило, при этом существует более обширная генеральная совокупность (population), на которую результаты анализа выборки планируется распространить. Например:
50 посетителей магазина, заполнившие анкеты
Все будущие посетители магазина
100 опрошенных школьников
Все школьники города/области/страны
10 опытов с определением периода математического маятника
Все математические маятники
Насколько большой должна быть выборка, чтобы надежно представлять генеральную совокупность? К концу параграфа мы получим ответ на этот вопрос для определенного класса задач.
Попутно заметим, что малой называют выборку, если при исследовании одного признака её объем \(n\lt 30\), а при исследовании k признаков \(\frac{n}{k}\lt 10\).
п.2. Способы, виды и методы отбора
Пять способов отбора |
Простой случайный | Объекты случайно извлекаются из генеральной совокупности, например, с помощью генератора случайных чисел. |
Простой механический | Объекты извлекаются по тегу, например, при поиске по дате, номеру, букве алфавита и т.д. |
Стратифицированный (типический) |
Объекты извлекаются по признаку, например, по возрасту, району проживания, профессии и т.д. |
Серийный | Простым случайным или простым механическим способом отбирается группа (серия) объектов, а затем они все изучаются (сплошное исследование). Например, выбор дома и опрос всех его жильцов; или выбор партии товара и проверка каждого изделия в партии. |
Комбинированный | Сочетание нескольких предыдущих способов. |
Три вида отбора |
Индивидуальный | Отбираются отдельные единицы генеральной совокупности |
Групповой | Отбираются однородные по некоторому признаку группы |
Комбинированный | Сочетание индивидуального и группового |
Два метода отбора |
Повторная выборка | Единицу генеральной совокупности отбирают, показания регистрируют, а затем возвращают обратно (т.е. могут опять выбрать). |
Бесповторная выборка | Единицу генеральной совокупности отбирают, показания регистрируют, и обратно не возвращают. |
п.3. Распространение результатов выборки на генеральную совокупность при изучении альтернативного признака
Например:
1) орел или решка;
2) 0 или 1;
3) качественный или бракованный и т.п.
Мы уже знаем, что конечное число экспериментов с таким признаком описывается биномиальным распределением (см. §40 справочника для 9 класса), а при \(n\rightarrow \infty\) биномиальное распределение приближается к нормальному (см. §64 данного справочника).
При исследовании альтернативного признака x генеральной совокупности с помощью выборки будем использовать следующие обозначения:
Генеральная совокупность |
Выборка | |
Объем | $$ N $$ | $$ n $$ |
Число единиц с признаком x | $$ N_x $$ | $$ n_x $$ |
Доля единиц с признаком x | $$ p=\frac{N_x}{N} $$ | $$ w=\frac{n_x}{n} $$ |
Дисперсия | $$ \sigma^2=p(1-p) $$ | $$ \sigma^2=w(1-w) $$ |
CKO | $$ \sigma=\sqrt{p(1-p)} $$ | $$ \sigma=\sqrt{w(1-w)} $$ |
Например:
Из партии товара в 1000 изделий было случайным образом выбрано 100 изделий, и среди них обнаружено 8 бракованных. Для этой выборки можем записать: \begin{gather*} N=1000,\ n=100,\ n_x=8,\ w=\frac{8}{100}=0,08\\ \sigma^2=w(1-w)=\frac{8}{100}\cdot\frac{92}{100}=\frac{736}{10000}=0,0736;\ \ \sigma=\sqrt{\frac{736}{10000}}\approx 0,2713 \end{gather*}
В партии товара из предыдущего примера \(w=0,005\) - доля брака.
Средняя ошибка при определении доли брака в генеральной совокупности зависит от способа отбора партии. Пусть выборка бесповторная (при выборе 100 изделий из 1000 мы откладывали их в сторону).
Тогда: \begin{gather*} m=\sqrt{\frac{w(1-w)}{n}\left(1-\frac nN\right)}=\sqrt{\frac{0,0736}{1000}\left(1-\frac{100}{1000}\right)}\approx 0,0257 \end{gather*}
Доверительный интервал для оценки среднего значения доли в генеральной совокупности: $$ p=w\pm\triangle\ \text{или}\ w-\triangle\leq p\leq 2+\triangle $$
\(Z_\alpha\) – это квантиль нормального распределения, который появляется потому, что генеральная совокупность считается нормально распределенной.
Величина \(P=1-\alpha\) называется уровнем доверия (доверительной вероятностью), это вероятность того, что при измерении доли в генеральной совокупности её значение попадет в заданный интервал.
Соответственно \(\alpha\) – уровень значимости - это вероятность промаха.
Существуют таблицы со значениями \(Z_\alpha\).
Для расчета также можно пользоваться MS Excel функцией НОРМСТОБР(1-α/2).
Например:
Найдем \(Z_\alpha\) для доверительной вероятности 95%.
\(P=0,95\Rightarrow\alpha=1-P=0,05\)
Теперь найдем предельную ошибку выборки для нашего примера с точностью до тысячных: $$ \triangle =1,9600\cdot 0,0257\approx 0,050 $$ Заметим, что расчеты в данном случае ведутся в Excel, и мы просто записываем результаты округлений, в то время как в сам Excel хранит результаты и выполняет вычисления точностью до 15 значащих цифр.
Если вы ведете расчеты на калькуляторе с промежуточными округлениями, то для того, чтобы получить результат с точностью до тысячных, нужно иметь «про запас» еще одну цифру после запятой (т.е. до 4х знаков).
95% доверительный интервал имеет вид: \begin{gather*} 0,08-0,050\leq p\leq 0,08+0,050\\ 0,030\leq p\leq 0,130 \end{gather*} Вывод: с вероятностью 95% можно утверждать, что доля брака в генеральной совокупности (всей партии) составляет от 3,0% до 13,0%.
п.4. Минимальный объем выборки
- для повторной выборки \(n_{мин}=\left(\frac{Z_\alpha \sigma}{\triangle}\right)^2\)
- для бесповторной выборки \(n_{мин}=\frac{1}{\left(\frac{\triangle}{Z_\alpha \sigma}\right)^2+\frac1N}\)
Например:
Пусть «целевая» предельная ошибка выборки равна \(\triangle =0,01\), доверительная вероятность равна 95%.
Для нашего примера с партией товара получаем (бесповторная выборка): $$ n_{мин}=\frac{1}{\left(\frac{0,01}{1,96\cdot 0,271}\right)^2+\frac{1}{1000}}\approx 738,7\approx \uparrow 739 $$ Нам необходимо проверить не менее 739 изделий из 1000, чтобы записать для средней доли в генеральной совокупности \(p=w\pm 0,01\).
п.4. Алгоритм построения доверительного интервала для оценки генеральной доли
Повторная выборка
На входе: объем выборки n, число повторений признака \(n_x\), доверительная вероятность \(P\)
Шаг 1. Найти выборочную долю \(w=\frac{n_x}{n}\), дисперсию \(\sigma=\sqrt{w(1-w)}\)
Шаг 2. Найти среднюю ошибку выборки \(m=\frac{\sigma}{\sqrt{n}}\)
Шаг 3. Найти уровень значимости \(\alpha=1-P\), рассчитать \(Z_\alpha\) (если в Excel, то НОРМСТОБР(1-α/2))
Шаг 4. Найти предельную ошибку выборки \(\triangle =Z_\alpha m\)
На выходе: интервал для генеральной доли \(p=w\pm\triangle\)
Бесповторная выборка
На входе: объем генеральной совокупности N, объем выборки n, число повторений признака \(n_x\), доверительная вероятность \(P\)
Шаг 1. Найти выборочную долю \(w=\frac{n_x}{n}\), дисперсию \(\sigma=\sqrt{w(1-w)}\)
Шаг 2. Найти среднюю ошибку выборки \(m=\frac{\sigma}{\sqrt{n}}\sqrt{1-\frac nN}\)
Шаг 3. Найти уровень значимости \(\alpha=1-P\), рассчитать \(Z_\alpha\) (если в Excel, то НОРМСТОБР(1-α/2))
Шаг 4. Найти предельную ошибку выборки \(\triangle =Z_\alpha m\)
На выходе: интервал для генеральной доли \(p=w\pm\triangle\)
п.5. Для каких величин строят доверительные интервалы?
В этом параграфе мы научились строить доверительный интервал для оценки биномиальной доли в генеральной совокупности.
На практике в статистических исследованиях доверительные интервалы строят для:
- оценки математического ожидания в генеральной совокупности, если выборка образует вариационный ряд (дискретный или непрерывный). Здесь разделяют два случая: а) генеральная дисперсия известна или б) она неизвестна;
- оценки дисперсии генеральной совокупности, если выборка образует вариационный ряд (дискретный или непрерывный). Здесь также разделяют два случая: а) генеральная средняя известна или б) она неизвестна.
Алгоритмы для поиска доверительных интервалов отличаются использованием различных распределений (Z-распределения, t-распределения Стьюдента, χ2-распределения), но, если обобщить, то логика такова: опираясь на результаты выборки и гипотезу о распределении средней или дисперсии, получаем оценку для соответствующей генеральной величины.
Подробней о построении различных доверительных интервалов вы можете узнать из вузовских курсов теории вероятностей и статистики.
п.6. Примеры
Пример 1. Перед выборами мера в городе был проведен опрос 1000 человек (2% бесповторная выборка). В результате опроса оказалось, что за кандидата Y готовы проголосовать 423 человека из опрошенных. Определите с уровнем значимости 3% долю сторонников кандидата Y в городе.
По условию: $$ n=1000;\ \frac nN=2\text{%}=0,02;\ n_x=423;\ \alpha=3\text{%}=0,03 $$ Находим выборочную долю и дисперсию: \begin{gather*} w=\frac{n_x}{n}=\frac{423}{1000}=0,423\\ \sigma^2=w(1-w)=0,423\cdot 0,577\approx 0,2441 \end{gather*} Средняя ошибка выборки: $$ m=\sqrt{\frac{\sigma^2}{n}\left(1-\frac nN\right)}=\sqrt{\frac{0,2441}{1000}\cdot (1-0,02)}\approx 0,0155 $$ Находим \(Z_\alpha\)
Предельная ошибка выборки с точностью до тысячных: $$ \triangle=Z_\alpha m=2,1701\cdot 0,0155\approx 0,034 $$ 97% доверительный интервал имеет вид: \begin{gather*} 0,423-0,034\leq p\leq 0,423+0,034\\ 0,389\leq p\leq 0,457 \end{gather*}
Вывод: с вероятностью 97% (уровнем значимости 3%) можно утверждать, что доля сторонников кандидата Y в городе составляет от 38,9% до 45,7%.
Пример 2. Какое минимальное число людей нужно опросить в городе из предыдущего примера, чтобы можно было с уровнем значимости 3% получить предельную ошибку для генеральной доли \(\triangle=\)1%. Выборка бесповторная.
По условию предыдущего примера общее число жителей в городе: \(N=\frac{n}{0,02}=50000\).
Оценка минимального объема бесповторной выборки: $$ n_{мин}=\frac{1}{\left(\frac{\triangle}{Z_\alpha \sigma}\right)^2+\frac1N} $$ Нужно подставить: \begin{gather*} \triangle=1\text{%}=0,01;\ Z_\alpha=2,170;\ \sigma=\sqrt{0,2441};\ N=50000 \end{gather*} Получаем: $$ n_{мин}=\frac{1}{\left(\frac{0,01}{2,170\cdot\sqrt{0,2441}}\right)^2+\frac{1}{50000}} $$ Таким образом, чтобы снизить предельную ошибку определения генеральной доли до 1%, нужно опросить не менее 9346 человек или почти что каждого пятого жителя города.