Построение линейной модели регрессии по данным эксперимента
п.1. Результативные и факторные признаки
Если признаки связаны между собой причинно-следственными связями, то их разделяют на два класса:
1) факторные (независимые) признаки – те, что влияют на изменение других признаков;
2) результативные (зависимые) признаки – те, что меняются под действием факторных признаков.
Например:
Возраст
Сумма дохода
Инвестиции в проект
Прибыльность проекта
Затраты на рекламу
Объем продаж
По характеру зависимости признаков различают:
- Функциональную зависимость, когда каждому определенному значению факторного признака x соответствует одно и только одно значение результативного признака \(y=f(x)\).
- Статистическую зависимость, когда каждому определенному значению факторного признака x соответствует некоторое распределение \(F_Y(y|x)\) вероятностей значений результативного признака.
Например:
Функциональные зависимости: \(y(x)=x^2+3,\ S(R)=\pi R^2,\ V(a)=a^3\)
Статистические зависимости: средний балл успеваемости в зависимости от потраченного на учебу времени, рост в зависимости от возраста, количество осадков в зависимости от времени года и т.п.
Линейная модель парной регрессии
Например:
Прогноз погоды, автоматическая диагностика заболевания по результатам обследования, распознавание отпечатка на сканере и т.п.
В принципе, все сегодняшние компьютерные «чудеса» по поиску, обучению и распознаванию основаны на статистических моделях.
Рассмотрим саму простую модель: построение прямой \(Y=aX+b\) на основе полученных данных. Такая модель называется линейной моделью парной регрессии.
Пусть Y - случайная величина, значения которой требуется определить в зависимости от факторной переменной X.
Пусть в результате измерений двух случайных величин X и Y был получен набор точек \(\left\{(x_i;y_i)\right\},\ x_i\in X,\ y_i\in Y\).
Пусть \(y*=y*(x)\) - оценка значений величины Y на данном наборе \(x_i\). Тогда для каждого значения x случайной величиной является ошибка оценки: $$ \varepsilon (x)=y*(x)-Y $$ Например, если полученный набор точек при размещении на графике имеет вид:
тогда разумно будет выдвинуть гипотезу, что для генеральной совокупности \(Y=aX+b\).
А для нашей выборки: \(y_i=ax_i+b+\varepsilon_i,\ i=\overline{1,k}\)
т.к., каждая точка выборки может немного отклоняться от прямой.
Наша задача: на данном наборе точек \(\left\{(x_i;y_i)\right\}\) найти параметры прямой a и b и построить эту прямую так, чтобы отклонения \(\varepsilon_i\) были как можно меньше.
п.3. Метод наименьших квадратов, вывод системы нормальных уравнений
Идея метода наименьших квадратов (МНК) состоит в том, чтобы найти такие значения a и b, для которых сумма квадратов всех отклонений \(\sum \varepsilon_i^2\rightarrow\ min\) будет минимальной.
Т.к. \(y_i=ax_i+b+\varepsilon_i\), сумма квадратов отклонений: $$ \sum_{i=1}^k \varepsilon_i^2=\sum_{i=1}^k (y_i-ax_i-b)^2\rightarrow min $$ Изучая производные, мы уже решали задачи на поиск экстремума (см. §50 данного справочника).
В данном случае нас интересует «двойной» экстремум, по двум переменным: $$ S(a,b)=\sum_{i=1}^k (y_i-ax_i-b)^2 $$ Сначала берем производную по a, считая b постоянной, и приравниваем её к 0: \begin{gather*} \frac{\partial S(a,b)}{\partial a}=\frac{\partial}{\partial a}\sum_{i=1}^k (y_i-ax_i-b)^2=\sum_{i=1}^k \frac{\partial}{\partial a}(y_i-ax_i-b)^2=\\ =\sum_{i=1}^k 2(y_i-ax_i-b)\cdot (-x_i)=-2\sum_{i=1}^k x_i(y_i-ax_i-b)=0 \end{gather*} Теперь то же самое делаем для b: \begin{gather*} \frac{\partial S(a,b)}{\partial b}=\frac{\partial}{\partial b}\sum_{i=1}^k (y_i-ax_i-b)^2=\sum_{i=1}^k \frac{\partial}{\partial b}(y_i-ax_i-b)^2=\\ =\sum_{i=1}^k 2(y_i-ax_i-b)\cdot (-1)=-2\sum_{i=1}^k (y_i-ax_i-b)=0 \end{gather*} Получаем систему: \begin{gather*} \begin{cases} \sum_{i=1}^k x_i(y_i-ax_i-b)=0\\ \sum_{i=1}^k (y_i-ax_i-b)=0 \end{cases} \\ \begin{cases} \sum_{i=1}^k x_iy_i-a\sum_{i=1}^k x_i^2-b\sum_{i=1}^k x_i=0\\ \sum_{i=1}^k y_i-a\sum_{i=1}^k x_i-b\sum_{i=1}^k 1=0 \end{cases} \end{gather*} Переставим уравнения местами и запишем в удобном для решения виде.
Система нормальных уравнений для параметров парной линейной регрессии $$ \begin{cases} a\sum_{i=1}^k x_i+bk=\sum_{i=1}^k y_i\\ a\sum_{i=1}^k x_i^2+b\sum_{i=1}^k x_i=\sum_{i=1}^k x_iy_i \end{cases} $$ |
Наши неизвестные – это a и b. И получена нами система двух линейных уравнений с двумя неизвестными, которую мы решаем методом Крамера (см. §48 справочника для 7 класса). \begin{gather*} \triangle = \begin{vmatrix} \sum_{i=1}^k x_i & k\\ \sum_{i=1}^k x_i^2 & \sum_{i=1}^k x_i \end{vmatrix},\ \ \triangle_a = \begin{vmatrix} \sum_{i=1}^k y_i & k\\ \sum_{i=1}^k x_iy_i & \sum_{i=1}^k x_i \end{vmatrix},\ \ \triangle_b = \begin{vmatrix} \sum_{i=1}^k x_i & \sum_{i=1}^k y_i\\ \sum_{i=1}^k x_i^2 & \sum_{i=1}^k x_iy_i \end{vmatrix} \\ a=\frac{\triangle_a}{\triangle},\ \ b=\frac{\triangle_b}{\triangle} \end{gather*}
Например:
Найдем и построим прямую регрессии для набора точек, представленных на графике выше. Общее число точек k=10.
Расчетная таблица:
\(i\) | \(x_i\) | \(y_i\) | \(x_i^2\) | \(x_iy_i\) |
1 | 0 | 3,86 | 0 | 0 |
2 | 0,5 | 3,25 | 0,25 | 1,625 |
3 | 1 | 4,14 | 1 | 4,14 |
4 | 1,5 | 4,93 | 2,25 | 7,395 |
5 | 2 | 5,22 | 4 | 10,44 |
6 | 2,5 | 7,01 | 6,25 | 17,525 |
7 | 3 | 6,8 | 9 | 20,4 |
8 | 3,5 | 7,79 | 12,25 | 27,265 |
9 | 4 | 9,18 | 16 | 36,72 |
10 | 4,5 | 9,77 | 20,25 | 43,965 |
∑ | 22,5 | 61,95 | 71,25 | 169,475 |
Получаем: \begin{gather*} \sum_{i=1}^k x_i=22,2;\ \sum_{i=1}^k x_i^2=71,25;\ \sum_{i=1}^k x_iy_i=169,475;\ \sum_{i=1}^k y_i=61,95\\ \triangle = \begin{vmatrix} 22,2 & 10\\ 71,25 & 22,2 \end{vmatrix}=22,2^2-10\cdot 71,25=-206,25\\ \triangle_a = \begin{vmatrix} 61,95 & 10\\ 169,475 & 22,2 \end{vmatrix}=61,95\cdot 22,2-10\cdot 169,475=-300,875\\ \triangle_b = \begin{vmatrix} 22,2 & 61,95\\ 71,25 & 169,475 \end{vmatrix}=22,2\cdot 169,475-61,95\cdot 71,25=-600,75 \\ a=\frac{\triangle_a}{\triangle}=\frac{-300,875}{-206,25}\approx 1,46,\ \ b=\frac{\triangle_b}{\triangle}=\frac{-600,75}{-206,25}\approx 2,91 \end{gather*}
Уравнение прямой регрессии: $$ Y=1,46\cdot X+2,91 $$ |
п.4. Оценка тесноты связи
Найденное уравнение регрессии всегда дополняют расчетом показателя тесноты связи.
Введем следующие средние величины: $$ \overline{x}=\frac1k\sum_{i=1}^k x_i,\ \ \overline{y}=\frac1k\sum_{i=1}^k y_i,\ \ \overline{x^2}=\frac1k\sum_{i=1}^k x_i^2,\ \ \overline{y^2}=\frac1k\sum_{i=1}^k y_i^2,\ \ \overline{xy}=\frac1k\sum_{i=1}^k x_iy_i $$ Дисперсия каждой из случайных величин x и y: $$ D_x=\overline{x^2}-(\overline{x})^2,\ \ D_y=\overline{y^2}-(\overline{y})^2 $$ СКО каждой из случайных величин: $$ \sigma_x=\sqrt{\overline{x^2}-(\overline{x})^2},\ \ \sigma_y=\sqrt{\overline{y^2}-(\overline{y})^2},\ \ $$
Значения линейного коэффициента корреляции находится в интервале $$ -1\leq r_{xy}\leq 1 $$ Чем ближе \(|r_{xy}|\) к единице, тем сильнее линейная связь между x и y.
Отрицательные значения \(|r_{xy}|\) соответствуют обратной связи: убывающей прямой с отрицательным угловым коэффициентом.
Для оценки тесноты связи на практике пользуются шкалой Чеддока:
\(\left.\left[0;\ 0,3\right.\right)\)
Очень слабая
\(\left.\left[0,3;\ 0,5\right.\right)\)
Слабая
\(\left.\left[0,5;\ 0,7\right.\right)\)
Средняя
\(\left.\left[0,7;\ 0,9\right.\right)\)
Высокая
\([0,9;\ 1]\)
Очень высокая
Например:
Для построенной выше прямой регрессии получаем: \begin{gather*} \overline{x}=\frac1k\sum_{i=1}^k x_i=\frac{22,2}{10}=2,22\\ \overline{y}=\frac1k\sum_{i=1}^k y_i=\frac{61,95}{10}=6,195\\ \overline{x^2}=\frac1k\sum_{i=1}^k x_i^2=\frac{71,25}{10}=7,125\\ \overline{y^2}=\frac1k\sum_{i=1}^k y_i^2\approx \frac{429,94}{10}=42,994\\ \overline{xy}=\frac1k\sum_{i=1}^k x_i y_i= \frac{169,475}{10}\approx 16,948\\ \overline{xy}-\overline{x}\cdot \overline{y}=16,948-2,22\cdot 6,195\approx 3,009\\ D_x=\overline{x^2}-(\overline{x})^2=7,125-(2,22)^2\approx 2,063\\ D_y=\overline{y^2}-(\overline{y})^2=42,994-(6,195)^2\approx 4,616\\ r_{xy}=\frac{\overline{xy}-\overline{x}\cdot \overline{y}}{\sqrt{D_x\cdot D_y}}\approx \frac{3,009}{\sqrt{2,063\cdot 4,616}}\approx 0,975 \end{gather*}
По шкале Чеддока полученное значение коэффициента \(r_{xy}\) указывает на очень высокую прямую линейную связь.