Главная Справочник Алгебра 10-11 класс Построение линейной модели регрессии по данным эксперимента

Построение линейной модели регрессии по данным эксперимента

Результативные и факторные признаки
Линейная модель парной регрессии
Метод наименьших квадратов, вывод системы нормальных уравнений
Оценка тесноты связи

п.1. Результативные и факторные признаки

Совокупность информации, которая характеризует исследуемый процесс или объект, называют набором признаков.
Если признаки связаны между собой причинно-следственными связями, то их разделяют на два класса:
1) факторные (независимые) признаки – те, что влияют на изменение других признаков;
2) результативные (зависимые) признаки – те, что меняются под действием факторных признаков.

Например:

Факторный (независимый) признак

Результативный (зависимый) признак

Возраст

Сумма дохода

Инвестиции в проект

Прибыльность проекта

Затраты на рекламу

Объем продаж

По характеру зависимости признаков различают:

Функциональную зависимость, когда каждому определенному значению факторного признака x соответствует одно и только одно значение результативного признака $y=f(x)$.
Статистическую зависимость, когда каждому определенному значению факторного признака x соответствует некоторое распределение $F_Y(y|x)$ вероятностей значений результативного признака.

Например:
Функциональные зависимости: $y(x)=x^2+3,\ S(R)=\pi R^2,\ V(a)=a^3$
Статистические зависимости: средний балл успеваемости в зависимости от потраченного на учебу времени, рост в зависимости от возраста, количество осадков в зависимости от времени года и т.п.

Линейная модель парной регрессии

Статистическая модель – это результат обобщения результатов экспериментального исследования на основе их статистической обработки.

Например:
Прогноз погоды, автоматическая диагностика заболевания по результатам обследования, распознавание отпечатка на сканере и т.п.
В принципе, все сегодняшние компьютерные «чудеса» по поиску, обучению и распознаванию основаны на статистических моделях.

Рассмотрим саму простую модель: построение прямой $Y=aX+b$ на основе полученных данных. Такая модель называется линейной моделью парной регрессии.

Пусть Y - случайная величина, значения которой требуется определить в зависимости от факторной переменной X.
Пусть в результате измерений двух случайных величин X и Y был получен набор точек $\left\{(x_i;y_i)\right\},\ x_i\in X,\ y_i\in Y$.
Пусть $y*=y*(x)$ - оценка значений величины Y на данном наборе $x_i$. Тогда для каждого значения x случайной величиной является ошибка оценки: $$ \varepsilon (x)=y*(x)-Y $$ Например, если полученный набор точек при размещении на графике имеет вид:
Линейная модель парной регрессии
тогда разумно будет выдвинуть гипотезу, что для генеральной совокупности $Y=aX+b$.
А для нашей выборки: $y_i=ax_i+b+\varepsilon_i,\ i=\overline{1,k}$
т.к., каждая точка выборки может немного отклоняться от прямой.

Наша задача: на данном наборе точек $\left\{(x_i;y_i)\right\}$ найти параметры прямой a и b и построить эту прямую так, чтобы отклонения $\varepsilon_i$ были как можно меньше.

п.3. Метод наименьших квадратов, вывод системы нормальных уравнений

Идея метода наименьших квадратов (МНК) состоит в том, чтобы найти такие значения a и b, для которых сумма квадратов всех отклонений $\sum \varepsilon_i^2\rightarrow\ min$ будет минимальной.
Т.к. $y_i=ax_i+b+\varepsilon_i$, сумма квадратов отклонений: $$ \sum_{i=1}^k \varepsilon_i^2=\sum_{i=1}^k (y_i-ax_i-b)^2\rightarrow min $$ Изучая производные, мы уже решали задачи на поиск экстремума (см. §50 данного справочника).
В данном случае нас интересует «двойной» экстремум, по двум переменным: $$ S(a,b)=\sum_{i=1}^k (y_i-ax_i-b)^2 $$ Сначала берем производную по a, считая b постоянной, и приравниваем её к 0: \begin{gather*} \frac{\partial S(a,b)}{\partial a}=\frac{\partial}{\partial a}\sum_{i=1}^k (y_i-ax_i-b)^2=\sum_{i=1}^k \frac{\partial}{\partial a}(y_i-ax_i-b)^2=\\ =\sum_{i=1}^k 2(y_i-ax_i-b)\cdot (-x_i)=-2\sum_{i=1}^k x_i(y_i-ax_i-b)=0 \end{gather*} Теперь то же самое делаем для b: \begin{gather*} \frac{\partial S(a,b)}{\partial b}=\frac{\partial}{\partial b}\sum_{i=1}^k (y_i-ax_i-b)^2=\sum_{i=1}^k \frac{\partial}{\partial b}(y_i-ax_i-b)^2=\\ =\sum_{i=1}^k 2(y_i-ax_i-b)\cdot (-1)=-2\sum_{i=1}^k (y_i-ax_i-b)=0 \end{gather*} Получаем систему: \begin{gather*} \begin{cases} \sum_{i=1}^k x_i(y_i-ax_i-b)=0\\ \sum_{i=1}^k (y_i-ax_i-b)=0 \end{cases} \\ \begin{cases} \sum_{i=1}^k x_iy_i-a\sum_{i=1}^k x_i^2-b\sum_{i=1}^k x_i=0\\ \sum_{i=1}^k y_i-a\sum_{i=1}^k x_i-b\sum_{i=1}^k 1=0 \end{cases} \end{gather*} Переставим уравнения местами и запишем в удобном для решения виде.

Система нормальных уравнений для параметров парной линейной регрессии $$ \begin{cases} a\sum_{i=1}^k x_i+bk=\sum_{i=1}^k y_i\\ a\sum_{i=1}^k x_i^2+b\sum_{i=1}^k x_i=\sum_{i=1}^k x_iy_i \end{cases} $$

Наши неизвестные – это a и b. И получена нами система двух линейных уравнений с двумя неизвестными, которую мы решаем методом Крамера (см. §48 справочника для 7 класса). \begin{gather*} \triangle = \begin{vmatrix} \sum_{i=1}^k x_i & k\\ \sum_{i=1}^k x_i^2 & \sum_{i=1}^k x_i \end{vmatrix},\ \ \triangle_a = \begin{vmatrix} \sum_{i=1}^k y_i & k\\ \sum_{i=1}^k x_iy_i & \sum_{i=1}^k x_i \end{vmatrix},\ \ \triangle_b = \begin{vmatrix} \sum_{i=1}^k x_i & \sum_{i=1}^k y_i\\ \sum_{i=1}^k x_i^2 & \sum_{i=1}^k x_iy_i \end{vmatrix} \\ a=\frac{\triangle_a}{\triangle},\ \ b=\frac{\triangle_b}{\triangle} \end{gather*}
Например:
Найдем и построим прямую регрессии для набора точек, представленных на графике выше. Общее число точек k=10.
Расчетная таблица:

$i$	$x_i$	$y_i$	$x_i^2$	$x_iy_i$
1	0	3,86	0	0
2	0,5	3,25	0,25	1,625
3	1	4,14	1	4,14
4	1,5	4,93	2,25	7,395
5	2	5,22	4	10,44
6	2,5	7,01	6,25	17,525
7	3	6,8	9	20,4
8	3,5	7,79	12,25	27,265
9	4	9,18	16	36,72
10	4,5	9,77	20,25	43,965
∑	22,5	61,95	71,25	169,475

Получаем: \begin{gather*} \sum_{i=1}^k x_i=22,2;\ \sum_{i=1}^k x_i^2=71,25;\ \sum_{i=1}^k x_iy_i=169,475;\ \sum_{i=1}^k y_i=61,95\\ \triangle = \begin{vmatrix} 22,2 & 10\\ 71,25 & 22,2 \end{vmatrix}=22,2^2-10\cdot 71,25=-206,25\\ \triangle_a = \begin{vmatrix} 61,95 & 10\\ 169,475 & 22,2 \end{vmatrix}=61,95\cdot 22,2-10\cdot 169,475=-300,875\\ \triangle_b = \begin{vmatrix} 22,2 & 61,95\\ 71,25 & 169,475 \end{vmatrix}=22,2\cdot 169,475-61,95\cdot 71,25=-600,75 \\ a=\frac{\triangle_a}{\triangle}=\frac{-300,875}{-206,25}\approx 1,46,\ \ b=\frac{\triangle_b}{\triangle}=\frac{-600,75}{-206,25}\approx 2,91 \end{gather*}

Уравнение прямой регрессии: $$ Y=1,46\cdot X+2,91 $$

Метод наименьших квадратов, вывод системы нормальных уравнений

п.4. Оценка тесноты связи

Найденное уравнение регрессии всегда дополняют расчетом показателя тесноты связи.
Введем следующие средние величины: $$ \overline{x}=\frac1k\sum_{i=1}^k x_i,\ \ \overline{y}=\frac1k\sum_{i=1}^k y_i,\ \ \overline{x^2}=\frac1k\sum_{i=1}^k x_i^2,\ \ \overline{y^2}=\frac1k\sum_{i=1}^k y_i^2,\ \ \overline{xy}=\frac1k\sum_{i=1}^k x_iy_i $$ Дисперсия каждой из случайных величин x и y: $$ D_x=\overline{x^2}-(\overline{x})^2,\ \ D_y=\overline{y^2}-(\overline{y})^2 $$ СКО каждой из случайных величин: $$ \sigma_x=\sqrt{\overline{x^2}-(\overline{x})^2},\ \ \sigma_y=\sqrt{\overline{y^2}-(\overline{y})^2},\ \ $$

Линейный коэффициент корреляции $r_{xy}$ является показателем тесноты линейной связи между факторной переменной x и результативной переменной y и рассчитывается по формуле: $$ r_{xy}=\frac{\overline{xy}-\overline{x}\cdot \overline{y}}{\sigma_x \sigma_y} $$

Значения линейного коэффициента корреляции находится в интервале $$ -1\leq r_{xy}\leq 1 $$ Чем ближе $|r_{xy}|$ к единице, тем сильнее линейная связь между x и y.
Отрицательные значения $|r_{xy}|$ соответствуют обратной связи: убывающей прямой с отрицательным угловым коэффициентом.

Для оценки тесноты связи на практике пользуются шкалой Чеддока:

Значение $|r_{xy}|$

Теснота линейной связи

$\left.\left[0;\ 0,3\right.\right)$

Очень слабая

$\left.\left[0,3;\ 0,5\right.\right)$

Слабая

$\left.\left[0,5;\ 0,7\right.\right)$

Средняя

$\left.\left[0,7;\ 0,9\right.\right)$

Высокая

$[0,9;\ 1]$

Очень высокая

Например:
Для построенной выше прямой регрессии получаем: \begin{gather*} \overline{x}=\frac1k\sum_{i=1}^k x_i=\frac{22,2}{10}=2,22\\ \overline{y}=\frac1k\sum_{i=1}^k y_i=\frac{61,95}{10}=6,195\\ \overline{x^2}=\frac1k\sum_{i=1}^k x_i^2=\frac{71,25}{10}=7,125\\ \overline{y^2}=\frac1k\sum_{i=1}^k y_i^2\approx \frac{429,94}{10}=42,994\\ \overline{xy}=\frac1k\sum_{i=1}^k x_i y_i= \frac{169,475}{10}\approx 16,948\\ \overline{xy}-\overline{x}\cdot \overline{y}=16,948-2,22\cdot 6,195\approx 3,009\\ D_x=\overline{x^2}-(\overline{x})^2=7,125-(2,22)^2\approx 2,063\\ D_y=\overline{y^2}-(\overline{y})^2=42,994-(6,195)^2\approx 4,616\\ r_{xy}=\frac{\overline{xy}-\overline{x}\cdot \overline{y}}{\sqrt{D_x\cdot D_y}}\approx \frac{3,009}{\sqrt{2,063\cdot 4,616}}\approx 0,975 \end{gather*}

$$ r_{xy}=0,975 $$

По шкале Чеддока полученное значение коэффициента $r_{xy}$ указывает на очень высокую прямую линейную связь.

Рейтинг пользователей

за неделю

за неделю
один месяц
три месяца

Помогай другим

Отвечай на вопросы и получай ценные призы каждую неделю

См. подробности

\(i\)	\(x_i\)	\(y_i\)	\(x_i^2\)	\(x_iy_i\)
1	0	3,86	0	0
2	0,5	3,25	0,25	1,625
3	1	4,14	1	4,14
4	1,5	4,93	2,25	7,395
5	2	5,22	4	10,44
6	2,5	7,01	6,25	17,525
7	3	6,8	9	20,4
8	3,5	7,79	12,25	27,265
9	4	9,18	16	36,72
10	4,5	9,77	20,25	43,965
∑	22,5	61,95	71,25	169,475