Построение линейной модели регрессии по данным эксперимента

п.1. Результативные и факторные признаки

Совокупность информации, которая характеризует исследуемый процесс или объект, называют набором признаков.
Если признаки связаны между собой причинно-следственными связями, то их разделяют на два класса:
1) факторные (независимые) признаки – те, что влияют на изменение других признаков;
2) результативные (зависимые) признаки – те, что меняются под действием факторных признаков.

Например:

Факторный (независимый) признак
Результативный (зависимый) признак

Возраст

Сумма дохода

Инвестиции в проект

Прибыльность проекта

Затраты на рекламу

Объем продаж

По характеру зависимости признаков различают:

  • Функциональную зависимость, когда каждому определенному значению факторного признака x соответствует одно и только одно значение результативного признака \(y=f(x)\).
  • Статистическую зависимость, когда каждому определенному значению факторного признака x соответствует некоторое распределение \(F_Y(y|x)\) вероятностей значений результативного признака.

Например:
Функциональные зависимости: \(y(x)=x^2+3,\ S(R)=\pi R^2,\ V(a)=a^3\)
Статистические зависимости: средний балл успеваемости в зависимости от потраченного на учебу времени, рост в зависимости от возраста, количество осадков в зависимости от времени года и т.п.

Линейная модель парной регрессии

Статистическая модель – это результат обобщения результатов экспериментального исследования на основе их статистической обработки.

Например:
Прогноз погоды, автоматическая диагностика заболевания по результатам обследования, распознавание отпечатка на сканере и т.п.
В принципе, все сегодняшние компьютерные «чудеса» по поиску, обучению и распознаванию основаны на статистических моделях.

Рассмотрим саму простую модель: построение прямой \(Y=aX+b\) на основе полученных данных. Такая модель называется линейной моделью парной регрессии.

Пусть Y - случайная величина, значения которой требуется определить в зависимости от факторной переменной X.
Пусть в результате измерений двух случайных величин X и Y был получен набор точек \(\left\{(x_i;y_i)\right\},\ x_i\in X,\ y_i\in Y\).
Пусть \(y*=y*(x)\) - оценка значений величины Y на данном наборе \(x_i\). Тогда для каждого значения x случайной величиной является ошибка оценки: $$ \varepsilon (x)=y*(x)-Y $$ Например, если полученный набор точек при размещении на графике имеет вид:
Линейная модель парной регрессии
тогда разумно будет выдвинуть гипотезу, что для генеральной совокупности \(Y=aX+b\).
А для нашей выборки: \(y_i=ax_i+b+\varepsilon_i,\ i=\overline{1,k}\)
т.к., каждая точка выборки может немного отклоняться от прямой.

Наша задача: на данном наборе точек \(\left\{(x_i;y_i)\right\}\) найти параметры прямой a и b и построить эту прямую так, чтобы отклонения \(\varepsilon_i\) были как можно меньше.

п.3. Метод наименьших квадратов, вывод системы нормальных уравнений

Идея метода наименьших квадратов (МНК) состоит в том, чтобы найти такие значения a и b, для которых сумма квадратов всех отклонений \(\sum \varepsilon_i^2\rightarrow\ min\) будет минимальной.
Т.к. \(y_i=ax_i+b+\varepsilon_i\), сумма квадратов отклонений: $$ \sum_{i=1}^k \varepsilon_i^2=\sum_{i=1}^k (y_i-ax_i-b)^2\rightarrow min $$ Изучая производные, мы уже решали задачи на поиск экстремума (см. §50 данного справочника).
В данном случае нас интересует «двойной» экстремум, по двум переменным: $$ S(a,b)=\sum_{i=1}^k (y_i-ax_i-b)^2 $$ Сначала берем производную по a, считая b постоянной, и приравниваем её к 0: \begin{gather*} \frac{\partial S(a,b)}{\partial a}=\frac{\partial}{\partial a}\sum_{i=1}^k (y_i-ax_i-b)^2=\sum_{i=1}^k \frac{\partial}{\partial a}(y_i-ax_i-b)^2=\\ =\sum_{i=1}^k 2(y_i-ax_i-b)\cdot (-x_i)=-2\sum_{i=1}^k x_i(y_i-ax_i-b)=0 \end{gather*} Теперь то же самое делаем для b: \begin{gather*} \frac{\partial S(a,b)}{\partial b}=\frac{\partial}{\partial b}\sum_{i=1}^k (y_i-ax_i-b)^2=\sum_{i=1}^k \frac{\partial}{\partial b}(y_i-ax_i-b)^2=\\ =\sum_{i=1}^k 2(y_i-ax_i-b)\cdot (-1)=-2\sum_{i=1}^k (y_i-ax_i-b)=0 \end{gather*} Получаем систему: \begin{gather*} \begin{cases} \sum_{i=1}^k x_i(y_i-ax_i-b)=0\\ \sum_{i=1}^k (y_i-ax_i-b)=0 \end{cases} \\ \begin{cases} \sum_{i=1}^k x_iy_i-a\sum_{i=1}^k x_i^2-b\sum_{i=1}^k x_i=0\\ \sum_{i=1}^k y_i-a\sum_{i=1}^k x_i-b\sum_{i=1}^k 1=0 \end{cases} \end{gather*} Переставим уравнения местами и запишем в удобном для решения виде.

Система нормальных уравнений для параметров парной линейной регрессии $$ \begin{cases} a\sum_{i=1}^k x_i+bk=\sum_{i=1}^k y_i\\ a\sum_{i=1}^k x_i^2+b\sum_{i=1}^k x_i=\sum_{i=1}^k x_iy_i \end{cases} $$

Наши неизвестные – это a и b. И получена нами система двух линейных уравнений с двумя неизвестными, которую мы решаем методом Крамера (см. §48 справочника для 7 класса). \begin{gather*} \triangle = \begin{vmatrix} \sum_{i=1}^k x_i & k\\ \sum_{i=1}^k x_i^2 & \sum_{i=1}^k x_i \end{vmatrix},\ \ \triangle_a = \begin{vmatrix} \sum_{i=1}^k y_i & k\\ \sum_{i=1}^k x_iy_i & \sum_{i=1}^k x_i \end{vmatrix},\ \ \triangle_b = \begin{vmatrix} \sum_{i=1}^k x_i & \sum_{i=1}^k y_i\\ \sum_{i=1}^k x_i^2 & \sum_{i=1}^k x_iy_i \end{vmatrix} \\ a=\frac{\triangle_a}{\triangle},\ \ b=\frac{\triangle_b}{\triangle} \end{gather*}
Например:
Найдем и построим прямую регрессии для набора точек, представленных на графике выше. Общее число точек k=10.
Расчетная таблица:

\(i\) \(x_i\) \(y_i\) \(x_i^2\) \(x_iy_i\)
1 0 3,86 0 0
2 0,5 3,25 0,25 1,625
3 1 4,14 1 4,14
4 1,5 4,93 2,25 7,395
5 2 5,22 4 10,44
6 2,5 7,01 6,25 17,525
7 3 6,8 9 20,4
8 3,5 7,79 12,25 27,265
9 4 9,18 16 36,72
10 4,5 9,77 20,25 43,965
22,5 61,95 71,25 169,475

Получаем: \begin{gather*} \sum_{i=1}^k x_i=22,2;\ \sum_{i=1}^k x_i^2=71,25;\ \sum_{i=1}^k x_iy_i=169,475;\ \sum_{i=1}^k y_i=61,95\\ \triangle = \begin{vmatrix} 22,2 & 10\\ 71,25 & 22,2 \end{vmatrix}=22,2^2-10\cdot 71,25=-206,25\\ \triangle_a = \begin{vmatrix} 61,95 & 10\\ 169,475 & 22,2 \end{vmatrix}=61,95\cdot 22,2-10\cdot 169,475=-300,875\\ \triangle_b = \begin{vmatrix} 22,2 & 61,95\\ 71,25 & 169,475 \end{vmatrix}=22,2\cdot 169,475-61,95\cdot 71,25=-600,75 \\ a=\frac{\triangle_a}{\triangle}=\frac{-300,875}{-206,25}\approx 1,46,\ \ b=\frac{\triangle_b}{\triangle}=\frac{-600,75}{-206,25}\approx 2,91 \end{gather*}

Уравнение прямой регрессии: $$ Y=1,46\cdot X+2,91 $$

Метод наименьших квадратов, вывод системы нормальных уравнений

п.4. Оценка тесноты связи

Найденное уравнение регрессии всегда дополняют расчетом показателя тесноты связи.
Введем следующие средние величины: $$ \overline{x}=\frac1k\sum_{i=1}^k x_i,\ \ \overline{y}=\frac1k\sum_{i=1}^k y_i,\ \ \overline{x^2}=\frac1k\sum_{i=1}^k x_i^2,\ \ \overline{y^2}=\frac1k\sum_{i=1}^k y_i^2,\ \ \overline{xy}=\frac1k\sum_{i=1}^k x_iy_i $$ Дисперсия каждой из случайных величин x и y: $$ D_x=\overline{x^2}-(\overline{x})^2,\ \ D_y=\overline{y^2}-(\overline{y})^2 $$ СКО каждой из случайных величин: $$ \sigma_x=\sqrt{\overline{x^2}-(\overline{x})^2},\ \ \sigma_y=\sqrt{\overline{y^2}-(\overline{y})^2},\ \ $$

Линейный коэффициент корреляции \(r_{xy}\) является показателем тесноты линейной связи между факторной переменной x и результативной переменной y и рассчитывается по формуле: $$ r_{xy}=\frac{\overline{xy}-\overline{x}\cdot \overline{y}}{\sigma_x \sigma_y} $$

Значения линейного коэффициента корреляции находится в интервале $$ -1\leq r_{xy}\leq 1 $$ Чем ближе \(|r_{xy}|\) к единице, тем сильнее линейная связь между x и y.
Отрицательные значения \(|r_{xy}|\) соответствуют обратной связи: убывающей прямой с отрицательным угловым коэффициентом.

Для оценки тесноты связи на практике пользуются шкалой Чеддока:

Значение \(|r_{xy}|\)
Теснота линейной связи

\(\left.\left[0;\ 0,3\right.\right)\)

Очень слабая

\(\left.\left[0,3;\ 0,5\right.\right)\)

Слабая

\(\left.\left[0,5;\ 0,7\right.\right)\)

Средняя

\(\left.\left[0,7;\ 0,9\right.\right)\)

Высокая

\([0,9;\ 1]\)

Очень высокая

Например:
Для построенной выше прямой регрессии получаем: \begin{gather*} \overline{x}=\frac1k\sum_{i=1}^k x_i=\frac{22,2}{10}=2,22\\ \overline{y}=\frac1k\sum_{i=1}^k y_i=\frac{61,95}{10}=6,195\\ \overline{x^2}=\frac1k\sum_{i=1}^k x_i^2=\frac{71,25}{10}=7,125\\ \overline{y^2}=\frac1k\sum_{i=1}^k y_i^2\approx \frac{429,94}{10}=42,994\\ \overline{xy}=\frac1k\sum_{i=1}^k x_i y_i= \frac{169,475}{10}\approx 16,948\\ \overline{xy}-\overline{x}\cdot \overline{y}=16,948-2,22\cdot 6,195\approx 3,009\\ D_x=\overline{x^2}-(\overline{x})^2=7,125-(2,22)^2\approx 2,063\\ D_y=\overline{y^2}-(\overline{y})^2=42,994-(6,195)^2\approx 4,616\\ r_{xy}=\frac{\overline{xy}-\overline{x}\cdot \overline{y}}{\sqrt{D_x\cdot D_y}}\approx \frac{3,009}{\sqrt{2,063\cdot 4,616}}\approx 0,975 \end{gather*}


$$ r_{xy}=0,975 $$

По шкале Чеддока полученное значение коэффициента \(r_{xy}\) указывает на очень высокую прямую линейную связь.

Регистрация
Войти с помощью
Необходимо принять пользовательское соглашение
Войти
Войти с помощью
Восстановление пароля
Пожаловаться
Задать вопрос