Что характеризует коэффициент детерминации. Смотреть страницы где упоминается термин коэффициент детерминации

💖 Нравится? Поделись с друзьями ссылкой
Сегодня уже все, кто хоть немного интересуется дата майнингом, наверняка слышали про простую линейную регрессию . Про нее уже писали на хабре, а также подробно рассказывал Эндрю Нг в своем известном курсе машинного обучения. Линейная регрессия является одним из базовых и самых простых методов машинного обучения, однако очень редко упоминаются методы оценки качества построенной модели. В этой статье я постараюсь немного исправить это досадное упущение на примере разбора результатов функции summary.lm() в языке R. При этом я постараюсь предоставить необходимые формулы, таким образом все вычисления можно легко запрограммировать на любом другом языке. Эта статья предназначена для тех, кто слышал о том, что можно строить линейную регрессию, но не сталкивался со статистическими процедурами для оценки ее качества.

Модель линейной регрессии

Итак, пусть есть несколько независимых случайных величин X1, X2, ..., Xn (предикторов) и зависящая от них величина Y (предполагается, что все необходимые преобразования предикторов уже сделаны). Более того, мы предполагаем, что зависимость линейная, а ошибки рапределены нормально, то есть

Где I - единичная квадратная матрица размера n x n.

Итак, у нас есть данные, состоящие из k наблюдений величин Y и Xi и мы хотим оценить коэффициенты. Стандартным методом для нахождения оценок коэффициентов является метод наименьших квадратов . И аналитическое решение, которое можно получить, применив этот метод, выглядит так:

где b с крышкой - оценка вектора коэффициентов, y - вектор значений зависимой величины, а X - матрица размера k x n+1 (n - количество предикторов, k - количество наблюдений), у которой первый столбец состоит из единиц, второй - значения первого предиктора, третий - второго и так далее, а строки соответствуют имеющимся наблюдениям.

Функция summary.lm() и оценка получившихся результатов

Теперь рассмотрим пример построения модели линейной регрессии в языке R:
> library(faraway) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) > summary(lm1) Call: lm(formula = Species ~ Area + Elevation + Nearest + Scruz + Adjacent, data = gala) Residuals: Min 1Q Median 3Q Max -111.679 -34.898 -7.862 33.460 182.584 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Adjacent -0.074805 0.017700 -4.226 0.000297 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 60.98 on 24 degrees of freedom Multiple R-squared: 0.7658, Adjusted R-squared: 0.7171 F-statistic: 15.7 on 5 and 24 DF, p-value: 6.838e-07
Таблица gala содержит некоторые данные о 30 Галапагосских островах. Мы будем рассматривать модель, где Species - количество разных видов растений на острове линейно зависит от нескольких других переменных.

Рассмотрим вывод функции summary.lm().
Сначала идет строка, которая напоминает, как строилась модель.
Затем идет информация о распределении остатков: минимум, первая квартиль, медиана, третья квартиль, максимум. В этом месте было бы полезно не только посмотреть на некоторые квантили остатков, но и проверить их на нормальность, например тестом Шапиро-Уилка.
Далее - самое интересное - информация о коэффициентах. Здесь потребуется немного теории.
Сначала выпишем следующий результат:

при этом сигма в квадрате с крышкой является несмещенной оценкой для реальной сигмы в квадрате. Здесь b - реальный вектор коэффициентов, а эпсилон с крышкой - вектор остатков, если в качестве коэффициентов взять оценки, полученные методом наименьших квадратов. То есть при предположении, что ошибки распределены нормально, вектор коэффициентов тоже будет распределен нормально вокруг реального значения, а его дисперсию можно несмещенно оценить. Это значит, что можно проверять гипотезу на равенство коэффициентов нулю, а следовательно проверять значимость предикторов, то есть действительно ли величина Xi сильно влияет на качество построенной модели.
Для проверки этой гипотезы нам понадобится следующая статистика, имеющая распределение Стьюдента в том случае, если реальное значение коэффициента bi равно 0:

где
- стандартная ошибка оценки коэффициента, а t(k-n-1) - распределение Стьюдента с k-n-1 степенями свободы.

Теперь все готово для продолжения разбора вывода функции summary.lm().
Итак, далее идут оценки коэффициентов, полученные методом наименьших квадратов, их стандартные ошибки, значения t-статистики и p-значения для нее. Обычно p-значение сравнивается с каким-нибудь достаточно малым заранее выбранным порогом, например 0.05 или 0.01. И если значение p-статистики оказывается меньше порога, то гипотеза отвергается, если же больше, ничего конкретного, к сожалению, сказать нельзя. Напомню, что в данном случае, так как распределение Стьюдента симметричное относительно 0, то p-значение будет равно 1-F(|t|)+F(-|t|), где F - функция распределения Стьюдента с k-n-1 степенями свободы. Также, R любезно обозначает звездочками значимые коэффициенты, для которых p-значение достаточно мало. То есть, те коэффициенты, которые с очень малой вероятностью равны 0. В строке Signif. codes как раз содержится расшифровка звездочек: если их три, то p-значение от 0 до 0.001, если две, то оно от 0.001 до 0.01 и так далее. Если никаких значков нет, то р-значение больше 0.1.

В нашем примере можно с большой уверенностью сказать, что предикторы Elevation и Adjacent действительно с большой вероятностью влияют на величину Species, а вот про остальные предикторы ничего определенного сказать нельзя. Обычно, в таких случаях предикторы убирают по одному и смотрят, насколько изменяются другие показатели модели, например BIC или Adjusted R-squared, который будет разобран далее.

Значение Residual standart error соответствует просто оценке сигмы с крышкой, а степени свободы вычисляются как k-n-1.

А теперь самая важные статистики, на которые в первую очередь стоит смотреть: R-squared и Adjusted R-squared:

где Yi - реальные значения Y в каждом наблюдении, Yi с крышкой - значения, предсказанные моделью, Y с чертой - среднее по всем реальным значениям Yi.

Начнем со статистики R-квадрат или, как ее иногда называют, коэффициента детерминации. Она показывает, насколько условная дисперсия модели отличается от дисперсии реальных значений Y. Если этот коэффициент близок к 1, то условная дисперсия модели достаточно мала и весьма вероятно, что модель неплохо описывает данные. Если же коэффициент R-квадрат сильно меньше, например, меньше 0.5, то, с большой долей уверенности модель не отражает реальное положение вещей.

Однако, у статистики R-квадрат есть один серьезный недостаток: при увеличении числа предикторов эта статистика может только возрастать. Поэтому, может показаться, что модель с большим количеством предикторов лучше, чем модель с меньшим, даже если все новые предикторы никак не влияют на зависимую переменную. Тут можно вспомнить про принцип бритвы Оккама . Следуя ему, по возможности, стоит избавляться от лишних предикторов в модели, поскольку она становится более простой и понятной. Для этих целей была придумана статистика скорректированный R-квадрат. Она представляет собой обычный R-квадрат, но со штрафом за большое количество предикторов. Основная идея: если новые независимые переменные дают большой вклад в качество модели, значение этой статистики растет, если нет - то наоборот уменьшается.

Для примера рассмотрим ту же модель, что и раньше, но теперь вместо пяти предикторов оставим два:
> lm2<-lm(Species~Elevation+Adjacent, data=gala) > summary(lm2) Call: lm(formula = Species ~ Elevation + Adjacent, data = gala) Residuals: Min 1Q Median 3Q Max -103.41 -34.33 -11.43 22.57 203.65 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.43287 15.02469 0.095 0.924727 Elevation 0.27657 0.03176 8.707 2.53e-09 *** Adjacent -0.06889 0.01549 -4.447 0.000134 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 60.86 on 27 degrees of freedom Multiple R-squared: 0.7376, Adjusted R-squared: 0.7181 F-statistic: 37.94 on 2 and 27 DF, p-value: 1.434e-08
Как можно увидеть, значение статистики R-квадрат снизилось, однако значение скорректированного R-квадрат даже немного возросло.

Теперь проверим гипотезу о равенстве нулю всех коэффициентов при предикторах. То есть, гипотезу о том, зависит ли вообще величина Y от величин Xi линейно. Для этого можно использовать следующую статистику, которая, если гипотеза о равенстве нулю всех коэффициентов верна, имеет

Для определения статистической значимости коэффициента детерминации R 2 проверяется нулевая гипотеза дляF-статистики, рассчитываемой по формуле:

Соответственно, для парной регрессии

Смысл проверяемой гипотезы заключается в том, что все коэффициенты ли­нейной регрессии, за исключением свободного члена, равны нулю. Если они действительно равны нулю для генеральной совокупности, то уравнение регрессии должно иметь вид
, а коэффициент детерминацииR 2 иF -статистика Фишера также равны нулю. При этом их оценки для случайной выборки, конечно, отличаются от нуля, но чем больше такое отличие, тем менее оно вероятно. Логика проверки нулевой гипотезы заключается в том, что если произошло событие, которое было бы слишком маловероятным в том случае, если данная гипотеза действительно была бы верна, то эта гипотеза отвергается.

Величина F , если предположить, что выполнены предпосылки относительно отклоненийе i , имеет распределение Фишера с(т; п-т-1) степенями свободы, гдет - число объясняющих переменных,п - число наблюдений.

Итак, показатели F и R 2 равны или не равны нулю одновременно, поэтомуF = 0 равнозначно тому, что линия регрессии
является наилучшей по МНК и, следовательно, величинау статистически независима отх. Поэтому проверяется нулевая гипотеза для показателяF , который имеет хорошо известное, табулированное распределение - распределение Фишера. Для проверки этой гипотезы при заданном уровне значимости по таблицам находится критическое значениеF крит , и нулевая гипотеза отвергается, еслиF > F крит .

Пример 4.1

Пусть, например, при оценке парной регрессии по 15 наблюдениям R 2 = 0,7. В этом случаеF = 0,7 13/0,3.По таблицам для распределения Фишера с (1; 13) степенями свободы найдем, что при 5%-ном уровне значимости (доверительная вероятность 95%) критическое значениеF равно 4,67, при 1%-ном - 9,07. ПосколькуF =30,З>F крит ., нулевая гипотеза в обоих случаях отвергается. Если в той же ситуацииR 2 = 0,5, тоF = 13, и предположение о незначимости связи отвергается и здесь.

Конец примера

Таким образом, для того, чтобы отвергнуть гипотезу о равенстве нулю одновременно всех коэффициентов линейной регрессии, коэффициент детерминации не должен быть очень близким к единице; его критическое значение для данного числа степеней свободы уменьшается при росте числа наблюдений и может стать сколь угодно малым. В то же время величина коэффициента R 2 (точнее, рассчитанной по немуF -статистики, поскольку последняя учитывает число наблюдений и число объ­ясняющих переменных) может служить отражением общего качества регрессионной модели.

Отметим, что в случае парной регрессии проверка нулевой гипотезы для t - статистики коэффициента регрессии равносильна проверке нулевой гипотезы дляF -статистики (и, соответственно, показателяR 2 ). В этом случаеF -статистика равна квадратуt -статистики. В случае парной регрессии статистическая значимость величинR 2 иt -статистики коэффициента регрессии определяется коррелированностью переменныхх иу. Самостоятельную важность показательR 2 приобретает в случае множественной линейной регрессии.

Лабораторная работа №4.2.1. Проверка значимости коэффициента детерминации r2

В предыдущей задаче коэффициент детерминации R 2 равен 0,996544 (см. ячейкуG6 в результатах функции ЛИНЕЙН), что указывает на сильную зависимость между независимыми переменными и ценой. Определить, является ли этот результат (с таким высоким значениеR 2 ) случайным, используя F-статистику.

Сoefficient of determination

Синонимы: Коэффициент смешанной корреляции

Статистический показатель, отражающий объясняющую способность уравнения регрессии и равный отношению суммы квадратов регрессии SSR к общейвариации SST:

где – уровень ряда,– смоделированное значение,– среднее по всем уровням ряда.

Данный показатель является статистической мерой согласия, с помощью которой можно определить, насколько уравнение регрессии соответствует реальным данным.

Коэффициент детерминации изменяется в диапазоне от 0 до 1. Если он равен 0, это означает, что связь между переменными регрессионной модели отсутствует, и вместо нее для оценки значения выходной переменной можно с таким же успехом использовать простое среднее ее наблюдаемых значений. Напротив, если коэффициент детерминации равен 1, это соответствует идеальной модели, когда все точки наблюдений лежат точно налинии регрессии , т.е. сумма квадратов их отклонений равна 0. На практике, если коэффициент детерминации близок к 1, это указывает на то, что модель работает очень хорошо (имеет высокую значимость), а если к 0, то это означает низкую значимость модели, когдавходная переменная плохо "объясняет" поведение выходной, т.е. линейная зависимость между ними отсутствует. Очевидно, что такая модель будет иметь низкую эффективность.

Коэффициент детерминации (R 2 )- это долядисперсии отклонений зависимой переменной от еёсреднего значения , объясняемая рассматриваемоймоделью связи (объясняющими переменными). Модель связи обычно задается как явная функция от объясняющих переменных. В частном случае линейной связиR 2 является квадратомкоэффициента корреляции между зависимой переменной и объясняющими переменными.

Общая формула для вычисления коэффициента детерминации:

где y i - наблюдаемое значение зависимой переменной, аf i - значение зависимой переменной предсказанное по уравнению регрессии-среднее арифметическое зависимой переменной.

При проверке гипотезы о наличии связи модель связи может быть неизвестна. Тогда ее задают в виде кусочно-постоянной функции (в этом случае коэффициент детерминации равен квадрату корреляционного отношения) либо оценивают неизвестные значения функции связи, используя методы сглаживания эмпирической зависимости (напримерметод скользящих средних ) .

При выполнении процедуры проверки значимости коэффициента детерминации выдвигается нулевая гипотеза Нo против альтернативной H1 которые заключаются в следующем:

Нo: существенного различия между выборочным коэффициентом детерминации и коэффициентом детерминации генеральной совокупности B(r) = 0 нет.

Эта гипотеза равносильна гипотезе Нo: β1 = β2 = … = βm = 0, т. е. ни одна из объясняющих переменных, включенных в регрессию, не оказывает существенного влияния на зависимую переменную.

Н1: выборочный коэффициент детерминации существенно больше коэффициента детерминации генеральной совокупности В(г) = 0.

Из постановки задачи ясно, что следует использовать одностороннюю критическую область. Принятие гипотезы Н1 означает, что по крайней мере одна из m объясняющих переменных, включенных в регрессию, оказывает существенное влияние на переменную у.

Для оценки значимости парного коэффициента детерминации используется статистика

Имеющая F-распределение Фишера с f1 = m = 1 и f2 = n – 2 степенями свободы. Значение статистики, вычисленное вышеприведенной формуле, сравнивается с критическим значением этой статистики при заданном уровне значимости £ и соответствующем числе степеней свободы. Если F > Ff1; f2;£, то вычисленный коэффициент детерминации значимо отличается от нуля. Этот вывод обеспечивается с вероятностью 1 - £.


28 Проверка значимости коэффициентов регрессии

Проверка статистической значимости параметров регрессионного уравнения (коэффициентов регрессии) выполняется по t -критерию Стьюдента, который рассчитывается по формуле:

где P - значение параметра;
S p - стандартное отклонение параметра.

Рассчитанное значение критерия Стьюдента сравнивают с его табличным значением при выбранной доверительной вероятности (как правило, 0.95) и числе степеней свободы N -k -1, где N -число точек, k -число переменных в регрессионном уравнении (например, для линейной моделиY=A*X+B подставляем k =1).

Если вычисленное значение t p выше, чем табличное, то коэффициент регрессии является значимым с данной доверительной вероятностью. В противном случае есть основания для исключения соответствующей переменной из регрессионной модели.

Величины параметров и их стандартные отклонения обычно рассчитываются в алгоритмах, реализующих метод наименьших квадратов.


29 Проверка общего качества уравнения регрессии. Коэффициент детерминации. Проверка значимости коэффициента детерминации

После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии. Для этой цели, как и в случае парной регрессии, используется коэффициент детерминации R 2 , который рассчитывается по формуле:

В общем случае 0 < R 2 < 1. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y. Поэтому естественно желание построить регрессию с наибольшим R 2 .

Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R . Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. Это уменьшает (в худшем случае не увеличивает) область неопределенности в поведении Y.

Коэффициент детерминации ()- это квадрат множественного коэффициента корреляции. Он показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.

Формула для вычисления коэффициента детерминации:

где - выборочные данные, а - соответствующие им значения модели.

Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

Коэффициент принимает значения из интервала . Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть .

После оценки индивидуальной статистической значимости каждого из коэффициентов регрессии обычно анализируется совокупная значимость коэффициентов. Такой анализ осуществляется на основе проверки гипотезы об общей значимости - гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:

0: β 0 = β 1 = β 2 = ... = β m =0

Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных X 1 , Х 2 , ..., Х m модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравне­ния регрессии невысоким.

Проверка данной гипотезы осуществляется на основе дисперсионного анализа сравнения объясненной и остаточной дисперсий.

H 0: (объясненная дисперсия) = (остаточная дисперсия),

H 1: (объясненная дисперсия) > (остаточная дисперсия).

Строится F-статистика:

где - объясненная дисперсия; - остаточная дисперсия. При выполнении предпосылок МНК построенная F-статистика имеет распределение Фишера с числами степеней свободы ν 1 =m, ν 2 = n-m-1. Поэтому, если при требуемом уровне значимости α F набл > F α,m,n-m-1 = F кр (критическая точка распределения Фишера), то H 0 отклоняется в пользу H 1 . Это означает, что объясненная дисперсия существенно больше остаточной дисперсии, а следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной Y.

Однако на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней гипотезу о статистической значимости коэффициента детерминации R 2:

Для проверки данной гипотезы используется следующая F-статистика:

Величина F при выполнении предпосылок МНК и при справедливости. Но имеет распределение Фишера, аналогичное распределению F-статистики.

Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации R 2 не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.


30. Путь, полный путь, критический путь, определение критического пути четырехсекторным методом.

Путь – любая последовательность работ, в которой конечное событие каждой работы совпадает с начальным событием следующий за ней работы.

Полный путь L – любой путь, начало которого совпадает с исходным событием сети, а конец – с завершающим.

Критич. путь - полный путь, имеющий наибольшую длину (продолжительность) из всех полных путей. Eгo длина опред. срок выполнения работ по сетевому графику. В rрафике может быть несколько критич. путей. Работы, лежащие на критич. пути, наз. критическими. Увеличение продолжительности критич. работ соответств. увеличивает общую продолжительность работ по СГ.

При четырехсекторном способе определения критического пути кружок сетевого графика, обозначающий событие, делится на четыре сектора (рис.а). В верхнем ставится номер события i, в левом – наиболее раннее из возможных время свершения события tp(i), в правом – наиболее позднее из допустимых время свершения события tп(i), в нижнем – резерв времени данного события R(i).

Рисунок: а) обозначения в вершине графика; б) сетевой график.

Раннее время свершения события tp(i) определяется продолжительностью максимального пути max(t) до (i), предшествующего событию i: tp(i)=max(t) до (i).

Послойно, переходя от исходного события до конечного, определим tp(i). Всегда для начального события tp(1)=0.

Для события 3 (рис., б) – tp(3)=max{1+3,0+5}=5; для события 4 – tp(4)=max{1+2,5+6}=11.

Длина критического пути Lкр=11. Послойно, переходя от конечного события до начального, определим tп(i). Всегда для конечного события tп(4)=t(Lкр)=11. Позднее время свершения события tп(i) определяется временем достаточным для выполнения работ, следующих за этим событием, т.е. зная продолжительность максимального из последующих за событием i путей max(t) после (i) и продолжительность критического пути t(Lкр), можно найти tп(i)= t(Lкр)-max(t) после (i).

Для события 2 – tп(3)=11-max{3+6,2}=2.

Для критического пути время раннего свершения события tp(i) равно времени позднего свершения этого события tп(i), т.е. tp(i)= tп(i). Зная ранние и поздние сроки свершения событий сетевого графика, легко выявить резерв времени каждого из них R(i)= tп(i)- tp(i).

Резерв времени события показывает максимально допустимое время, на которое можно отодвинуть момент его свершения, не вызывая увеличения критического пути. События критического пути резерва времени не имеют.

Связь параметров сетевого графика для событий и работ показана в таблице.

Таблица - Расчет параметров работ

Резерв времени для работы R(ij) определяется по формуле: R(ij)= tп(j)- tр(i)-tij.

31. Расчет временных параметров событий в задачах сетевого планирования.

При анализе сетевого графика прежде всего вычисляют его временные параметры. К основным временным параметрам относятся:

Продолжительность критического пути (критический срок);

Сроки свершения и резервы сетей;

Сроки выполнения отдельных работ и их резервы времени.

Основные временные параметры

Ранний срок свершения событий – самый ранний момент, в котором завершаются все работы предшествующие этому событию. Рассчитывается по формуле:

Где - ранний срок свершения события i.

Продолжительность работы i, j.

Подмножество, включающее все работы входящие в событие j.

Поздний срок свершения события – такой предельный момент, после которого остаётся столько времени, сколько необходимо для выполнения всех работ следующих за этим событием.

Рассчитывается по формуле: .

Резерв времени события показывает, на какой предельно допустимый срок может задержаться свершение событий i без нарушения сроков наступления завершающего события.

R(i)=

Резервы времени критических событий=0

Ранний срок начала работы совпадает с ранним сроком свершения событий i.

Ранний срок окончания работы определяется по формуле:

Поздний срок окончания работы совпадает с поздним сроком свершения события j.

Поздний срок начала работы определяется по формуле:

Полный резерв времени работы - это максимальный запас времени, на которое можно задержать начало работы или увеличить её продолжительность при условии, что весь комплекс работ будет завершён в критический срок.

Свободный резерв времени работы - это максимальный запас времени, на который можно отсрочить или увеличить её продолжительность при условии, что не нарушаться ранние сроки начала всех последующих работ.

Критические работы, как и критические события резервов не имеют.

Расчёт временных параметров сетевой модели проводят в 4 этапа:

1) прямой – вычисления начинаются с исходного события и продолжаются пока не будет достигнуто завершающее событие. Для каждого события вычисляется ранний срок его свершения.

2) обратный – вычисление начинается с обратного события и продолжается пока не будет достигнуто исходное событие. Для каждого события рассчитывается поздний срок его свершения.

3) вычисляются резервы времени событий и выделяется критический путь. Критический путь – это самый продолжительный путь, который проходит через события, резерв времени которых равен нулю.

4) строится сводная таблица временных параметров события.


32. Регрессии. Нелинейные по переменным и их построение.

Чтобы написать ту или иную зависимость прим. ур-ие регрессии – ур-ие, связыв. между собой фактор признаки и результативные признаки. Ур-ие регрессии бывают линейные и нелинейные. Сама регрессия бывает парная (зав-сть между 1-им фактор признаком и результатом) y = y(x) ; и множественная y = a + bx (парная линейная регрессия, т.к. х и у участвуют в 1-ой степени, а и b – параметры рег. имеющие эк. смысл).При иссл. соц.-экон. явл. и процессов далеко не все зависимости можно описать с помощью лин. связи. Т.О. в ЭММ широко использ. класс нелин. моделей регрессии, кот. делятся на 2 класса:1) модели регрессии, нелин. относительно включенных в анализ независ. переменных, но линейные по оцениваемым параметрам;2) модели регрессии, нелинейные по оцениваемым параметрам.Для оценки параметров нелинейных моделей используют два подхода. 1.основан на линеаризации модели (с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линей. соотношения между преобразованными переменными). 2.применяют в случаях, когда подобрать соответствующее линеаризующее преобразование не удается. Тогда исп. методы нелин. оптимизации на основе исходных переменных. Оценка параметров регрессии, нелинейной по переменным, включенным в анализ, но линейной по оцениваемым параметрам, проводится с помощью МНК путем решения системы линейных алгебр.уравнений. К моделям регрессии, нелинейным относительно включённых в анализ независимых переменных (но линейных по оцениваемым параметрам), относятся полиномы выше второго порядка и гиперболическая функция. Эти модели представляют собой что зависимая переменная yi линейно связана с параметрами модели.Полиномы или полин. функции примен. при анализе процессов с монотонным развитием и отсутствием пределов роста. (нап.натур.показатели пром. про-ва). Полин. функции характер. отсутствием явной зависимости приростов факторных переменных от значений результативной переменной yi.Общий вид полинома n-го порядка (n-ой степени): Чаще всего в ЭММ примен. полином второго порядка (параболическая функция), характ. равноускоренное развитие процесса (равноускоренный рост или снижение уровней).: Гиперболическая функция характеризует нелин. зависимость между результативной переменной yi и факторной переменной xi, однако, эта функция является лин.по оцениваемым параметрам.(модель зависимости затрат на единицу продукции от объёма производства)Гиперболоид или гиперболическая функция имеет вид: Данная гиперб. функция является равносторонней.Неизвестные параметры модели регрессии, нелинейной по факторным переменным, можно найти только после того, как модели будет приведена к линейному виду.Для того чтобы оценить неизвестные параметры нелин. регрессионной модели необходимо привести её к линейному виду. Суть процесс линеаризации нелин. по факторным переменным моделей регрессии заключается в замене нелин. факторных переменных на лин. переменные.Рассмотрим процесс линеаризации полиномиальной функции порядка n: Заменим все факторные переменные на линейные следующим образом:x=c1; x2=c2; x3=c3; … xn=cn.Тогда модель множественной регрессии можно записать в виде:yi= Рассмотрим процесс линеаризации гиперболической функции: Данная функция может быть приведена к линейному виду путём замены нелин.факторной переменной 1/x на лин.переменную с. Тогда модель регрессии можно записать в виде:yi=Следовательно, модели регрессии, нелин. относительно включенных в анализ независимых переменных, но лин. по оцениваемым параметрам, могут быть преобразованы к лин. виду. Это позволяет применять к линеаризованным моделям регрессии классические методы определения неизвестных параметров модели (метод наименьших квадратов), а также методы проверки различных гипотез.33. Резервы времени работ в задачах сетевого планирования Путь характеризуется двумя показателями - продолжительностью и резервом. Для событий рассчитывают три характеристики: ранний и поздний срок совершения события, а также его резерв.
Ранний срок свершения события определяется величиной наиболее длительного отрезка пути от исходного до рассматриваемого события, причем tр(1)=0, a tр(N)=tKp(L):
tр(j)=max{tр(j)+(i,j)}; j=2,…,N
Поздний срок свершения события характеризует самый поздний допустимый срок, к которому должно совершиться событие, не вызывая при этом срыва срока свершения конечного события:
tn(i)=min{tn(i)-t(i,j)}; j=2,…,N-1
Этот показатель определяется «обратным ходом», начиная с завершающего события, с учетом соотношения tn(N)=tp(N).
Все события, за исключением событий, принадлежащих критическому пути, имеют резерв R(i):
R(i)=tn(i)-tp(i)
Резерв определяется как разность между длинами критического и рассматриваемого путей. Из этого определения следует, что работы, лежащие на критическом пути, и сам критический путь имеют нулевой резерв времени. Резерв времени пути показывает, на сколько может увеличиться продолжительность работ, составляющих данный путь, без изменения продолжительности общего срока выполнения всех работ.Резерв показывает, на какой предельно допустимый срок можно задержать наступление этого события, не вызывая при этом увеличения срока выполнения всего комплекса работ. Для всех работ (i,j) на основе ранних и поздних сроков свершения всех событий можно определить показатели:
Ранний срок начала- tpn(i,j)=p(i) ;
Ранний срок окончания - tpo(i,j)=tp(i)+t(i,j);
Поздний срок окончания - tno(U)=tn(j);
Поздний срок начала -tпн(i,j)=tn(j)-t(i,j);
Полный резерв времени -Rn(i,j)=tn(j)-tp(i)-t(i,j);
Независимый резерв -
Rн(i,j)=max{0; tp(j)–tn(i)-t(i,j)}=max{0;Rn(i,j)-R(i)-R(j)}.
Полный резерв времени показывает, на сколько можно увеличить время выполнения конкретной работы при условии, что срок выполнения всего комплекса работ не изменится.
Независимый резерв времени соответствует случаю, когда все предшествующие работы заканчиваются в поздние сроки, а все последующие - начинаются в ранние сроки. Использование этого резерва не влияет на величину резервов времени других работ.

34. Сроки раннего и позднего начала и окончания работ в задачах сетевого планирования

Работа – это некоторый процесс, приводящий к достижению определенного результата и требующий затрат каких-либо ресурсов, имеет протяженность во времени.

Начало и окончание любой работы описываются парой событий, которые называются начальным и конечным событиями


Временные параметры работ определяются на основе ранних и поздних сроков событий:

· – ранний срок начала работы;

· – ранний срок окончания работы;

· – поздний срок окончания работы;

· – поздний срок начала работы;


35. Сроки совершения событий в задачах сетевого планирования

Событие – момент времени, когда завершаются одни работы и начинаются другие. Событие представляет собой результат проведенных работ и, в отличие от работ, не имеет протяженности во времени. Например, фундамент залит бетоном, комплектующие поставлены, отчеты сданы...

В сетевой модели имеется начальное событие (с номером 1), из которого работы только выходят, и конечное событие (с номером N), в которое работы только входят.

Путь – это последовательность работ в сетевом графике, в которой конечное событие одной работы совпадает с начальным событием следующей за ней работы. Полный путь – это путь от исходного до завершающего события. Критический путь –максимальный по продолжительности полный путь. Работы, лежащие на критическом пути, называют критическими. Критические работы имеют нулевые свободные и полные резервы. Подкритический путь – полный путь, ближайший по длительности к критическому пути. Сетевой график может содержать не один, а несколько критических путей. Критическими называются также работы и события, расположенные на этом пути. Резервный интервал от t до t* для событий, лежащих на критическом пути, равен 0. Для завершающего события сетевого графика поздний срок свершения события должен равняться его раннему сроку, т. е. tп = t*п.

– ранний срок наступления события i, минимально необходимый для выполнения всех работ, которые предшествуют событию i

– поздний срок наступления события i, превышение которого вызовет аналогичную задержку наступления завершающего события сети;

– резерв события i, т.е. время, на которое может быть отсрочено наступление события i без нарушения сроков завершения проекта в целом.

Ранние сроки свершения событий рассчитываются от исходного (И) к завершающему (З) событию следующим образом:

1) для исходного события И ;

2) для всех остальных событий I

Межотраслевые балансы могут разрабатываться на плановый и отчетный период в натуральном, натурально-стоимостном и стоимостном выражении.

МОБ в натуральном выражении (в физических измерителях) охватывают только важнейшие виды продукции. Натурально-стоимостной (баланс смешанного типа) охватывает весь общественный продукт. Стоимостной баланс характеризует процесс воспроизводства в денежном выражении.

МОБ представлен в виде системы линейных уравнений. МОБ представляет собой таблицу, в которой отражен процесс формирования и использования совокупного общественного продукта в отраслевом разрезе. Таблица показывает структуру затрат на производство каждого продукта и структуру его распределения в экономике. По столбцам отражается стоимостной состав валового выпуска отраслей экономики по элементам промежуточного потребления и добавленной стоимости. По строкам отражаются направления использования ресурсов каждой отрасли.

В. Леонтьев создал научно обоснованный метод "затраты-выпуск", который позволяет анализировать межотраслевые связи в национальном хозяйстве и определять возможные направления оптимизации отраслевой структуры.

В общем виде модель МОБ Леонтьева имеет следующий вид:

где X- объем производства какой-либо отрасли;Y - конечный продукт этой отрасли;А - матрица технологических коэффициентов прямых затрат, aij, которые показывают, сколько продукции отрасли необходимо затратить для производства единицы продукции отрасли.


37. Типы данных и виды переменных в эконометрических задачах

При эконометрическом моделировании экономических процессов используют следующие типы эмпирических (статистических) данных:

а) пространственные;

б) временные.

Пространственными данными является набор сведений по разным экономическим объектам, но за один и тот же период или момент времени. Примером таких данных явл сведения по разным фирмам (объем производства, численность работников, стоимость основных производственных фондов, прибыль за определенный период и т.д.).

Временными данными является набор сведений, характеризующих один и тот же объект, но в разные периоды или моменты времени. Примером таких данных явл данные о ежемесячных объемах грузооборота порта, о годовых объемах перевезенных грузов судоходной компанией, о среднегодовой себестоимости перевозки одной тонны груза по судоходной компании за ряд лет.

Переменные, участвующие в эконометрической модели, разделяются на следующие виды:

1) текущие экзогенные или независимые переменные (xt), значения которых задаются извне модели на данный момент времени t;

2) текущие эндогенные или зависимые переменные (yt), значения которых определяются внутри модели на данный момент времени t;

3) лаговые (экзогенные (xt-1, xt-2 и т.д.) или эндогенные переменные(yt-1, yt-2 и т.д.)), датированные предыдущими моментами времени и находящиеся в уравнении с текущими переменными;

4) предопределенные (объясняющие) переменные, к которым относятся текущие экзогенные переменные (xt), лаговые экзогенные переменные (xt-1, xt-2 и т.д.), а также лаговые эндогенные переменные (yt-1, yt-2 и т.д.)

Любая эконометрическая модель объясняет значения текущих эндогенных переменных в зависимости от предопределенных переменных.


Похожая информация.


Отклонений зависимой переменной от её среднего значения. Зависимая переменная объясняется (прогнозируется) с помощью функции от объясняющих переменных, в частном случае является квадратом коэффициента корреляции между зависимой переменной и её прогнозными значениями с помощью объясняющих переменных. Тогда можно сказать, что R 2 показывает, какая доля дисперсии результативного признака объясняется влиянием объясняющих переменных.

Формула для вычисления коэффициента детерминации:

где yi - наблюдаемое значение зависимой переменной, а fi - значение зависимой переменной предсказанное по уравнению регрессии -среднее арифметическое зависимой переменной.

[править]Проблемы и общие свойства R 2

[править]Интерпретация

Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока):

Количественная мера тесноты связи

Качественная характеристика силы связи

Умеренная

Заметная

Весьма высокая

Функциональная связь возникает при значении равном 1, а отсутствие связи - 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

[править]Общие свойства для МНК регрессии

Линейная множественная регрессия методом наименьших квадратов (МНК) - наиболее распространённый случай использования коэффициента детерминации R 2.

Линейная множественная МНК регрессия имеет следующие общие свойства :

1. Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

2. С увеличением количества объясняющих переменных увеличивается R 2.

[править]Общие свойства для МНК регрессии со свободным членом (единичным фактором)

Для случая наличия в такой регрессии свободного члена коэффициент детерминации обладает следующими свойствами:

1. принимает значения из интервала (отрезка) .

2. в случае парной линейной регрессионной МНК модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R 2 = r 2. А в случае множественной МНК регрессии R 2 = r (y ;f )2. Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

3. R 2 можно разложить по вкладу каждого фактора в значение R 2, причём вклад каждого такого фактора будет положительным. Используется разложение: , где r 0j - выборочный коэффициент корреляции зависимой и соответствующей второму индексу объясняющей переменной.

4. R 2 связан с проверкой гипотезы о том, что истинные значения коэффициентов при объясняющих переменных равны нулю, в сравнении с альтернативной гипотезой, что не все истинные значения коэффициентов равны нулю. Тогда случайная величина имеет F-распределение с (k-1) и (n-k) степенями свободы.

[править]Мнимая регрессия

Значения R 2, , Быль" href="/text/category/bilmz/" rel="bookmark">быль проверено или сопоставлено с использованием R 2 и его модификаций.

[править]Решение проблем или модификации R 2

[править]R 2-скорректированный (adjusted)

Для того, чтобы исследователи не увеличивали R 2 с помощью добавления посторонних факторов, R 2 заменяется на скорректированный https://pandia.ru/text/79/148/images/image006_10.gif" alt="R_{extended}^2" width="72" height="23 src=">, который будет совпадать с исходным для случая МНК регрессии со свободным членом, и для которого будут продолжать выполняться четыре свойства перечисленые выше. Суть этого метода заключается рассмотрении проекции единичного вектора на плоскость объясняющих переменных .
Для случая регрессии без свободного члена:
,
где X - матрица nxk значений факторов, P (X ) = X * (X " * X ) − 1 * X " - проектор на плоскость X, https://pandia.ru/text/79/148/images/image006_10.gif" alt="R_{extended}^2" width="72" height="23">с условием небольшой модификации , также подходит для сравнения между собой регрессий построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

[править]R 2-истинный (несмещённый)

<---Будет добавлен---!>

[править]Прочие используемые критерии

AIC - информационный критерий Акаике - применяется исключительно для сравнения между моделями. Чем меньше значение тем лучше. Часто используется в виде сравнения моделей временных рядов с разным количеством лагов.
. Даёт меньший штраф за включение лишних лагов в модель, чем BIC.
BIC - информационный критерий Шварца - используется и интерпретируется аналогично AIC.
. Даёт больший штраф за включение лишних лагов в модель, чем BIC (см. формулу).

[править]См. также

§ Коэффициент корреляции

§ Корреляция

§ Мультиколлинеарность

§ Дисперсия случайной величины

§ Метод группового учета аргументов

§ Регрессионный анализ

[править]Примечания

1. 1 2 , Эконометрика. Начальный курс.. - 6,7,8-е изд., доп. и перераб.. - Москва: Дело, 2004. - Т. "". - 576 с. - ISBN -X

2. 1 2 Распространение коэффициента детерминации на общий случай линейной регрессии, оцениваемой с помощью различных версий метода наименьших квадратов (рус., англ.) //ЦЕМИ РАН Экономика и математические методы . - Москва: ЦЕМИ РАН, 2002. - В. 3. - Т. 38. - С. 107-120.

3. , Прикладная статистика. Основы эконометрики (в 2-х т.). - ??. - Москва: Юнити-Дана (проект TASIS), 2001. - Т. "1,2". - 1088 с. - ISBN -8

4. Выбор регрессии максимизирующий несмещённую оценку коэффициента детерминации (рус., англ.) // Прикладная эконометрика. - Москва: Маркет ДС, 2008. - В. 4. - Т. 12. - С. 71-83.

[править]Ссылки

§ Глоссарий статистических терминов

§ Прикладная эконометрика (журнал)



Рассказать друзьям