Скачать 79.41 Kb.
|
Багатофакторна регресія 1 Сутність багатофакторної регресії та порядок її побудови 2 Передумови застосування методу найменших квадратів (матрична форма для багатофакторної регресії) 3 Оцінка параметрів методом найменших квадратів 4 Властивості оцінок параметрів 5 Дисперсійний аналіз економетричної моделі 5.1 Побудова економетричної моделі на основі покрокової регресії 5.2 Множинний коефіцієнт кореляції і детермінації 5.3 Перевірка значущості і довірчі інтервали 1 Сутність багатофакторної регресії та порядок її побудови На практиці економічний процес змінюється під впливом багатьох різноманітних факторів, які треба вміти виявити та оцінити. Якщо повернутися до прикладу практичних занять, то було б дуже великим спрощенням вважати, що обсяг випуску продукції залежить лише від вартості основних засобів. Існує багато інших дуже важливих і впливових показників. Явний вигляд залежності досліджувального показника від декількох факторів, що впливають на його зміну, а також кількісно оцінити цей вплив, допомагає знайти багатофакторний регресійний аналіз. Більшість розрахунків є досить складними, тому доречним є використання обчислювальної техніки. Тому побудова та аналіз багатофакторних регресійних моделей базується на сучасних пакетах прикладних програм. Однак економіст повинен уміти самостійно проводити основні розрахунки, а крім того – аналізувати отримані результати, робити за ними висновки, вміти оцінити найкращу модель для взаємозв’язку вихідних даних та побудувати прогноз. Розрізняють регресійні моделі узагальнені та вибіркові. Узагальнена модель – це модель, які дійсна для всієї генеральної сукупності. Невідомі параметри узагальненої моделі є константами, а випадкова величина – не спостережувана, і ми можемо зробити тільки припущення відповідно до закону її розподілу. На відміну від узагальненої, вибіркова модель будується для певної вибірки; невідомі параметри випадкової моделі є випадковими величинами, математичне сподівання яких дорівнює параметрам узагальненої моделі (випадок класичної лінійної регресії), випадкові величини (помилки) можна оцінити, виходячи з вибіркових даних. Узагальнена багатофакторна лінійна регресійна модель може бути записана у такому вигляді: ![]() де у – залежна змінна; хі – незалежні змінні (фактори); αі – параметри моделі (константи) узагальненої моделі; u – неспостережувана випадкова величина. Вибіркова лінійна багатофакторна модель має такий вигляд: ![]() де у – залежна змінна; хі – незалежні змінні (фактори); аі – оцінки невідомих параметрів, які потрібно оцінити; u – випадкова величина (помилка). Крім того, багатофакторна регресійна економетрична модель може бути записана в матричній формі: Y = XA + U, де Y – вектор значень залежної змінної розміром n (n – кількість спостережень вибіркового обстеження); X – матриця незалежних змінних розміром n×(m+1) (m – кількість незалежних змінних). В перший стовпець цієї матриці ставлять одиниці у випадку, коли модель, що будується, повинна містити вільний член а0; A – вектор оцінок параметрів моделі розміром m; U – вектор залишків розміром m. Процес побудови багатофакторної регресійної моделі більш складний, ніж процес побудови простої лінійної регресії. Він складається з декількох етапів. Розглянемо основні з них.
Розглянемо кожен з етапів побудови та аналізу багатофакторної регресійної моделі докладно.
На цьому етапі проводиться перевірка факторів на мультиколінеарність. Термін «мультиколінеарність» означає, що в багатофакторній регресійній моделі дві або більше залежних змінних (факторів) пов’язані між собою лінійною залежністю або, іншими словами, мають високий ступінь кореляції. Для виявлення наявності мультиколінеарності спочатку будують матрицю коефіцієнтів парної кореляції, яка є симетричною і має такий вигляд:. Коефіцієнти парної кореляції між факторами аналізуються. Якщо їх значення доближаються до одиниці – це вказує на щільний зв'язок між ними, або на мультиколінеарність. В такому випадку один з таких факторів необхідно вилучити із подальшого розгляду, інший – залишають. Найчастіше залишають той фактор, який з економічної точки зору є більш впливовим на результативний показник. З іншого боку, залишити можна фактор, який має більший коефіцієнт кореляції з результативним показником у. Такий аналіз проводиться для кожної пари залежних між собою факторів. Результатом етапу математико-статистичного аналізу є знаходження множини основних незалежних між собою факторів, які є базою для побудови регресійної моделі.
Якщо модель виявиться адекватною, то робота може бути продовжена. В такому випадку може вивчатися вплив окремих факторів на залежний показник, будуються інтервали довіри (етап 7), аналізуються та інтерпретуються отримані результати, будуються прогнози (етап 8). ^ Для класичної багатофакторної регресійної моделі, яка є узагальненням простої лінійної регресійної моделі, всі основні класичні припущення зберігаються: Щоб застосувати метод найменших квадратів для оцінки параметрів моделі, необхідне виконання таких передумов: 1) математичне сподівання залишків дорівнює нулю, тобто M(U) = 0; 2) значення ui елементів вектора залишків U повинні бути незалежними між собою і мати постійну дисперсію, тобто ![]() де Е – одинична матриця; 3) незалежні змінні моделі не повинні бути зв’язані із залишками, тобто ![]() 4) незалежні змінні економетричної моделі повинні створювати лінійно незалежну систему векторів, або, іншими словами, незалежні змінні не повинні бути мультиколінеарнними, тобто ![]() ![]() де к = ![]() ![]() ^ є очевидною, бо якщо математичне сподівання залишків не дорівнює нулю, то це значить, що існує систематичний вплив на залежну змінну, а в модельну специфікацію не включені всі незалежні змінні. Якщо ця передумова не виконується, то має місце помилка специфікації. Коли економетрична модель має вільний член, то за рахунок його значення майже завжди можна відкоригувати рівняння так, щоб математичне сподівання залишків дорівнювало нулю. Звідси виходить, що для таких моделей перша передумова буде виконуватись практично завжди. ^ передбачає наявність постійної дисперсії залишків. Ця передумова носить назву гомоскедастичності. Але вона може виконуватись лише тоді, коли залишки U є результатом помилки вимірів. Якщо залишки акумулюють загальний вплив змінних, які не враховані в моделі, то звичайно дисперсія залишків не може бути постійною величиною, вона змінюється для певної групи спостережень. В цьому випадку маємо справу з явищем гетероскедастичності, яке впливає на методи оцінки параметрів. ^ , що передбачає незалежність між залишками і екзогенними змінними, порушується в основному тоді, коли економетрична модель будується на основі одночасних структурних рівнянь або має лагові змінні. В цьому випадку для оцінки її параметрів використовуються дво- або трикроковий методи найменших квадратів. ^ вимагає, щоб всі екзогенні змінні, які включені в економетричну модель, були незалежними між собою. Але очевидно, що в економіці дуже важко виділити такий масив незалежних (екзогенних) змінних, які зовсім були б не зв’язані між собою. Тоді кожний раз необхідно вирішувати питання, чи не буде впливати залежність екзогенних змінних на оцінку параметрів моделі. Це явище отримало назву мультиколінеарнності змінних. Наявність її робить оцінки параметрів моделі ненадійними, чутливими до обраної специфікації моделі і до конкретного набору даних. Спадає довіра до результатів верифікації моделей існуючими методами. Таким чином, це явище з усіх точок зору є дуже небажаним. Але воно зустрічається досить часто. Існують методи виявлення мультиколінеарнності і способи її врахування через специфікацію моделі чи спеціальні методи оцінки параметрів. 3 Оцінка параметрів методом найменших квадратів Розглянемо модель Y = XA + U , для якої виконуються всі чотири передумови для оцінки параметрів методом найменших квадратів. З рівняння Y = XA + U запишемо вираз для залишків: U = Y – XA. Тоді сума квадратів залишків U буде визначатись так: ![]() Продиференціюємо цю умову по А і прирівняємо похідну до нуля: ![]() ![]() де Х – матриця, транспонована до матриці залежних змінних Х. Це рівняння ![]() Звідси значення вектора А є розв’язком системи нормальних рівнянь, тобто: ![]() Якщо незалежні змінні в матриці Х взяті як відхилення кожного значення від своєї середньої, то матрицю ХХ називають матрицею моментів. Числа, що стоять на її головній діагоналі, характеризують величину дисперсій незалежних змінних, інші елементи відповідають взаємним коваріаціям. Таким чином, структура матриці моментів відображає зв'язок між незалежними змінними. Чим ближче показники коваріації до величини дисперсії, тим ближче визначник матриці ХХ наближається до нуля і тим гірше оцінки параметрів А. Далі буде показано, що стандартні помилки параметрів А прямо пропорційні значенням, що стоять на головній діагоналі матриці (ХХ) 1. Розглянемо оцінку параметрів моделі методом найменших квадратів на прикладі. Приклад 2.1 Оцінити параметри економетричної моделі, що характеризує залежність між тижневими витратами на харчування, загальними витратами та розміром сім’ї за даними таблиці 2.1. Приклад 1 Запишемо економетричну модель: y = a0 + a1x1 + a2x2 +u або ![]() де y – фактичні значення тижневих витрат на харчування; ![]() х1 – загальні витрати; x2 – розмір сім’ї; u – залишки; ![]() Таблиця 2.1
Оператор оцінювання параметрів моделі по методу найменших квадратів має вигляд: ![]() де А= ![]() ![]() ![]() Х – матриця, транспонована до матриці Х. Матриця Х, крім двох векторів незалежних змінних, включає вектор одиниць. Він дописується в матриці Х зліва тоді, коли економетрична модель має вільний член. Якщо не дописувати в матрицю Х вектор одиниць із n елементів, то вільний член можна розрахувати як: ![]() де ![]() ![]() Згідно з оператором оцінювання знайдемо: 1) (ХХ) = ![]() 2) (ХХ)-1 = ![]() 3) ХY = ![]() ![]() Таким чином, економетрична модель має вигляд: ![]() ^ Оцінки параметрів А повинні мати такі властивості: 1) незміщеності; 2) обгрунтованості; 3) ефективності; 4) інваріантності. Вибіркова оцінка параметрів ![]() М( ![]() В нашому випадку М( ![]() ![]() Незміщеність – це мінімальна вимога, яка ставиться до оцінок параметрів А. Якщо оцінка буде незміщеною, то при багаторазовому повторенні випадкової вибірки, незважаючи на те, що при окремих вибірках допускались би помилки оцінки, середнє значення цих помилок дорівнювало б нулю. Різниця між математичним сподіванням оцінки і значенням оціненого параметра називається зміщенням оцінки: = М( ![]() Не треба змішувати помилку оцінки із її зміщенням. Помилка дорівнює ![]() Дисперсія кожної з компонент вектора А дорівнює j-му елементу головної діагоналі матриці (ХХ)-1, помноженому на дисперсію залишків U, тобто ![]() де ![]() Приклад 2 На основі моделі, яка побудована в прикладі 2.1, розрахуємо дисперсію залишків, дисперсії параметрів та їх стандартні помилки. 1) Дисперсія залишків: ![]() 2) Дисперсія параметрів моделі: ![]() ![]() С11 і С22 – відповідні діагональні елементи матриці (ХХ)-1. 3) Стандартні помилки параметрів моделі: ![]() ![]() ![]() Стандартні помилки у порівнянні з числовим значенням параметрів моделі можуть свідчити про наявність чи відсутність зміщеності. В цьому прикладі стандартні помилки оцінок параметрів складають відповідно до рівня оцінки: ![]() ![]() а це свідчить про зміщеність оцінок. Наслідком зміщеності є також факт, що М(U) 0. В нашому прикладі М(U) = –0,000019. Якщо М(U) 0, то це означає, що залишки можуть мати систематичну складову, яка зумовлена неточною специфікацією моделі. Наприклад, в модель включені не всі основні чинники, що впливають на тижневі витрати на харчування (скажімо, не враховуються ціни на продукти харчування). Дуже важливою властивістю оцінки є її обґрунтованість. Вибіркова оцінка називається обґрунтованою, якщо при дуже малій величині 0 є справедливим співвідношення: ![]() Іншими словами, оцінка обґрунтована, коли вона підкоряється закону великих чисел. Обґрунтованість оцінки означає, що чим більші будуються вибірки, тим більша ймовірність, що помилка оцінки не буде перевищувати дуже малу величину . Третя властивість оцінок А – ефективність – пов’язана з величиною дисперсії оцінок. Із визначення дисперсії випливає, що ![]() Вибіркова оцінка ![]() Нехай ![]() ![]() характеризує ефективність оцінки. Очевидно, що 0 К 1. Крім того, чим ближче К до одиниці, тим ефективнішою є оцінка А. Цікаво, що відношення може бути функцією від сукупності спостережень n і із збільшенням n може швидко змінюватись. Незміщена оцінка А, дисперсія якої при n задовольняє умову ![]() Пошук ефективних оцінок параметрів – досить складна справа. Можна доказати, що М( ![]() Ще одна властивість оцінок – їх інваріантність. Оцінка ![]() ![]() ![]() Інваріантність оцінок має велике практичне значення. Для прикладу можна сказати, що якщо відома оцінка дисперсії генеральної сукупності і вона інваріантна, то оцінку середньоквадратичного відхилення можна одержати, взявши квадратний корінь із оцінки дисперсії. 3 Дисперсійний аналіз економетричної моделі 3.1 Побудова економетричної моделі на основі покрокової регресії При елементарному трактуванні взаємозв’язку між двома змінними за допомогою методу найменших квадратів, як правило, акцентують увагу на коефіцієнтах кореляції. Причому можна доказати, що ![]() де r – парний коефіцієнт кореляції; y – середньоквадратичне відхилення залежної змінної; x – середньоквадратичне відхилення незалежної змінної. Таким чином, оцінка параметрів моделі прямо пропорційна коефіцієнту парної кореляції. Аналогічні співвідношення мають місце і в загальному випадку. Ці співвідношення покладені в основу алгоритму покрокової регресії. Розглянемо цей алгоритм. ^ цього алгоритму всі вихідні дані змінних стандартизуються (або нормалізуються): ![]() ![]() де y – нормалізована залежна змінна; xj – нормалізована незалежна змінна; ![]() ![]() у, ![]() При цьому середні значення ![]() ^ знаходиться кореляційна матриця: ![]() де ![]() ![]() ![]() ![]() На третьому кроці на основі порівняння абсолютних значень ![]() ![]() ![]() ![]() На четвертому кроці серед інших значень ![]() ![]() ![]() Усі наступні кроки аналогічні. Якщо нема обмежень на включення в економетричну модель кожної наступної незалежної змінної, то розрахунок продовжується до тих пір, поки поступово не будуть включені в модель всі змінні. Система нормальних рівнянь для знаходження параметрів моделі j в загальному вигляді запишеться так: ![]() Позначимо матрицю парних коефіцієнтів кореляції між незалежними змінними через r, а вектор парних коефіцієнтів між залежною і незалежними змінними через r, тоді система нормальних рівнянь запишеться ![]() а оператор оцінювання параметрів ![]() Оскільки всі змінні виражені у стандартизованому масштабі. то параметри ![]() Зв’язок між оцінками параметрів моделі на основі стандартизованих і нестандартизованих змінних запишеться так: ![]() ![]() ![]() Приклад 3.1 По десяти цехах машинобудівного підприємства наведені такі дані: Таблиця 3.1
Побудуємо економетричну модель, яка буде описувати зв’язок середньомісячної зарплати з наведеними чинниками на основі алгоритму покрокової регресії. Наведемо кореляційну матрицю для цих вихідних даних: ![]() Із матриці видно, що діагональні елементи її дорівнюють одиниці, бо характеризують зв’язок кожної змінної з собою. Ця матриця квадратна і симетрична. В першому рядку знаходяться коефіцієнти парної кореляції, що характеризують тісноту зв’язку кожної змінної з середньомісячною зарплатою: ![]() ![]() ![]() де у - зарплата; х1 – продуктивність праці; х2 – фондомісткість продукції; х3 – відсоток виконання норм виробітку. Оскільки серед величин ![]() ![]() ![]() ![]() Таким чином наступна модель буде включати: ![]() І наприкінці остання модель має вигляд: ![]() Таким чином, будуть побудовані такі моделі: 1) ![]() ![]() 2) ![]() ![]() 3) ![]() ![]() Приведемо ці моделі для вихідної інформації: 1) ![]() 2) ![]() 3) ![]() 3.2 Множинний коефіцієнт кореляції і детермінації Тіснота зв’язку та загального впливу всіх незалежних змінних на залежну визначається коефіцієнтами множинної кореляції і детермінації. Щоб дати метод їх розрахунку, необхідно показати, що варіація залежної змінної (Y) навколо свого вибіркового середнього ( ![]() ![]() де ![]() ![]() ![]() ![]() ![]() Визначімо, що ![]() ![]() ![]() Необхідні обчислення зведемо в таблицю 3.2. Числове значення коефіцієнта детермінації характеризує, в якій мірі варіація залежної змінної (Y) визначається варіацією незалежних змінних моделі. Таблиця 3.2
Використаємо середні квадрати відхилень (дисперсії) (див. таблицю 3.2) і запишемо формулу розрахунку коефіцієнта детермінації: ![]() ![]() Оскільки у цій формулі дисперсії використовуються без урахування поправки на число ступенів свободи, то коефіцієнт детермінації, розрахований за нею ніколи не зменшується при введені в модель нових незалежних змінних. Коефіцієнт детермінації, розрахований з урахуванням числа ступенів свободи, може зменшуватись при введенні в модель нових незалежних змінних. Залежність між цими двома коефіцієнтами можна записати: ![]() де R2 – коефіцієнт детермінації з урахуванням числа ступенів свободи; ![]() Множинний коефіцієнт кореляції: ![]() Він характеризує тісноту зв’язку всіх незалежних змінних із залежною. Для множинного коефіцієнта кореляції з урахуванням та без урахування числа ступенів свободи характерна така ж зміна числового значення, як і для коефіцієнта детермінації. Приклад 3.3 Порівняємо коефіцієнти кореляції і детермінації для різних економетричних моделей, побудованих для вихідних даних, наведених у таблиці 3.1 на основі покрокової регресії. Таблиця 3.3
Із таблиці 3.3 можна побачити, що з додатковим включенням нової залежної змінної, коефіцієнти детермінації ![]() ![]() ![]() Покажемо альтернативний спосіб розрахунку коефіцієнтів детермінації і кореляції, коли система нормальних рівнянь будується на основі коефіцієнтів парної кореляції r. В цьому випадку метод розрахунку коефіцієнтів детермінації можна записати: ![]() Звідси коефіцієнт кореляції дорівнює: ![]() Ще один альтернативний метод розрахунку коефіцієнта детермінації через алгебраїчне доповнення матриці r: ![]() де ![]() ![]() Сума квадратів відхилень залишків також може бути виражена через алгебраїчне доповнення матриці r: ![]() А оцінка параметрів моделі дорівнює: ![]() 3.3 Перевірка значущості і довірчі інтервали 3.3.1 Значущість економетричної моделі Гіпотеза про наявність чи відсутність зв’язку між залежною і незалежною змінними може бути перевірена на основі F-критерію, який можна розрахувати через коефіцієнт детермінації: ![]() При цьому припускається, що залишки u розподілені нормально, тобто використовується фундаментальна теорема про те, що для нормально розподіленої випадкової величини х з нульовою середньою і одиничною дисперсією сума квадратів її n випадково обраних значень має розподіл 2 із n ступенями свободи. Фактичне значення F-критерію порівнюється з табличним при ступенях свободи n-m i m-1 і вибраному рівні значущості. Якщо FфактFтабл , то гіпотеза про суттєвість зв’язку між залежною і незалежними змінними економетричної моделі підтверджується, в протилежному випадку – вона відкидається. Приклад 3.4 Розрахуємо F-критерій для економетричних моделей, що наведені в прикладі 3.1. Таблиця 3.4
Fтабл(0,95) для першої моделі дорівнює 5,32. Fтабл(0,95) для другої моделі дорівнює 4,74. Fтабл(0,95) для третьої моделі дорівнює 4,76. Таким чином, при рівні значущості =0,05: F1факт Fтабл; F2факт Fтабл; F3факт Fтабл. Це свідчить про те, що відповідна економетрична модель є вірогідною, тобто підтверджується гіпотеза про те, що кількісна оцінка зв’язку між залежною і незалежними змінними в моделі є суттєвою. ^ Перевірка значущості вибіркового коефіцієнта кореляції базується на t-критерії: ![]() де R2 – коефіцієнт детермінації моделі; R – коефіцієнт кореляції; n-m – число ступенів свободи. Якщо ![]() ![]() Приклад 3.5 Для множинних коефіцієнтів кореляції, що наведені в таблиці 3.3, розрахуємо t-критерії: ![]() ![]() ![]() Табличні значення цього критерію при рівні значущості =0,05 і відповідних ступенях свободи дорівнюють: t1табл = 2,26, t2табл = 2,31, t3табл = 2,37. Порівнявши їх з фактичними, де t1 t1 табл, t2 t2 табл, t3 t3 табл робимо висновок про те, що коефіцієнт кореляції, який характеризує тісноту зв'язку між залежною і незалежними змінними в моделях є достовірним. 3.3.3 Значущість параметрів моделі Щоб перевірити значущість коефіцієнтів моделі ![]() ![]() ![]() Незміщену оцінку дисперсії залишків дає співвідношення: ![]() Перевірка гіпотез відносно суттєвості кожного із параметрів економетричної моделі виконується на основі t-критерію: ![]() де Сjj – діагональний елемент матриці (ХХ)-1. Знаменник цього відношення ![]() Розраховане значення t-критерію порівнюється з табличним при обраному рівні значущості і n-m ступенів свободи. Якщо tфакт tтабл , то відповідний параметр економетричної моделі є достовірним. На основі t-критерію і стандартної помилки будуються довірчі інтервали для параметрів аj : ![]() Приклад 3.5 Перевіримо гіпотези про значущість оцінок параметрів моделі ![]() ![]() ![]() При ступені свободи n-m = 10 – 3 = 7 і рівні значущості =0,05 tтабл=2,365. Оскільки t1 факт tтабл , то параметр ![]() Оцінка параметра ![]() ![]() ![]() ![]() Відповідно знайдемо довірчий інтервал для параметра моделі а2. ![]() ![]() Величини стандартних помилок параметрів в порівнянні з абсолютним значенням оцінки цих параметрів можуть також свідчити про те, що оцінка параметра є зміщеною. Для цього прикладу ![]() ![]() |
![]() | Багатофакторна регресія 1 Сутність багатофакторної регресії та порядок її побудови Передумови застосування методу найменших квадратів (матрична форма для багатофакторної регресії) | ![]() | Принципи побудови економетричних моделей. Парна лінійна регресія. 1 Сутність економетріки 2 Визначення моделі та етапи її побудови Джерела невизначеності можуть бути різноманітнішими: нестабільність економічної, соціальної або політичної ситуації, не прогнозованість... |
![]() | Узагальнені економетричні моделі 1 Сутність узагальнених економетричних моделей 2 Визначення моделі та етапи її побудови В залежності від кількості факторів, які включають в модель, розрізняють регресії прості (парні) та багатофакторні | ![]() | Опорна схема лекції №6 тема заняття: основні принципи побудови локальних І глобальних мереж, інформаційні сервіси, технології та їх професійне використання. Мета вивчення Тема 27. Основні принципи побудови локальних і глобальних мереж, інформаційні сервіси, технології та їх професійне використання.... |
![]() | Методичні вказівки до завдання 3 Завдання виконується за темою "Узагальнена модель простої лінійної регресії" Для моделі, розрахованої у завданні 2, перевірте на значущість параметри a0 i a1 за допомогою t-тесту Ст’юдента | ![]() | Тренінг «Особливості сучасного уроку в початковій школі» Мета: поглибити знання вчителів про вимоги, принципи побудови, методи роботи на сучасному уроці |
![]() | Положение о конкурсе творческих работ «От Волги до Вислы: диалог культур. Современное прочтение школьниками и студентами» Настоящим положением определяются номинации, по которым проводится конкурс, требования к представляемым на конкурс работам, критерии... | ![]() | Пакет програмних продуктів arcgis Геоінформаційних Систем. Платформа Arcgis є оптимальним рішенням для побудови корпоративної гіс, фундаменту інформаційної системи... |
![]() | Методичні вказівки до завдання 2 Завдання виконується за темою " Парна лінійна регресія " Назви показників, які треба аналізувати, обираються за передостанньою цифрою шифру студента. Розташування в таблиці 3 даних першого... | ![]() | Київський радіомеханічний коледж нау Вивчити принципи побудови локальних комп’ютерних мереж на основі комутаторів Fast Ethernet, отримати практичні навики по налаштуванню... |
![]() | Тема 4: Основи адміністративного права України Поняття і сутність державного управління та його співвідношення з виконавчою владою |