Характеристика моделі лінійної регресії. Простий лінійної регресійної моделі

регресія моделювання статистика mathcad

Головне завдання, яке вирішується за допомогою регресійного аналізу, - створення математичних моделей деяких об'єктів чи явищ на основі експериментів чи спостережень. Ці моделі являють собою певні математичні співвідношення між показниками роботи об'єкта або характеристиками явища, що спостерігається, і зумовлюють їх величинами. Будемо називати залежними змінними, вихідними характеристиками чи відгуками об'єкта, а - вхідними змінними, незалежними характеристиками чи чинниками. Для того самого об'єкта можна створити безліч моделей:

причому кожна визначає лише одне із показників, цікавлять дослідника. Залежно від цілей дослідження той самий об'єкт з однаковими показниками може описуватися різними моделями.

Вибір відповідної моделі - це значною мірою мистецтво, і щодо її виду найчастіше вирішальну роль грають досвід та знання дослідника. Модель завжди відображає це явище з деяким наближенням.

Є і ще одна причина, через яку модель не відображає явище, що протікає, абсолютно точно. Завжди є величини, які впливають результати, але не вимірюються під час експерименту. Частина з них має систематичний характер і через це може з часом викликати зміни коефіцієнтів моделі. Інша частина змінюється випадковим чином, підкоряючись деякому закону розподілу. Такі величини ще називають випадковими збуреннями. У силу їх дії повторні досліди при тих самих значеннях факторів будуть давати різні значення залежної змінної. Модель не може точно врахувати вплив випадкових збурень у кожному окремому вимірі, вона показує лише деякі усереднені характеристики.

Отже, немає підстав говорити про "істинну" модель у сенсі слова. Проте моделі з успіхом використовуються на практиці. Зазвичай під "справжнім" значенням розуміють умовне математичне очікування залежної змінної при заданих значеннях факторів:

де Е – знак математичного очікування.

Ця рівність називається рівнянням регресії та показує зміну середнього значення відгуку об'єкта за змін факторів. Фактично вимірювана вихідна характеристика є

де – випадкове обурення. Найчастіше приймають, що на об'єкт безлічі випадкових обурень еквівалентно дії одного єдиного обурення з нормальним розподілом, нульовим математичним очікуванням і дисперсією. Це припущення виконується досить добре для багатьох практичних завдань, в яких всі випадкові обурення впливають, порівнянні одне з одним. Підставою цьому є центральна гранична теорема теорії ймовірностей.

Існує велика кількістьрізних регресійних моделей, що визначаються конкретним видом функції, де завжди є деякі коефіцієнти, які треба визначати за експериментальними даними. Залежно від цього, як ці коефіцієнти входять у рівняння регресії, моделі діляться на лінійні і нелінійні за параметрами.

Наприклад, модель

  • - нелінійна, а
  • - Лінійна.

Під лінійною зазвичай розуміють модель, лінійну за параметрами. Наприклад, модель

Лінійна

по відношенню до коефіцієнтів, не нелінійна по відношенню до факторів.

Нерідко регресійні моделі є поліномами за ступенями факторів. Подібне уявлення спирається на той факт, що відгуки - часто безперервні функції від факторів та їх можна розкласти до ряду Тейлора.

Зрозуміло, що всі функції, які розкладаються в ряд Тейлора, можна апроксимувати поліномами. Це важливо відзначити, оскільки поліномами важко апроксимувати функції з розривами, тобто. не мають похідних. Поліноми не годяться для опису явищ зі стрибкоподібними змінами вихідної характеристики при зміні факторів, функцій з гістерезисом, релейних функцій тощо.

Коли досліджується періодичний процес, його найкращий описможна отримати розкладанням у ряд Фур'є:

де - Частота, що змінюється в межах. Такі моделі використовуються в електротехніці, геофізиці, океанології, біології, медицині та інших прикладних галузях.

Для опису тимчасових характеристик використовується так звана модель розподіленого лага:

Це вираз передбачає, що виміри робляться в дискретні моменти часу, віддалені друг від друга інтервал. Через зазначена вихідна характеристика -й момент часу, тобто.

а - та сама величина, виміряна на тактів раніше; - значення фактора, виміряне із запізненням на тактів по відношенню до поточного i-му моменту.

У рівнянні (1.1) записана одна вихідна характеристика, але аналогічні моделі можна будувати і у дослідженні бере участь кілька відгуків. Якщо для випадкових процесів вхід явно не визначений, то користуються так званою моделлю авторегресії:

Моделью авторегресії, наприклад, описується зміна числа пасажирів на залізничній магістралі через певний час. Відгук може розглядатися як функція деякого фактора (кілька факторів), заданого через певні проміжки часу:

Подання всіх моделей в єдиній формі зручно при організації обчислювальних процедур регресійного аналізу, однак аналогія між моделями різних видів аж ніяк не повна. Наприклад, моделі (1.2) і (1.3) описують залежність вихідної характеристики в i-й момент від її значень у попередні моменти, а це передбачає залежність між спостереженнями в часі, яка тягне за собою значні зміни як у обчислювальній процедурі, так і статистичному аналізірезультатів.

Багато нелінійних за параметрами моделі лінеарізуються за допомогою відповідного перетворення змінних. У біології, наприклад, використовується так звана логістична функція, що показує залежність частки загиблих шкідливих комах

Число загиблих комах - загальна кількість комах при заданій дозі інсектициду. Логістична залежність має вигляд

і говорить про те, що дуже маленькі і дуже великі дози отрути не призводять до істотної зміни частки загиблих комах (при дуже малих дозах гинуть не життєстійкі, а при дуже великих - все).

Якщо до логістичної залежності застосувати перетворення

те, як легко перевірити, вона набуде вигляду

а ця залежність лінійна щодо параметрів, що шукаються.

У моделях, що розглядалися досі, передбачалося, що всі незалежні змінні можуть змінюватись у заданих інтервалах безперервно. Однак у деяких завданнях частина факторів має якісний характер і може набувати лише певних дискретних значень. У цьому випадку модель вводять так звані індикаторні змінні, що показують, чи мав певний фактор у певному спостереженні задане значення чи ні. Фактор з якісними рівнямиможна уявити індикаторними змінними, що приймають лише значення 0 та 1.

Прикладом послужить завдання побудови моделі кількості газових пор у зварному шві при аргонодуговому зварюванні нікелю в залежності від складу покриття електрода (кріоліт -, титан -, алюміній -, фтористий натрій -), а також від умов зварювання - часу горіння - і довжини дуги. Дуги - якісний фактор, який може набувати лише двох значень: довга дуга () і коротка дуга. Лінійна за параметрами та факторами модель має вигляд:

причому змінна дорівнює 1 в експериментах з довгою дугою та 0 - з короткою.

Інший приклад індикаторної змінної дає дослідження виходу хімічної реакції залежно від температури (), тиску () та рН розчину (). Досліди проводяться з сировиною, що поставляється фірмами А, В і С. Фірму-постачальник можна розглядати як фактор з якісними рівнями, що набувають значення. Його вплив можна уявити двома індикаторними змінними і. Ось лінійна за параметрами та факторами модель для цього випадку:

Якщо використовується сировина фірми А, то цьому рівнянні вважаємо =1, =0, для сировини фірми В - =0, =1, а фірми З - =0 і =0.

В даному випадку не можна було б вибрати для фірми С окрему індикаторну змінну (), оскільки такий вибір завжди призводив би до рівності

а це - лінійна залежність між змінними, наявність якої призводить до серйозних обчислювальних труднощів.

Індикаторні змінні можуть брати участь у більш складних моделях. Якщо, наприклад, передбачається, що дія факторів (температура, тиск, pH розчину на вихід у) залежить і від взаємного впливу між факторами, модель може набути вигляду:

Можуть використовуватись і деякі інші моделі. Одні зручніше в описі даних спостереження певних явищ, інші дають відомі переваги при обробці даних.

Регресійний аналіз - це статистичний метод дослідження, що дозволяє показати залежність того чи іншого параметра від однієї чи кількох незалежних змінних. У докомп'ютерну епоху його застосування було досить складно, особливо якщо йшлося про великі обсяги даних. Сьогодні, дізнавшись, як побудувати регресію в Excel, можна вирішувати складні статистичні завдання буквально за пару хвилин. Нижче представлені конкретні прикладиз галузі економіки.

Види регресії

Саме це поняття було введено в математику у 1886 році. Регресія буває:

  • лінійної;
  • параболічній;
  • статечної;
  • експоненційною;
  • гіперболічній;
  • показовою;
  • логарифмічні.

Приклад 1

Розглянемо завдання визначення залежності кількості членів колективу, що звільнилися, від середньої зарплати на 6 промислових підприємствах.

Завдання. На шести підприємствах проаналізували середньомісячну заробітну плату та кількість працівників, які звільнилися за власним бажанням. У табличній формі маємо:

Кількість звільнених

Зарплата

30000 рублів

35000 рублів

40000 рублів

45000 рублів

50000 рублів

55000 рублів

60000 рублів

Для завдання визначення залежності кількості працівників, що звільнилися, від середньої зарплати на 6 підприємствах модель регресії має вигляд рівняння Y = а 0 + а 1 x 1 +…+а k x k , де х i — що впливають змінні, a i — коефіцієнти регресії, a k — число факторів.

Для цього завдання Y — це показник співробітників, що звільнилися, а впливаючий фактор — зарплата, яку позначаємо X.

Використання можливостей табличного процесора «Ексель»

Аналізу регресії в Excel має передувати застосування наявних табличних даних вбудованих функцій. Однак для цього краще скористатися дуже корисною надбудовою «Пакет аналізу». Для його активації потрібно:

  • з вкладки "Файл" перейти до розділу "Параметри";
  • у вікні вибрати рядок «Надбудови»;
  • клацнути на кнопці «Перейти», розташованої внизу, праворуч від рядка «Управління»;
  • поставити галочку поруч із назвою «Пакет аналізу» та підтвердити свої дії, натиснувши «Ок».

Якщо все зроблено правильно, у правій частині вкладки "Дані", розташованому над робочим аркушем "Ексель", з'явиться потрібна кнопка.

в Excel

Тепер, коли під рукою є всі необхідні віртуальні інструменти для здійснення економетричних розрахунків, можемо розпочати вирішення нашого завдання. Для цього:

  • клацаємо по кнопці «Аналіз даних»;
  • у вікні натискаємо на кнопку «Регресія»;
  • в вкладку, що з'явилася, вводимо діапазон значень для Y (кількість звільнених працівників) і для X (їх зарплати);
  • підтверджуємо свої дії, натиснувши кнопку «Ok».

В результаті програма автоматично заповнить новий аркуш табличного процесора даними аналізу регресії. Зверніть увагу! В Excel є можливість самостійно задати місце, якому ви надаєте перевагу для цієї мети. Наприклад, це може бути той самий лист, де знаходяться значення Y і X, або навіть нова книгаспеціально призначена для зберігання подібних даних.

Аналіз результатів регресії для R-квадрату

В Excel дані отримані в ході обробки даних прикладу, що розглядається, мають вигляд:

Насамперед, слід звернути увагу до значення R-квадрата. Він є коефіцієнтом детермінації. У даному прикладі R-квадрат = 0,755 (75,5%), тобто розрахункові параметри моделі пояснюють залежність між параметрами, що розглядаються, на 75,5 %. Чим вище значення коефіцієнта детермінації, тим вибрана модель вважається застосовнішою для конкретної задачі. Вважається, що вона коректно визначає реальну ситуацію за значення R-квадрату вище 0,8. Якщо R-квадрату<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Аналіз коефіцієнтів

Число 64,1428 показує, яким буде значення Y, якщо всі змінні xi в моделі, що розглядається, обнуляться. Іншими словами можна стверджувати, що на значення аналізованого параметра впливають інші фактори, не описані в конкретній моделі.

Наступний коефіцієнт -0,16285, розташований у осередку B18, показує вагомість впливу змінної Х на Y. Це означає, що середньомісячна зарплата співробітників у межах аналізованої моделі впливає кількість звільнених з вагою -0,16285, т. е. ступінь її впливу зовсім невелика. Знак «-» свідчить про те, що коефіцієнт має негативне значення. Це очевидно, оскільки всім відомо, що чим більша зарплата на підприємстві, тим менше людей висловлюють бажання розірвати трудовий договір чи звільняється.

Множинна регресія

Під таким терміном розуміється рівняння зв'язку з кількома незалежними змінними видами:

y=f(x 1 +x 2 +…x m) + ε, де y — це результативна ознака (залежна змінна), а x 1 , x 2 , …x m — ознаки-фактори (незалежні змінні).

Оцінка параметрів

Для множинної регресії (МР) її здійснюють, використовуючи метод найменших квадратів (МНК). Для лінійних рівнянь виду Y = a + b 1 x 1 +…+b m x m + ε будуємо систему нормальних рівнянь (див. нижче)

Щоб зрозуміти принцип методу, розглянемо двофакторний випадок. Тоді маємо ситуацію, що описується формулою

Звідси отримуємо:

де σ - це дисперсія відповідної ознаки, відображеної в індексі.

МНК застосуємо до рівняння МР в масштабі, що стандартизується. У такому разі отримуємо рівняння:

в якому t y , t x 1, ... t xm - Змінні, що стандартизуються, для яких середні значення рівні 0; β i - стандартизовані коефіцієнти регресії, а середньоквадратичне відхилення - 1.

Зверніть увагу, що всі β i в даному випадку задані як нормовані та централізовані, тому їх порівняння між собою вважається коректним та допустимим. Крім того, прийнято здійснювати відсівання факторів, відкидаючи ті з них, які мають найменші значення βi.

Завдання з використанням рівняння лінійної регресії

Припустимо, є таблиця динаміки ціни конкретного товару протягом останніх 8 місяців. Необхідно ухвалити рішення про доцільність придбання його партії за ціною 1850 руб./т.

номер місяця

назва місяця

ціна товару N

1750 рублів за тонну

1755 рублів за тонну

1767 рублів за тонну

1760 рублів за тонну

1770 рублів за тонну

1790 рублів за тонну

1810 рублів за тонну

1840 рублів за тонну

Для вирішення цього завдання в табличному процесорі «Ексель» потрібно задіяти вже відомий за наведеним вище прикладом інструмент «Аналіз даних». Далі вибирають розділ «Регресія» та задають параметри. Потрібно пам'ятати, що у полі «Вхідний інтервал Y» має вводитися діапазон значень для залежної змінної (у разі ціни на товар у конкретні місяці року), а «Вхідний інтервал X» — для незалежної (номер місяця). Підтверджуємо дії натисканням OK. На новому аркуші (якщо було зазначено) отримуємо дані для регресії.

Будуємо за ними лінійне рівняння виду y=ax+b, де як параметри a і b виступають коефіцієнти рядка з найменуванням номера місяця та коефіцієнти та рядки «Y-перетин» з аркуша з результатами регресійного аналізу. Таким чином, лінійне рівняння регресії (УР) для задачі 3 записується у вигляді:

Ціна товару N = 11,714* номер місяця + 1727,54.

або в позначеннях алгебри

y = 11,714 x + 1727,54

Аналіз результатів

Щоб вирішити, чи адекватно отримане рівняння лінійної регресії, використовуються коефіцієнти множинної кореляції (КМК) та детермінації, а також критерій Фішера та критерій Стьюдента. У таблиці «Ексель» з результатами регресії вони виступають під назвами множинний R, R-квадрат, F-статистика та t-статистика відповідно.

КМК R дає можливість оцінити тісноту ймовірнісного зв'язку між незалежною та залежною змінними. Її високе значення свідчить про досить сильний зв'язок між змінними «Номер місяця» та «Ціна товару N у рублях за 1 тонну». Однак характер цього зв'язку залишається невідомим.

Квадрат коефіцієнта детермінації R 2 (RI) є числову характеристику частки загального розкиду і показує, розкид якої частини експериментальних даних, тобто. значень залежної змінної відповідає рівнянню лінійної регресії У даній задачі ця величина дорівнює 84,8%, тобто статистичні дані з високим ступенем точності описуються отриманим УР.

F-статистика, яка називається також критерієм Фішера, використовується для оцінки значущості лінійної залежності, спростовуючи або підтверджуючи гіпотезу про її існування.

(Критерій Стьюдента) допомагає оцінювати значущість коефіцієнта за невідомої чи вільного члена лінійної залежності. Якщо значення t-критерію > t кр, гіпотеза про незначущість вільного члена лінійного рівняння відкидається.

У розглянутій задачі для вільного члена за допомогою інструментів «Ексель» було отримано, що t=169,20903, а p=2,89Е-12, тобто маємо нульову ймовірність того, що буде відкинута вірна гіпотеза про незначущість вільного члена. Для коефіцієнта за невідомої t=5,79405, а p=0,001158. Іншими словами ймовірність того, що буде відкинута вірна гіпотеза про незначущість коефіцієнта за невідомої, дорівнює 0,12%.

Отже, можна стверджувати, що отримане рівняння лінійної регресії адекватно.

Завдання про доцільність купівлі пакету акцій

Множинна регресія в Excel виконується з використанням того ж інструменту «Аналіз даних». Розглянемо конкретне прикладне завдання.

Керівництво компанія «NNN» має ухвалити рішення про доцільність купівлі 20% пакету акцій АТ «MMM». Вартість пакету (СП) складає 70 млн. американських доларів. Фахівцями NNN зібрані дані про аналогічні угоди. Було ухвалено рішення оцінювати вартість пакета акцій за такими параметрами, вираженими в мільйонах американських доларів, як:

  • кредиторська заборгованість (VK);
  • обсяг річного обороту (VO);
  • дебіторська заборгованість (VD);
  • Вартість основних фондів (СОФ).

Крім того, використовується параметр заборгованості підприємства із зарплати (V3 П) у тисячах американських доларів.

Рішення засобами табличного процесора Excel

Насамперед, необхідно скласти таблицю вихідних даних. Вона має такий вигляд:

  • викликають вікно "Аналіз даних";
  • обирають розділ "Регресія";
  • у віконце «Вхідний інтервал Y» вводять діапазон значень залежних змінних зі стовпця G;
  • клацають по іконці з червоною стрілкою праворуч від вікна «Вхідний інтервал X» і виділяють на аркуші діапазон всіх значень стовпців B,C, D, F.

Позначають пункт «Новий робочий лист» та натискають «Ok».

Отримують аналіз регресії для цієї задачі.

Вивчення результатів та висновки

«Збираємо» із заокруглених даних, представлених вище на аркуші табличного процесора Excel, рівняння регресії:

СП = 0,103 * СОФ + 0,541 * VO - 0,031 * VK + 0,405 * VD +0,691 * VZP - 265,844.

У більш звичному математичному вигляді його можна записати як:

y = 0,103 * x1 + 0,541 * x2 - 0,031 * x3 +0,405 * x4 +0,691 * x5 - 265,844

Дані для АТ «MMM» представлені у таблиці:

Підставивши їх у рівняння регресії, одержують цифру в 64,72 млн американських доларів. Це означає, що акції АТ «MMM» не варто купувати, оскільки їхня вартість у 70 млн американських доларів досить завищена.

Як бачимо, використання табличного процесора «Ексель» та рівняння регресії дозволило ухвалити обґрунтоване рішення щодо доцільності цілком конкретної угоди.

Тепер ви знаєте, що таке регресія. Приклади в Excel, розглянуті вище, допоможуть вам вирішити практичні завдання з галузі економетрики.

ПОБУДУВАННЯ РІВНЯНЬ РЕГРЕСІЇ.

Модуль MULTIPLE REGRESSION СИСТЕМИ STATISTICA.

Мета заняття:

1. Вивчити структуру та призначення статистичного модуля Multiple Regression системи STATISTICA.

2. Освоїти основні прийоми роботи у модулі Multiple Regression системи STATISTICA.

3. Освоїти процедуру побудови лінійної регресії у модулі Multiple Regression.

4. Самостійно вирішити завдання знаходження коефіцієнтів лінійної регресійної моделі.

Загальні засади.

Статистичний модуль Multiple Regression – Множинна регресія включає набір засобів проведення регресійного аналізу даних.

Лінійний регресійний аналіз.

У лінійний регресійний аналіз входить широке коло завдань, пов'язаних із побудовою залежностей між групами числових змінних X º (x 1 , ..., x p)і Y = (y 1 ,..., y m).

Передбачається, що Х- незалежні змінні (чинники) впливають на значення Y- Залежних змінних (відгуків). За наявними емпіричними даними ( X i , Y i), i = 1, ..., nпотрібно побудувати функцію f (X), яка наближено описувала б зміну Yпри зміні X. Функція, що шукається, записується в наступному вигляді: f (X) = f (X, q) + e, де q - невідомий багатовимірний параметр, e - випадкова складова з нульовим середнім, f (X, q) є умовним математичним очікуванням Yза умови відомого Xі називається регресією Y по X.

Проста лінійна регресія.

Функція f(x, q) має вигляд f (x, q) = A + bxде q = ( A, b) – невідомі параметри. Щодо наявних спостережень ( x i , y i), де i = 1,...,nвважаємо, що y i = A + bx i + e i. e 1 , ..., e n– помилка обчислення Yза прийнятою моделлю. Для знаходження параметрів широко використовують метод найменших квадратів .

Значення параметрів моделі знаходять із рівняння:

Min по ( A, b)

Щоб спростити формули, покладемо x i = x i -;отримаємо:

y i = a + b (x i -) + e i , i = 1, ..., n,

де = , a = A + b.суму мінімізуємо по ( a,b), прирівнюючи нулю похідні по aі b; отримаємо систему лінійних рівнянь щодо aі b. Її рішення () легко знаходиться:

.

Властивості оцінок. Неважко показати, що якщо M e i = 0, D e i = s 2 , то

1)M = а, М = b, тобто. оцінки незміщені;

2) D = s 2 /n, D = s 2 /;

3) cov () = 0;

якщо додатково припустити нормальність розподілу e i, то

4) оцінки і нормально розподілені та незалежні;

5) залишкова сума квадратів

Q 2 =

незалежна від ( , ), а Q 2 / s 2 розподілена за законом хі-квадрат з n-2 ступенями свободи.

Виклик статистичного модуля Multiple Regression – Множинна регресія виконаємо за допомогою піктограми в лівому нижньому кутку (рис.1). У стартовому діалоговому вікні цього модуля (рис. 2) за допомогою кнопки Variablesвказуються залежна (dependent) та незалежні (independent) змінні.

У полі MD deletionвказується спосіб виключення з обробки даних, що відсутні:

casewise- ігнорується весь рядок, у якому є хоча б одне пропущене значення;

mean Substitution- замість пропущених даних підставляються середні значення змінних;

pairwise- попарне вилучення даних з перепустками з тих змінних, кореляція яких обчислюється.

У разі необхідності вибіркового включення даних для аналізу слід скористатися кнопкою select cases.

Малюнок – 1 Виклик статмодуля Multiple Regression

Малюнок – 2 Діалогове вікно Multiple Regression

Після вибору всіх параметрів аналізу натисніть OK.


Стандартна лінійна модель має вигляд:

Y = a 1 + a 2 X 1 + + a 3 X 2 + + a 3 X 3 + ……+ + a n X n

Натискання кнопки ОК призведе до появи вікна Multiple Regressions Results (результати регресійного аналізу) (рис. 3), за допомогою якого можна переглянути результати аналізу в деталях.

Малюнок – 3 Вікно Multiple Regressions Results (результати регресійного аналізу)

Вікно результатів має таку структуру. Верхня частинавікна – інформаційна. Нижня частина вікна містить функціональні кнопки, що дозволяють отримати додаткову інформаціюпро аналіз даних.

У верхній частині вікна наводяться найважливіші параметри отриманої регресійної моделі:

Dependent- Ім'я залежної змінної (Y);

Multiple R- Коефіцієнт множинної кореляції;

Характеризує тісноту лінійного зв'язкуміж залежною та всіма незалежними змінними. Може набувати значення від 0 до 1.

R 2або RI- Коефіцієнт детермінації;

Чисельно виражає частку варіації залежної змінної, пояснену з допомогою регресійного рівняння. Чим більше R 2 тим більшу частку варіації пояснюють змінні, включені в модель.

No. Of Cases- Число випадків, за якими побудована регресія;

adjusted R- скоригований коефіцієнт множинної кореляції;

Цей коефіцієнт позбавлений недоліків коефіцієнта множинної кореляції. Включення нової змінної в регресійне рівняння збільшує RI не завжди, а тільки в тому випадку, коли приватний F-критерій при перевірці гіпотези про значимість змінної, що включається більше або дорівнює 1. В іншому випадку включення нової змінної зменшує значення RI і adjusted R 2 .

adjusted R 2або adjusted RI- скоригований коефіцієнт детермінації;

Скоригований R 2 можна з великим успіхом (порівняно з R 2) застосовувати для вибору найкращого підмножини незалежних змінних у регресійному рівнянні

F- F-критерій;

df- Число ступенів свободи для F-критерію;

p- ймовірність нульової гіпотези для F-критерію;

Standard error of estimate- стандартна помилка оцінки (рівняння);

Intercept- вільний член рівняння, параметр а1;

Std.Error- стандартна помилка вільного члена рівняння;

t- t-критерій для вільного члена рівняння;

p- Імовірність нульової гіпотези для вільного члена рівняння.

Beta- b-коефіцієнти рівняння.

Це стандартизовані регресійні коефіцієнти, розраховані за стандартизованими значеннями змінних. За їх величиною можна порівняти і оцінити значимість залежних змінних, оскільки b-коефіцієнт вказує на скільки одиниць стандартного відхилення зміниться залежна змінна при зміні одне стандартне відхилення незалежної змінної за умови постійності інших незалежних змінних. Вільний член у такому рівнянні дорівнює 0.

За допомогою кнопок діалогового вікна Multiple Regressions Results (рис. 3) результати регресійного аналізу можна переглянути детальніше.

Кнопка Summary: Regression results- дозволяє переглянути основні результати регресійного аналізу (рис. 4, 5): BETA- b-коефіцієнти рівняння; St. Err. of BETA - стандартні помилки b-коефіцієнтів; У- Коефіцієнти рівняння регресії; St. Err. of B- стандартні помилки коефіцієнтів рівняння регресії; t (95)- t-критерії для коефіцієнтів рівняння регресії; р-level- Імовірність нульової гіпотези для коефіцієнтів рівняння регресії.

Малюнок - 4

Таким чином, в результаті проведеного регресійного аналізу отримано наступне рівняння взаємозв'язку між відгуком (Y) та незалежною змінною (Х):

Y = 17,52232 - 0,06859Х

Вільний коефіцієнт рівняння значимий на 5% рівні (p-level< 0,05). Коэффициентом при Х следует пренебречь. Это уравнение объясняет только 0,028% (R 2 = 0,000283) вариации зависимой переменной.


Після того, як за допомогою кореляційного аналізу виявлено наявність статистично значущих зв'язків між змінними та оцінено ступінь їх тісноти, зазвичай переходять до математичного опису конкретного виду залежностей за допомогою регресійного аналізу.

Кореляційна залежність між двома змінними – це функціональна залежність між однією змінною та очікуваним (умовним середнім) значенням іншої. Рівняння такої залежності між двома змінними називається рівнянням регресії. Якщо змінних дві (одна залежна і одна незалежна), то регресія називається простою, а якщо їх більше двох, то множинна. Якщо залежність між змінними лінійна, то регресія називається лінійною, інакше – нелінійною.

Розглянемо докладно просту лінійну регресію. Модель такої залежності може бути подана у вигляді

y = α + β x + ε, (1.1)

де у - Залежна змінна (результативний ознака);

х - незалежна змінна (факторна ознака);

α – вільний член рівняння регресії чи константа;

β – коефіцієнт рівняння регресії;

ε – випадкова величина, що характеризує відхилення фактичних значень залежної змінної у від модельних чи теоретичних значень, розрахованих за рівнянням регресії.

При цьому передбачається, що змінна, що пояснює х - Величина не випадкова, а пояснювана y - Випадкова. Надалі це припущення можна буде забрати.

1.2.1. Метод найменших квадратів (МНК) та його передумови

α та β – це параметри моделі регресії (1.1), які мають бути оцінені на основі вибіркових даних. На основі цих же вибіркових даних має бути оцінена дисперсія ε. Одним із методів обчислення таких оцінок є класичний метод найменших квадратів (МНК). Суть МНК полягає у мінімізації суми квадратів відхилень фактичних значень залежної змінної у від їх умовних математичних очікувань, що визначаються за рівнянням регресії:=α + β xв припущенні, що математичне очікування ε дорівнює нулю. Математичне очікування yпозначимо через, а суму квадратів відхилень через Q(.

Тут підсумовування ведеться по всій генеральній сукупності. Цю суму називають залишковою сумою квадратів.

Щоб мінімізувати цю функцію за параметрами звернемося до умов першого порядку, отриманих диференціюванням Q()

Далі нехай для оцінки параметрів моделі (1.1) організовано вибірку, що містить nпар значень змінних (x i, y i), де iприймає значення від 1 до n (i=). Прирівнюючи приватні похідні до нуля і переходячи від генеральної сукупності до вибірки (замінивши параметри їх оцінки), отримаємо систему нормальних рівнянь для обчислення оцінок параметрівα і β. Позначимо ці оцінки відповідно як а і b . Отримаємо таку систему нормальних рівнянь

Якщо оцінене рівняння позначити як y = a + bx + e , де е - Одна з реалізацій випадкової величини ε, що відповідає конкретної вибірки, то вираз у дужках системи нормальних рівнянь є не що інше, як залишок рівняння регресії е i = y iі тоді перше рівняння цієї системи набуде вигляду = 0. Тобто середнє значення залишків дорівнює нулю. Таким чином, якщо рівняння регресії містить константу, сума залишків в оціненому рівнянні завжди дорівнює нулю.

Друге рівняння системи у цих позначеннях дає = 0, тобто вектори значень незалежної змінної та залишків ортогональні (незалежні).

Наведемо один із варіантів формул для обчислення таких оцінок:

a = - b, b = . (1.2)

Відомо також, що незміщеною оцінкою дисперсії випадкових відхилень є залишкова дисперсія, що обчислюється із співвідношення:

= .

Отже, оцінена модель лінійної парної регресії має вигляд

y = a + bx + e, (1.3)

де е – спостережувані відхилення фактичних значень залежної змінної у від розрахункових, які розраховуються із співвідношення= a + bx .

Відмінність між ε і еу тому, що ε – це випадкова величина і передбачити її значення неможливо, тоді як е- Це значення відхилень, що спостерігаються ( е = у–) і ці відхилення можна вважати випадковою вибіркою із сукупності значень залишків регресії та їх можна аналізувати з використанням статистичних методів.

Як було зазначено, МНК будує оцінки регресії на основі мінімізації суми квадратів відхилень або залишків ε, тому важливо знати їхні властивості. Для отримання «хороших» МНК-оцінок необхідно, щоб виконувались такі основні передумови щодо залишків моделі (1.1), які називають припущеннями Гауса – Маркова.

Перше припущення свідчить, що математичне очікування регресійних залишків дорівнює нулю і передбачає, що у середньому, лінія регресії має бути істинною. Припущення 3 стверджує, що всі регресійні залишки мають ту саму дисперсію, і називається припущенням гомоскедастичності, а припущення 4 виключає будь-яку форму автокореляції між ними, тобто передбачає нульову кореляцію між різними регресійними залишками. Разом взяті ці припущення означають, що регресійні залишки є некорельованими вилученнями з генеральної сукупності з розподілом, що має нульове математичне очікування та постійну дисперсію.

Припущення 2 затверджує незалежність векторів значень незалежної змінної та регресійних залишків.

Відомо, що якщо виконуються ці чотири припущення, то вірна теорема ГаусаМаркова, Яка стверджує, що в цьому випадку МНК-оцінка b є найкращою лінійною незміщеною оцінкою параметра β. Найкращою у сенсі ефективності.

Крім сформульованих припущень вводиться ще одне, яке дозволило б сформулювати показники точності рівняння регресії та її оцінок. Ця передумова стверджує, що залишки повинні слідувати нормальному закону розподілу з нульовим математичним очікуванням та постійною дисперсією.

Надалі рівняння = a + bxбудемо називати вибірковим рівнянням регресії чи просто рівнянням регресії, яке коефіцієнти, відповідно, вільним членом ( а) та коефіцієнтом рівняння регресії ( b).

Вільний член рівняння регресії звичайно інтерпретується. p align="justify"> Коефіцієнт регресії показує, наскільки в середньому зміниться залежна змінна (у своїх одиницях вимірювання) при зміні незалежної змінної на одиницю свого вимірювання.

При цьому, необхідно мати на увазі, що коефіцієнти, що розглядаються, є оцінками параметрів рівняння регресії =α + β xз усіма звідси наслідками, зокрема і необхідністю отримання оцінок точності рівняння регресії та її параметрів.

Розглянемо деякі з них.

Ми познайомилися з двома простими прийомами попереднього аналізу залежності між двома змінними – діаграмою розсіювання та методом приватних середніх. Тепер перейдемо до опису простої лінійної регресії та з'ясуємо сенс окремих складових функції регресії.

Під простою регресією ми розуміємо односторонню стохастичну залежність результативної змінної лише від однієї пояснюючої змінної:

Якщо з міркувань професійно-теоретичного характеру разом із дослідженням розташування точок на діаграмі розсіювання передбачається лінійний характер залежності усереднених значень результативної змінної, то це залежність висловлюють з допомогою функції лінійної регресії. Формула (2.8) набуває у цьому випадку вигляду

Це загальне рівняння для простої лінійної регресії, де пояснює змінна. Є спостережень над цією змінною. Невідомі параметри регресії підлягають оцінці за певною процедурою. Далі, не вводячи додаткових позначень, ми називатимемо їх оцінками параметрів.

Постійна регресія. Її можна як коефіцієнта при фіктивної змінної, приймаючої всім значення . Постійна визначає точку перетину прямої регресії з віссю ординат (рис. 11). Так як відповідно до загального тлумачення рівняння регресії є середнім значенням у точці то звідси видно, що економічна інтерпретація часто дуже скрутна або взагалі неможлива. Наприклад, якщо на основі дослідних даних отримано рівняння регресії

визначальне залежність обсягу виробництва від основних фондів (розмірність обох величин 1000 марок), то інтерпретація призведе до парадоксального результату. Зокрема, при невикористанні основних фондів обсяг виробництва складе марок. Теоретично має бути в цьому випадку рівним нулю або більше за нього. Але практично інформація, що міститься в досвідчених даних, недостатня, щоб запобігти такому парадоксальному висновку. Постійна виконує у рівнянні регресій функцію вирівнювання. При цьому слід наголосити, що завдяки постійній функція регресії непомилкова. Рівняння регресії інтерпретується лише в області накопичення точок, а отже,

тельно, тільки між найменшим і найбільшим значеннями змінної х. Для більшості практичних досліджень величинами, що становлять інтерес, є і у, а не

Коефіцієнт називають коефіцієнтом регресії. Він характеризує нахил прямої до осі Якщо через у позначити кут, який пряма регресія утворює з віссю абсцис, то (див. рис. І). Коефіцієнт регресії є мірою залежності змінної у від змінної х або мірою впливу, що надається зміною змінної х на змінну у. Відповідно до рівняння вказує середню величину зміни змінної при зміні пояснюючої змінної х на одну одиницю. Знак визначає напрямок цієї зміни. При позитивному коефіцієнті регресії ми маємо позитивну лінійну регресію, що означає поступальний характер зміни залежної змінної зі збільшенням значень пояснюючої змінної х. При негативному коефіцієнті регресії йдеться про негативну регресію, при якій зі збільшенням значень х значення змінної уменшуються. Параметри регресії – не безрозмірні величини. Постійна рівняння регресії має розмірність змінної у. Розмірність коефіцієнта регресії є відношенням розмірності залежної змінної до розмірності пояснюючої змінної. Тут же відзначимо загальний принцип, якого далі дотримуватимемося. Функції, за допомогою яких описується залежність між досліджуваними змінними, повинні бути лінійними щодо параметрів, що оцінюються. Після отримання чисельних оцінок параметрів може бути обчислено за рівнянням регресії для кожного незалежного значення змінної значення

Мал. 11. Регресійна пряма та її параметри

Значення функції регресії називаються передбаченими або розрахунковими значеннями змінної у фіксованих х. При лінійній функції сукупність пророкованих значень утворює пряму регресію. Як згадувалося, через спотворює вплив сторонніх факторів-причин кожного значення може спостерігатися кілька емпіричних значень т. е. кожному значенню відповідає у статистичному сенсі розподіл ймовірностей значень змінної у. Значення функції регресії