تاثیر منفی چند خطی چیست؟ تعیین وجود چند خطی. ماتریس ضرایب همبستگی جفت

توجه داشته باشید که در برخی موارد، چند خطی بودن آنقدر «شر» جدی نیست که باید تلاش های قابل توجهی برای شناسایی و حذف آن انجام شود. اساساً همه چیز به اهداف مطالعه بستگی دارد.
اگر وظیفه اصلی مدل پیش بینی مقادیر آینده متغیر وابسته باشد، با ضریب تعیین R2 به اندازه کافی بزرگ (gt؛ 0.9)، وجود چند خطی معمولاً بر کیفیت های پیش بینی مدل تأثیر نمی گذارد (اگر در آینده همان روابط بین متغیرهای همبسته مانند قبل حفظ خواهد شد.
اگر تعیین میزان تأثیر هر متغیر توضیحی بر متغیر وابسته ضروری باشد، در آن صورت چند خطی بودن که منجر به خطاهای استاندارد بزرگتر می شود، احتمالاً روابط واقعی بین متغیرها را مخدوش می کند. در این شرایط، چند خطی بودن یک مشکل جدی است.
هیچ روش واحدی برای حذف چند خطی وجود ندارد که در هر صورت مناسب باشد. دلیل آن این است که علل و پیامدهای چند خطی بودن مبهم است و تا حد زیادی به نتایج نمونه بستگی دارد.
حذف متغیر(ها) از مدل
ساده ترین روش برای حذف چند خطی، حذف یک یا تعدادی از متغیرهای همبسته از مدل است. هنگام استفاده از این روش کمی احتیاط لازم است. در این شرایط، خطاهای مشخصات ممکن است، بنابراین در مدل‌های اقتصادسنجی کاربردی، توصیه می‌شود تا زمانی که چند خطی بودن به یک مشکل جدی تبدیل نشود، متغیرهای توضیحی حذف نشوند.
دریافت داده های بیشتر یا نمونه جدید
از آنجایی که چند خطی به طور مستقیم به نمونه بستگی دارد، ممکن است با یک نمونه متفاوت، چند خطی وجود نداشته باشد یا آنقدر جدی نباشد. گاهی برای کاهش چند خطی، کافی است حجم نمونه را افزایش دهیم. به عنوان مثال، اگر از داده های سالانه استفاده می کنید، می توانید به داده های فصلی بروید. افزایش حجم داده ها باعث کاهش واریانس ضرایب رگرسیون و در نتیجه افزایش معناداری آماری آنها می شود. با این حال، به دست آوردن یک نمونه جدید یا گسترش نمونه قدیمی همیشه امکان پذیر نیست یا با هزینه های جدی همراه است. علاوه بر این، این رویکرد ممکن است خودهمبستگی را افزایش دهد. این مشکلات استفاده از این روش را محدود می کند.
تغییر مشخصات مدل
در برخی موارد، مشکل چند خطی را می توان با تغییر مشخصات مدل حل کرد: یا تغییر شکل مدل، یا اضافه کردن متغیرهای توضیحی که در مدل اصلی در نظر گرفته نشده‌اند، اما به طور قابل توجهی بر متغیر وابسته تأثیر می‌گذارند. اگر این روش موجه باشد، استفاده از آن مجموع انحرافات مجذور را کاهش می دهد و در نتیجه خطای استاندارد رگرسیون را کاهش می دهد. این امر منجر به کاهش خطاهای استاندارد ضرایب می شود.
استفاده از اطلاعات قبلی در مورد برخی از پارامترها
گاهی اوقات، هنگام ساخت یک مدل رگرسیون چندگانه، می توانید از اطلاعات اولیه، به ویژه مقادیر شناخته شده برخی از ضرایب رگرسیون استفاده کنید.
این احتمال وجود دارد که مقادیر ضرایب محاسبه‌شده برای برخی از مدل‌های اولیه (معمولا ساده‌تر) یا برای یک مدل مشابه بر اساس نمونه‌ای که قبلاً به‌دست‌آمده است، برای مدل در حال توسعه استفاده شود.
انتخاب مهم ترین متغیرهای توضیحی. مراحل اتصال متوالی عناصر
حرکت به سمت متغیرهای توضیحی کمتر ممکن است تکرار اطلاعات ارائه شده توسط صفات بسیار وابسته به یکدیگر را کاهش دهد. این دقیقاً همان چیزی است که در مورد چند خطی بودن متغیرهای توضیحی با آن مواجه می شویم.

36. روش های شناسایی چندرنگی. همبستگی جزئی

بیشترین مشکلات در استفاده از دستگاه رگرسیون چندگانه در حضور چند خطی متغیرهای عاملی به وجود می آید، زمانی که بیش از دو عامل با یک رابطه خطی به یکدیگر مرتبط باشند.

چند خطی برای رگرسیون چندگانه خطی، وجود یک رابطه خطی بین متغیرهای عامل موجود در مدل است.

چند خطی نقض یکی از شرایط اصلی ساخت یک مدل رگرسیون چندگانه خطی است.

چند خطی بودن در شکل ماتریسی وابستگی بین ستون های ماتریس متغیرهای عامل X است:

اگر بردار واحد را در نظر نگیرید، بعد این ماتریس برابر با n*n است. اگر رتبه ماتریس X کمتر از n باشد، مدل دارای چند خطی کامل یا دقیق است. اما در عمل، چند خطی کامل تقریباً هرگز اتفاق نمی افتد.

می توان نتیجه گرفت که یکی از دلایل اصلی وجود چند خطی در مدل رگرسیون چندگانه، ماتریس ضعیف متغیرهای عامل X است.

هرچه چند خطی بودن متغیرهای عاملی قوی‌تر باشد، تخمین توزیع مقدار تغییرات توضیح داده شده بین عوامل فردی با استفاده از روش حداقل مربعات قابل اعتماد کمتر است.

گنجاندن عوامل چند خطی در مدل به چند دلیل نامطلوب است:

1) فرضیه اصلی در مورد بی اهمیت بودن ضرایب رگرسیون چندگانه را می توان تأیید کرد، اما خود مدل رگرسیون، زمانی که با استفاده از آزمون F آزمایش می شود، معنی دار است، که نشان دهنده مقدار بیش از حد برآورد شده ضریب همبستگی چندگانه است.

2) تخمین‌های به‌دست‌آمده از ضرایب مدل رگرسیون چندگانه ممکن است به‌طور غیرمنطقی متورم شده یا دارای علائم نادرستی باشد.

3) افزودن یا حذف یک یا دو مشاهدات از داده های اصلی تأثیر زیادی بر برآورد ضرایب مدل دارد.

4) عوامل چند خطی موجود در مدل رگرسیون چندگانه می تواند آن را برای استفاده بیشتر نامناسب کند.

روش خاصی برای تشخیص چند خطی وجود ندارد، اما استفاده از تعدادی تکنیک تجربی رایج است. در بیشتر موارد، تحلیل رگرسیون چندگانه با در نظر گرفتن ماتریس همبستگی متغیرهای عامل R یا ماتریس (XTX) آغاز می شود.

ماتریس همبستگی متغیرهای عامل، ماتریسی از ضرایب خطی همبستگی زوجی متغیرهای عامل است که نسبت به قطر اصلی متقارن است:

که در آن rij ضریب خطی همبستگی جفتی بین متغیرهای عامل i و j ام است،

مواردی در مورب ماتریس همبستگی وجود دارد، زیرا ضریب همبستگی متغیر عامل با خودش برابر با یک است.

هنگام در نظر گرفتن این ماتریس به منظور شناسایی عوامل چند خطی، ما با قوانین زیر هدایت می شویم:

1) اگر ماتریس همبستگی متغیرهای عامل شامل ضرایب همبستگی زوجی در مقدار مطلق بزرگتر از 0.8 باشد، آنگاه نتیجه می‌گیرند که در این مدل رگرسیون چندگانه چند خطی وجود دارد.

2) مقادیر ویژه ماتریس همبستگی متغیرهای عامل λmin و λmax را محاسبه کنید. اگر λmin<10-5 باشد، در مدل رگرسیونی چند خطی وجود دارد. اگر نگرش

سپس آنها همچنین نتیجه گرفتند که متغیرهای عامل چند خطی وجود دارد.

3) تعیین کننده ماتریس همبستگی متغیرهای عاملی را محاسبه کنید. اگر مقدار آن بسیار کوچک باشد، در مدل رگرسیونی چند خطی وجود دارد.

37. راه هایی برای حل مشکل چندرنگی

اگر قرار است از مدل رگرسیون برآورد شده برای مطالعه روابط اقتصادی استفاده شود، حذف عوامل چند خطی الزامی است زیرا وجود آنها در مدل می تواند منجر به علائم نادرست ضرایب رگرسیون شود.

هنگام ساخت یک پیش بینی بر اساس یک مدل رگرسیون با عوامل چند خطی، لازم است وضعیت بر اساس بزرگی خطای پیش بینی ارزیابی شود. اگر مقدار آن رضایت بخش باشد، می توان از مدل با وجود چند خطی بودن استفاده کرد. اگر خطای پیش‌بینی زیاد باشد، حذف عوامل چند خطی از مدل رگرسیون یکی از روش‌های افزایش دقت پیش‌بینی است.

راه های اصلی حذف چند خطی در مدل رگرسیون چندگانه عبارتند از:

1) یکی از ساده ترین راه ها برای حذف چند خطی، به دست آوردن داده های اضافی است. با این حال، در عمل، در برخی موارد، اجرای این روش می تواند بسیار دشوار باشد.

2) روشی برای تبدیل متغیرها، به عنوان مثال، به جای مقادیر همه متغیرهای شرکت کننده در مدل (از جمله متغیر حاصل)، می توانید لگاریتم آنها را بگیرید:

lny=β0+β1lnx1+β2lnx2+ε.

با این حال، این روش همچنین قادر به تضمین حذف کامل چند خطی عوامل نیست.

اگر روش های در نظر گرفته شده کمکی به حذف چند خطی عوامل نکردند، آنگاه به سمت استفاده از روش های سوگیری برای تخمین پارامترهای ناشناخته یک مدل رگرسیونی یا روش هایی برای حذف متغیرها از مدل رگرسیون چندگانه می روند.

اگر هیچ یک از متغیرهای عاملی موجود در مدل رگرسیون چندگانه قابل حذف نباشد، یکی از روش‌های مغرضانه اصلی برای تخمین ضرایب مدل رگرسیون استفاده می‌شود - رگرسیون یا پشته.

هنگام استفاده از روش رگرسیون رج، تعداد کمی τ به تمام عناصر مورب ماتریس (XTX) اضافه می شود: 10-6 ‹ τ ‹ 0.1. تخمین پارامترهای مجهول یک مدل رگرسیون چندگانه با استفاده از فرمول انجام می شود:

که در آن ln ماتریس هویت است.

نتیجه استفاده از رگرسیون پشته کاهش خطاهای استاندارد ضرایب مدل رگرسیون چندگانه به دلیل تثبیت آنها به عدد معینی است.

تحلیل مؤلفه های اصلی یکی از روش های اصلی حذف متغیرها از مدل رگرسیون چندگانه است.

این روش برای حذف یا کاهش چند خطی متغیرهای عامل در یک مدل رگرسیونی استفاده می شود. ماهیت روش کاهش تعداد متغیرهای عامل به مهم ترین عوامل تأثیرگذار است. این امر با تبدیل خطی همه متغیرهای عامل xi (i=0،...،n) به متغیرهای جدیدی به نام مؤلفه‌های اصلی به دست می‌آید، یعنی انتقالی از ماتریس متغیرهای عامل X به ماتریس مؤلفه‌های اصلی F انجام می‌شود. در این مورد، این شرط مطرح می شود که جداسازی مولفه اصلی اول با حداکثر واریانس کل همه متغیرهای عامل xi (i=0,...,n) مطابقت داشته باشد، مولفه دوم با حداکثر مطابقت داشته باشد. واریانس باقی مانده، پس از حذف تأثیر اولین جزء اصلی و غیره.

روش گنجاندن گام به گام متغیرها شامل انتخاب از کل مجموعه ممکن متغیرهای عاملی دقیقاً آنهایی است که تأثیر قابل توجهی بر متغیر نتیجه دارند.

روش گنجاندن گام به گام طبق الگوریتم زیر انجام می شود:

1) از بین همه متغیرهای عامل، مدل رگرسیون شامل آن دسته از متغیرهایی است که با بزرگترین مدول ضریب خطی همبستگی زوجی با متغیر نتیجه مطابقت دارند.

2) هنگام افزودن متغیرهای عامل جدید به مدل رگرسیون، اهمیت آنها با استفاده از آزمون F فیشر بررسی می شود. در عین حال، فرضیه اصلی در مورد گنجاندن غیر موجه متغیر عامل xk در مدل رگرسیون چندگانه مطرح می‌شود. فرضیه مقابل، بیانیه ای در مورد توصیه به گنجاندن متغیر عامل xk در مدل رگرسیون چندگانه است. مقدار بحرانی معیار F به صورت Fcrit(a;k1;k2) تعریف می شود، جایی که a سطح معنی داری، k1=1 و k2=n-l تعداد درجه آزادی، n حجم جامعه نمونه، l تعداد پارامترهای برآورد شده از نمونه است. مقدار مشاهده شده از معیار F با استفاده از فرمول محاسبه می شود:

که در آن q تعداد متغیرهای عاملی است که قبلاً در مدل رگرسیون گنجانده شده است.

هنگام آزمون فرضیه اصلی، شرایط زیر امکان پذیر است.

Fob›Fcrit، سپس فرضیه اصلی در مورد گنجاندن غیر موجه متغیر عامل xk در مدل رگرسیون چندگانه رد می شود. بنابراین، گنجاندن این متغیر در مدل رگرسیون چندگانه موجه است.

اگر مقدار مشاهده شده از معیار F (محاسبه شده از داده های نمونه) کمتر یا مساوی با مقدار بحرانی معیار F (تعیین شده از جدول توزیع فیشر- اسندکور)، یعنی Fobs.≤Fcrit باشد، آنگاه فرضیه اصلی است. در مورد گنجاندن غیر موجه متغیر عامل xk در رگرسیون مدل چندگانه پذیرفته شده است. بنابراین نمی توان این متغیر عامل را بدون کاهش کیفیت آن در مدل گنجاند

3) متغیرهای عامل از نظر معناداری بررسی می شوند تا زمانی که حداقل یک متغیر وجود داشته باشد که شرط Fob›Fcrit برای آن برآورده نشود.

38. متغیرهای ساختگی. تست چاو

اصطلاح "متغیرهای ساختگی" در مقابل متغیرهای "معنی" استفاده می شود که نشان دهنده سطح یک شاخص کمی است که مقادیر را از یک بازه پیوسته می گیرد. به عنوان یک قاعده، یک متغیر ساختگی یک متغیر شاخص است که یک ویژگی کیفی را منعکس می کند. متداول ترین آنها متغیرهای ساختگی باینری هستند که بسته به شرایط خاصی دو مقدار 0 و 1 می گیرند. به عنوان مثال، در نظرسنجی از گروهی از افراد، 0 ممکن است به این معنی باشد که فرد مورد بررسی مرد است و 1 ممکن است به معنای یک زن باشد. متغیرهای ساختگی گاهی اوقات شامل یک رگرسیون متشکل از تنها واحدها (به عنوان مثال، یک ثابت، یک ترم قطع)، و همچنین یک روند زمانی هستند.

متغیرهای ساختگی، برونزا بودن، هیچ مشکلی در هنگام استفاده از OLS ایجاد نمی کنند. متغیرهای ساختگی ابزار موثری برای ساخت مدل های رگرسیونی و آزمون فرضیه ها هستند.

فرض کنید یک مدل رگرسیون بر اساس داده های جمع آوری شده ساخته شده است. محقق با این وظیفه روبروست که آیا ارزش دارد متغیرهای ساختگی اضافی را در مدل حاصل وارد کند یا اینکه مدل پایه بهینه است. این مشکل با استفاده از روش یا تست Chow حل می شود. در شرایطی استفاده می شود که جامعه نمونه اصلی را می توان به قطعات یا نمونه های فرعی تقسیم کرد. در این مورد، می توانید این فرض را آزمایش کنید که نمونه های فرعی موثرتر از مدل رگرسیون کلی هستند.

فرض می کنیم که مدل رگرسیون عمومی یک مدل رگرسیون نامحدود است. اجازه دهید این مدل را با علامت گذاری کنیم سازمان ملل متحد. موارد خاصی از مدل رگرسیون بدون محدودیت را به عنوان نمونه های فرعی جداگانه در نظر خواهیم گرفت. اجازه دهید این نمونه های فرعی جزئی را به عنوان نشان دهیم روابط عمومی.

اجازه دهید نماد زیر را معرفی کنیم:

PR1 - اولین نمونه فرعی.

PR2 - نمونه فرعی دوم؛

ESS (PR1) - مجموع مجذور باقیمانده برای اولین نمونه فرعی.

ESS (PR2) - مجموع مجذور باقیمانده برای نمونه فرعی دوم.

ESS(UN) مجموع مجذور باقیمانده برای مدل رگرسیون کلی است.

- مجموع مجذور باقیمانده برای مشاهدات اولین نمونه فرعی در مدل رگرسیون عمومی.

- مجموع مجذور باقیمانده برای مشاهدات زیرنمونه دوم در مدل رگرسیون عمومی.

برای مدل های رگرسیون خاص، نابرابری های زیر معتبر هستند:

وضعیت (ESS(PR1)+ESS(PR2))= ESS(UN)تنها در صورتی انجام می شود که ضرایب مدل های رگرسیون جزئی و ضرایب مدل رگرسیون عمومی بدون محدودیت یکسان باشند، اما در عمل چنین تصادفی بسیار نادر است.

فرضیه اصلی این است که کیفیت مدل رگرسیون نامحدود کلی بهتر از کیفیت مدل‌های رگرسیون جزئی یا نمونه‌های فرعی است.

فرضیه جایگزین یا معکوس بیان می کند که کیفیت مدل رگرسیون نامحدود عمومی بدتر از کیفیت مدل های رگرسیون خاص یا نمونه های فرعی است.

این فرضیه ها با استفاده از آزمون F Fisher-Snedecor مورد آزمون قرار می گیرند.

مقدار F-test مشاهده شده با مقدار F-test بحرانی که از جدول توزیع Fisher-Snedecor تعیین می شود، مقایسه می شود.

آ k1=m+1و k2=n-2m-2.

مقدار مشاهده شده از معیار F با استفاده از فرمول محاسبه می شود: Where ESS(UN)–ESS(PR1)–ESS(PR2)- ارزش مشخص کننده بهبود کیفیت مدل رگرسیون پس از تقسیم آن به نمونه های فرعی.

متر- تعداد متغیرهای عامل (از جمله متغیرهای ساختگی)؛

n- اندازه کل جامعه نمونه.

اگر مقدار F-test مشاهده شده (محاسبه شده از داده های نمونه) از مقدار F-test بحرانی (تعیین شده از جدول توزیع Fisher-Snedecor) بیشتر باشد، به عنوان مثال. Fob>Fcrit، سپس فرضیه اصلی رد می شود و کیفیت مدل های رگرسیون خاص از کیفیت مدل رگرسیون عمومی فراتر می رود.

اگر مقدار F-test مشاهده شده (محاسبه شده از داده های نمونه) کمتر یا مساوی با مقدار بحرانی F-test (تعیین شده از جدول توزیع Fisher-Snedecor) باشد، به عنوان مثال. Fob؟Fcrit، سپس فرضیه اصلی پذیرفته می شود و منطقی نیست که رگرسیون کلی را به نمونه های فرعی تقسیم کنیم.

اگر اهمیت رگرسیون پایه یا رگرسیون محدود آزمایش شود، فرضیه اصلی فرم مطرح می شود:

اعتبار این فرضیه با استفاده از آزمون F Fisher-Snedecor مورد بررسی قرار گرفته است.

مقدار بحرانی آزمون فیشر F از جدول توزیع فیشر-اسندکور بسته به سطح معناداری تعیین می شود. آو دو درجه آزادی k1=m+1و k2=n–k–1.

مقدار مشاهده شده از معیار F به شکل زیر تبدیل می شود:

هنگام آزمون فرضیه ها، شرایط زیر امکان پذیر است.

اگر مقدار F-test مشاهده شده (محاسبه شده از داده های نمونه) از مقدار F-test بحرانی (تعیین شده از جدول توزیع Fisher-Snedecor) بیشتر باشد، به عنوان مثال. Fob›Fcrit،سپس فرضیه اصلی رد می شود و متغیرهای ساختگی اضافی باید به مدل رگرسیونی وارد شوند، زیرا کیفیت مدل رگرسیون محدود بالاتر از کیفیت مدل پایه یا رگرسیون محدود است.

اگر مقدار F-test مشاهده شده (محاسبه شده از داده های نمونه) کمتر یا مساوی با مقدار بحرانی F-test (تعیین شده از جدول توزیع Fisher-Snedecor) باشد، به عنوان مثال. Fob؟Fcritسپس فرضیه اصلی پذیرفته می شود و مدل رگرسیون پایه رضایت بخش است.

39. سیستم معادلات همزمان (متغیرهای درون زا، برون زا، با تاخیر). نمونه های مهم اقتصادی از سیستم های معادلات همزمان

تاکنون مدل‌های اقتصادسنجی تعریف شده توسط معادلاتی را در نظر گرفته‌ایم که متغیر وابسته (تبیین شده) را بر حسب متغیرهای توضیحی بیان می‌کنند. با این حال، اشیاء اقتصادی واقعی که با استفاده از روش‌های اقتصادسنجی مورد مطالعه قرار می‌گیرند، منجر به گسترش مفهوم یک مدل اقتصادسنجی می‌شود که توسط یک سیستم معادلات و هویت‌های رگرسیون توصیف شده است.

1 بر خلاف معادلات رگرسیون، هویت ها شامل پارامترهای مدل برای تخمین زدن نیستند و شامل یک جزء تصادفی نیستند.

ویژگی خاص این سیستم ها این است که هر یک از معادلات سیستم، علاوه بر متغیرهای توضیحی «خود»، می تواند متغیرهای توضیحی معادلات دیگر را نیز در بر گیرد. بنابراین، ما یک متغیر وابسته نداریم، بلکه مجموعه ای از متغیرهای وابسته (توضیح داده شده) مرتبط با معادلات سیستم داریم. چنین سیستمی را سیستم معادلات همزمان نیز می نامند و بر این نکته تاکید دارد که در سیستم همان متغیرها به طور همزمان در برخی معادلات وابسته و در برخی دیگر مستقل در نظر گرفته می شوند.

سیستم‌های معادلات همزمان یک شی اقتصادی را به‌طور کامل توصیف می‌کنند که شامل بسیاری از متغیرهای درون‌زا (که در عملکرد جسم شکل می‌گیرند) و برون‌زا (مجموعه از بیرون) به هم پیوسته است. در این حالت، متغیرهای با تاخیر (در نقطه قبلی در زمان) می توانند به عنوان درون زا و برون زا عمل کنند.

یک مثال کلاسیک از چنین سیستمی مدل تقاضای Qd و عرضه Qs است (نگاه کنید به § 9.1)، هنگامی که تقاضا برای یک محصول با قیمت P و درآمد مصرف کننده تعیین می شود /، عرضه یک محصول با قیمت P آن تعیین می شود. و تعادل بین عرضه و تقاضا حاصل می شود:

در این سیستم متغیر برونزا درآمد مصرف کننده / و متغیر درونزا تقاضا (عرضه) محصول Qd = Q» = Q و قیمت محصول (قیمت تعادلی) R است.

در مدل دیگری از عرضه و تقاضا، متغیر توضیح دهنده عرضه Qf می تواند نه تنها قیمت کالاها P در یک نقطه زمانی معین /، یعنی. سرب بلکه قیمت محصول در نقطه قبلی Ptb یعنی. متغیر درون زا با تاخیر:

th"=P4+P5^+Pb^-1+Є2.

با جمع بندی موارد فوق، می توان گفت که مدل اقتصادسنجی به ما اجازه می دهد تا رفتار متغیرهای درون زا را بسته به مقادیر متغیرهای درون زا برون زا و عقب مانده توضیح دهیم (به عبارت دیگر، بسته به متغیرهای از پیش تعیین شده، یعنی متغیرهای از پیش تعیین شده).

در پایان بررسی مفهوم مدل اقتصادسنجی، موارد زیر باید مورد توجه قرار گیرد. هر مدل اقتصادی و ریاضی که بیانگر توصیفی ریاضی و آماری از موضوع اقتصادی مورد مطالعه است را نمی توان اقتصادسنجی در نظر گرفت. فقط در صورتی اقتصادسنجی می شود که این موضوع را بر اساس داده های تجربی (آماری) مشخص کننده آن منعکس کند.

40. روش حداقل مربعات غیر مستقیم

اگر معادله تصادفی i شکل ساختاری دقیقاً شناسایی شود، پارامترهای این معادله (ضرایب معادله و واریانس خطای تصادفی) به طور یکتا از پارامترهای سیستم کاهش یافته بازیابی می شوند. بنابراین برای تخمین پارامترهای چنین معادله ای کافی است ضرایب هر یک از معادلات شکل کاهش یافته را با استفاده از روش حداقل مربعات (به طور جداگانه برای هر معادله) تخمین زده و تخمینی از ماتریس کوواریانس Q خطاهای موجود را بدست آوریم. شکل کاهش یافته، و سپس از روابط PG = B و E = GTQT استفاده کنید و در آنها به جای P، یک ماتریس ضریب تخمینی از شکل کاهش یافته P و یک ماتریس کوواریانس تخمینی خطاها به شکل کاهش یافته £ 2 وجود دارد. این روش حداقل مربعات غیرمستقیم (ILS غیر مستقیم حداقل مربعات) نامیده می شود. برآوردهای حاصل از ضرایب i-امین معادله تصادفی شکل ساختاری، خاصیت سازگاری تخمین های شکل کاهش یافته را به ارث می برند. با این حال، به دلیل اینکه در نتیجه برخی از تبدیل‌های غیرخطی به دست می‌آیند، چنین ویژگی‌هایی را از برآوردگرهای فرم کاهش‌یافته به عنوان بی طرفی و کارایی به ارث نمی‌برند. بر این اساس، با تعداد کمی از مشاهدات، حتی این تخمین های طبیعی ممکن است در معرض سوگیری قابل توجهی قرار گیرند. در این راستا، هنگام در نظر گرفتن روش‌های مختلف برای تخمین ضرایب معادلات ساختاری، در درجه اول به اطمینان از سازگاری برآوردهای حاصل می‌پردازند.

41. مشکلات شناسایی سیستم های معادلات همزمان

با مشخص کردن صحیح مدل، وظیفه شناسایی یک سیستم معادلات به برآورد صحیح و بدون ابهام ضرایب آن کاهش می یابد. ارزیابی مستقیم ضرایب معادله تنها در سیستم‌هایی از معادلات به ظاهر نامرتبط امکان‌پذیر است که پیش‌نیازهای اساسی برای ساخت یک مدل رگرسیونی برآورده می‌شوند، به‌ویژه شرط عدم همبستگی متغیرهای عامل با باقیمانده‌ها.

در سیستم‌های بازگشتی، همیشه می‌توان با جایگزین کردن مقادیر متغیرهای عامل نه واقعی، بلکه مقادیر مدل متغیرهای درون‌زا که به‌عنوان متغیرهای عاملی عمل می‌کنند، از مشکل همبستگی باقیمانده‌ها با متغیرهای عامل خلاص شد. فرآیند شناسایی به شرح زیر انجام می شود:

1. معادله ای مشخص می شود که شامل متغیرهای درون زا به عنوان عوامل نباشد. مقدار محاسبه شده متغیر درون زا این معادله پیدا می شود.

2. معادله زیر را در نظر بگیرید که در آن متغیر درون زا موجود در مرحله قبل به عنوان یک عامل گنجانده شده است. مقادیر مدل (تخمینی) این متغیر درونزا توانایی شناسایی این معادله و غیره را فراهم می کند.

در سیستم معادلات به شکل کاهش یافته، مشکل همبستگی متغیرهای عامل با انحرافات مطرح نمی شود، زیرا در هر معادله فقط از متغیرهای از پیش تعریف شده به عنوان متغیر عامل استفاده می شود. بنابراین، اگر سایر پیش نیازها برآورده شوند، سیستم بازگشتی همیشه قابل شناسایی است.

هنگام در نظر گرفتن یک سیستم معادلات همزمان، یک مشکل شناسایی ایجاد می شود.

شناسایی در این مورد به معنای تعیین امکان محاسبه مجدد بدون ابهام ضرایب سیستم به شکل کاهش یافته به ضرایب ساختاری است.

مدل ساختاری (7.3) به طور کامل شامل پارامترهایی که باید تعیین شوند. شکل داده شده از مدل شامل پارامترها به طور کامل است. بنابراین، برای تعیین پارامترهای ناشناخته مدل ساختاری، معادلات را می توان ترسیم کرد. چنین سیستم هایی نامطمئن هستند و پارامترهای مدل ساختاری در حالت کلی را نمی توان به طور واضح تعیین کرد.

برای به دست آوردن تنها راه حل ممکن، باید فرض کرد که برخی از ضرایب ساختاری مدل به دلیل رابطه ضعیفی که با متغیر درون زا از سمت چپ سیستم دارند، برابر با صفر هستند. این باعث کاهش تعداد ضرایب ساختاری مدل می شود. کاهش تعداد ضرایب ساختاری مدل به روش های دیگری نیز امکان پذیر است: به عنوان مثال، با معادل سازی برخی ضرایب با یکدیگر، یعنی با فرض یکسان بودن تأثیر آنها بر متغیر درون زا در حال شکل گیری و غیره.

از منظر قابلیت شناسایی، مدل های ساختاری را می توان به سه نوع تقسیم کرد:

· قابل شناسایی

· غیرقابل شناسایی

· بیش از حد شناسایی شده است.

مدل قابل شناسایی، اگر تمام ضرایب ساختاری آن به طور یکتا، به روشی منحصر به فرد، توسط ضرایب شکل کاهش یافته مدل تعیین شوند، یعنی اگر تعداد پارامترهای مدل سازه با تعداد پارامترهای شکل کاهش یافته برابر باشد. مدل.

مدل غیر قابل شناساییدر صورتی که تعداد ضرایب مدل کاهش یافته کمتر از تعداد ضرایب ساختاری باشد و در نتیجه نمی توان ضرایب ساختاری را از طریق ضرایب شکل کاهش یافته مدل تخمین زد.

مدل بیش از حد قابل شناسایی، اگر تعداد ضرایب مدل کاهش یافته از تعداد ضرایب ساختاری بیشتر باشد. در این حالت، بر اساس ضرایب فرم کاهش یافته، می توان دو یا چند مقدار از یک ضریب سازه را به دست آورد. یک مدل بیش از حد، بر خلاف مدل غیرقابل شناسایی، عملا قابل حل است، اما به روش های خاصی برای یافتن پارامترها نیاز دارد.

برای تعیین نوع مدل سازه ای باید هر یک از معادلات آن را از نظر قابلیت شناسایی بررسی کرد.

یک مدل در صورتی قابل شناسایی در نظر گرفته می شود که هر معادله سیستم قابل شناسایی باشد. اگر حداقل یکی از معادلات سیستم غیرقابل شناسایی باشد، کل مدل غیرقابل شناسایی در نظر گرفته می شود. علاوه بر موارد قابل شناسایی، یک مدل بیش از حد شامل حداقل یک معادله بیش از حد شناسایی شده است.

42. روش حداقل مربعات سه مرحله ای

موثرترین روش برای تخمین سیستم های معادلات رگرسیون، روش تخمین همزمان و روش متغیرهای ابزاری را ترکیب می کند. روش مربوطه حداقل مربعات سه مرحله ای نامیده می شود. این امر شامل این واقعیت است که در مرحله اول روش حداقل مربعات تعمیم یافته به مدل اصلی (9.2) به منظور حذف همبستگی عبارت های تصادفی اعمال می شود. سپس روش حداقل مربعات دو مرحله ای برای معادلات به دست آمده اعمال می شود.

بدیهی است که اگر عبارات تصادفی (9.2) همبستگی نداشته باشند، روش سه مرحله ای به یک دو مرحله ای کاهش می یابد، در حالی که در عین حال، اگر ماتریس B هویت باشد، روش سه مرحله ای روشی برای تخمین همزمان است. معادلات ظاهرا نامرتبط

بیایید روش سه مرحله ای را برای مدل مورد نظر اعمال کنیم (9.24):

ai=19.31; Pi=l.77; a2=19.98; p2=0.05; y=1.4. (6.98) (0.03) (4.82) (0.08) (0.016)

از آنجایی که ضریب p2 ناچیز است، معادله وابستگی Y به X به شکل زیر است:

y = 16.98 + 1.4x

توجه داشته باشید که عملاً با معادله (9.23) منطبق است.

همانطور که مشخص است، خالص کردن یک معادله از همبستگی عبارت های تصادفی یک فرآیند تکراری است. بر این اساس برنامه کامپیوتری هنگام استفاده از روش سه مرحله ای تعداد تکرارها یا دقت مورد نیاز را درخواست می کند. اجازه دهید به یک ویژگی مهم روش سه مرحله ای توجه کنیم که بیشترین کارایی آن را تضمین می کند.

برای تعداد زیادی از تکرارها، برآوردهای حداقل مربعات سه مرحله ای با برآوردهای حداکثر درستنمایی منطبق است.

برآوردگرهای حداکثر احتمال شناخته شده اند که بهترین عملکرد را در نمونه های بزرگ دارند.

43. مفهوم سری زمانی اقتصادی. نمای کلی مدل سری زمانی ضربی و جمعی

44. مدل سازی روند سری های زمانی، نوسانات فصلی و چرخه ای.

چندین رویکرد برای تجزیه و تحلیل ساختار سری های زمانی حاوی نوسانات فصلی یا چرخه ای وجود دارد.

1 رویکرد. محاسبه مقادیر مؤلفه های فصلی با استفاده از روش میانگین متحرک و ساخت مدل سری زمانی افزایشی یا ضربی.

نمای کلی مدل افزودنی: (T - جزء روند، S - فصلی، E - تصادفی).

نمای کلی مدل ضربی:

انتخاب یک مدل بر اساس تجزیه و تحلیل ساختار نوسانات فصلی (اگر دامنه نوسانات تقریباً ثابت باشد - افزودنی، اگر افزایش / کاهش یابد - ضربی).

مدل های ساختمان به محاسبه مقادیر T، S، E برای هر سطح از سری خلاصه می شود.

نمونه ساختمان:

1. تراز سری اصلی با استفاده از روش میانگین متحرک.

2. محاسبه مقادیر جزء اس;

3. حذف مولفه فصلی از سطوح اولیه سری و به دست آوردن داده های هم تراز ( T+E) در افزودنی یا ( T*E) در مدل ضربی.

4. سطح بندی تحلیلی ( T+E) یا ( T*E) و محاسبه مقدار تیبا استفاده از سطح روند به دست آمده

5. محاسبه مقادیر به دست آمده از مدل ( T+S) یا ( T*S).

6. محاسبه خطاهای مطلق و/یا نسبی.

اگر مقادیر خطای به‌دست‌آمده حاوی خود همبستگی نباشد، می‌توان از آنها برای جایگزینی سطوح اصلی سری استفاده کرد و متعاقباً از سری زمانی خطا استفاده کرد. Eبرای تجزیه و تحلیل رابطه بین سری اصلی و سری های زمانی دیگر.

2 رویکرد.ساخت یک مدل رگرسیون شامل عامل زمان و متغیرهای ساختگی. تعداد متغیرهای ساختگی در چنین مدلی باید یک کمتر از تعداد لحظه ها (دوره های) زمانی در یک چرخه نوسان باشد. به عنوان مثال، هنگام مدل‌سازی داده‌های فصلی، مدل باید شامل چهار متغیر مستقل باشد - یک عامل زمان و سه متغیر ساختگی. هر متغیر ساختگی مولفه فصلی (چرخه ای) سری زمانی را برای هر دوره منعکس می کند. برای یک دوره معین برابر با یک (1) و برای بقیه صفر (0) است. نقطه ضعف یک مدل با متغیرهای ساختگی وجود تعداد زیادی متغیر است.

45. تابع خود همبستگی. استفاده از آن برای شناسایی وجود یا عدم وجود روند و اجزای چرخه ای

خود همبستگی سطوح سری زمانی.

اگر روندها و نوسانات دوره ای در یک سری زمانی وجود داشته باشد، هر سطح بعدی از سری به سطوح قبلی بستگی دارد. وابستگی همبستگی بین سطوح متوالی یک سری زمانی نامیده می شود خود همبستگی سطوح سری.

از نظر کمی، خودهمبستگی سطوح سری با استفاده از یک ضریب همبستگی خطی بین سطوح سری زمانی اصلی و سطوح این سری اندازه‌گیری می‌شود که چندین مرحله در زمان جابجا شده‌اند.

مثلاً یک سری زمانی به شما داده شود . اجازه دهید ضریب همبستگی بین سری و را تعیین کنیم.

یکی از فرمول های کاری برای محاسبه ضریب همبستگی:

و سری زمانی، یعنی. در تاخیر 2. با فرمول تعیین می شود:

(4)

توجه داشته باشید که با افزایش تاخیر، تعداد جفت مقادیری که ضریب همبستگی از آنها محاسبه می شود کاهش می یابد. به طور معمول، تاخیر مجاز نیست بیشتر از یک چهارم تعداد مشاهدات باشد.

اجازه دهید به دو ویژگی مهم ضرایب خودهمبستگی توجه کنیم.

اولاً، ضرایب خودهمبستگی با قیاس با ضریب همبستگی خطی محاسبه می‌شوند، یعنی. آنها فقط نزدیکی ارتباط خطی بین دو سطح سری زمانی مورد بررسی را مشخص می کنند. بنابراین، ضریب همبستگی فقط می تواند وجود یک روند خطی (یا نزدیک به خطی) را قضاوت کند. برای سری های زمانی که روند غیرخطی قوی دارند (مثلاً نمایی)، ضریب همبستگی سطح ممکن است به صفر نزدیک شود.

مقررات اساسی

اگر رگرسیورها در مدل با یک وابستگی عملکردی شدید به هم متصل شوند، پس چند خطی کامل (کامل).. این نوع چند خطی می تواند، برای مثال، در یک مسئله رگرسیون خطی که با روش حداقل مربعات حل می شود، ایجاد شود، اگر تعیین کننده ماتریس برابر با صفر باشد. چند خطی بودن کامل به ما اجازه نمی دهد که پارامترهای مدل اصلی را به طور واضح تخمین بزنیم و سهم رگرسیون ها را در متغیر خروجی بر اساس نتایج مشاهدات جدا کنیم.

در مسائل مربوط به داده های واقعی، مورد چند خطی کامل بسیار نادر است. در عوض، در حوزه برنامه اغلب باید با آن سر و کار داشته باشیم چند خطی جزئی، که با ضرایب همبستگی زوجی بین رگرسیون ها مشخص می شود. در حالت چند خطی جزئی، ماتریس دارای رتبه کامل است، اما تعیین کننده آن نزدیک به صفر خواهد بود. در این حالت، تخمین پارامترهای مدل و شاخص‌های دقت آنها به طور رسمی امکان پذیر است، اما همه آنها ناپایدار خواهند بود.

از جمله پیامدهای چند خطی جزئی می توان به موارد زیر اشاره کرد:

افزایش واریانس تخمین پارامترها
کاهش مقادیر آماره t برای پارامترها، که منجر به نتیجه گیری نادرست در مورد اهمیت آماری آنها می شود.
به دست آوردن برآوردهای ناپایدار پارامترهای مدل و واریانس آنها
امکان به دست آوردن یک علامت نادرست از نقطه نظر نظری برآورد پارامتر

هیچ معیار کمی دقیقی برای تشخیص چند خطی جزئی وجود ندارد. موارد زیر اغلب به عنوان نشانه های حضور آن استفاده می شود:

روش های حذف چند خطی

دو رویکرد اصلی برای حل این مشکل وجود دارد.

صرف نظر از نحوه انتخاب عوامل، کاهش تعداد آنها منجر به بهبود شرطی بودن ماتریس و در نتیجه افزایش کیفیت برآورد پارامترهای مدل می شود.

علاوه بر روش های ذکر شده، روش ساده تر دیگری وجود دارد که نتایج نسبتاً خوبی به دست می دهد - این است روش پیش مرکزی. ماهیت روش این است که قبل از یافتن پارامترهای مدل ریاضی، داده های منبع در مرکز قرار می گیرند: میانگین سری از هر مقدار در سری داده ها کم می شود: . این روش به ما این امکان را می دهد که ابرصفحه های شرایط LSM را طوری جدا کنیم که زوایای بین آنها عمود باشد. در نتیجه، تخمین مدل پایدار می‌شود (ساخت مدل‌های چند عاملی تحت شرایط چند خطی).

سوالات برای آزمون دوره

"اقتصاد (سطح پیشرفته)"

1. مدل رگرسیون چندگانه. انواع مدل های رگرسیون چندگانه

2. فرم ثبت ماتریس و فرمول ماتریسی برای تخمین پارامترهای رگرسیون چندگانه.

3. ارزیابی کیفیت معادله رگرسیون. اجزای توضیح داده شده و غیرقابل توضیح معادله رگرسیون.

4. ضریب تعیین و ضریب همبستگی، محاسبه آنها در مدل رگرسیون زوجی.

5. ضریب تعیین چندگانه انتخابی و بررسی اهمیت آن با استفاده از آزمون فیشر.

6. بررسی معناداری یک معادله رگرسیون چندگانه با استفاده از آزمون فیشر.

اهمیت معادله رگرسیون، یعنی. برازش مدل اقتصادسنجی Y= آˆ0 + آ 1 ایکس+ هداده های واقعی (تجربی)، به ما اجازه می دهد

تعیین کنید که آیا معادله رگرسیون برای استفاده عملی (برای تحلیل و پیش بینی) مناسب است یا خیر.

برای آزمایش اهمیت معادله، استفاده کنید اف- معیار فیشر. از داده های واقعی به عنوان نسبت بی طرفانه محاسبه می شود

واریانس جزء باقیمانده به واریانس سری اصلی. اهمیت ضریب تعیین با استفاده از معیار فیشر بررسی می شود که مقدار محاسبه شده آن با استفاده از فرمول بدست می آید:

جایی که ضریب همبستگی چندگانه است، تعداد مشاهدات، تعداد متغیرها، عنصر قطری ماتریس است.

برای آزمون فرضیه، مقدار جدول از جدول تعیین می شود

تست فیشر اف.

F(α ν1 ν2) حداکثر مقدار ممکن معیار بسته به تأثیر عوامل تصادفی برای درجات آزادی معین است.

ν = m1، ν2 = n− متر-1 و سطح اهمیت α. اینجا متر- تعداد آرگومان ها در مدل

سطح معناداری α احتمال رد فرضیه صحیح است، اما به شرط درست بودن آن (خطای نوع I). معمولا α 0.05 یا 0.01 در نظر گرفته می شود.

اگر اف f> افجدول، پس H0- فرضیه تصادفی بودن ویژگی های ارزیابی شده رد شده و اهمیت آماری و پایایی آنها تشخیص داده می شود. اگر برعکس، پس فرضیه H0رد نمی شود و بی اهمیت بودن و غیرقابل اعتماد بودن معادله رگرسیون تشخیص داده می شود.

7. ارزیابی اهمیت ضرایب همبستگی خطی. -تست دانشجویی

برای ارزیابی معنی داری آماری ضرایب رگرسیون و ضریب همبستگی، آزمون t-student محاسبه می شود. یک فرضیه مطرح می شود اچ 0 در مورد ماهیت تصادفی شاخص ها، یعنی. در مورد تفاوت ناچیز آنها از صفر. مقادیر مشاهده شده t-test با استفاده از فرمول های زیر محاسبه می شوند:

, , ,

که در آن خطاهای تصادفی پارامترهای رگرسیون خطی و ضریب همبستگی هستند.

برای رگرسیون جفت خطی، برابری برآورده می شود، بنابراین آزمون فرضیه ها در مورد معنی دار بودن ضریب رگرسیون تحت یک عامل و ضریب همبستگی معادل آزمون فرضیه در مورد اهمیت آماری معادله رگرسیون به عنوان یک کل است.

به طور کلی، خطاهای تصادفی با استفاده از فرمول های زیر محاسبه می شوند:

, ,

پراکندگی باقیمانده در هر درجه آزادی کجاست:

مقدار جدول بندی شده (بحرانی) آماره t از جداول توزیع t-Student در سطح معنی داری 0.05 = α و تعداد درجات آزادی یافت می شود. اگر تیجدول< تیپس واقعیت اچ 0 رد می شود، یعنی تصادفی نیست که ضرایب رگرسیون با صفر متفاوت است و تحت تأثیر یک عامل به طور سیستماتیک عمل می کند.

8. تجزیه و تحلیل تاثیر عوامل بر اساس مدل های رگرسیون چند عاملی: ضریب کشش. ضریب بتا و ضریب دلتا.

9. روشهای محاسبه پارامترهای تابع تولید کاب-داگلاس.

10. معادلات رگرسیون با ساختار متغیر. متغیرهای ساختگی. انواع متغیرهای ساختگی مزایای استفاده از متغیرهای ساختگی در ساخت مدل های رگرسیون.

11. استفاده از متغیرهای ساختگی برای مطالعه تغییرات ساختاری. مدل سازی فصلی تعداد متغیرهای باینری در کدرجه بندی

مفهوم چند خطی. روش های تشخیص و حذف چند خطی

ارزیابی کمی پارامترهای معادله رگرسیون فرض می کند که شرط استقلال خطی بین متغیرهای مستقل برقرار است. با این حال، در عمل، متغیرهای توضیحی اغلب دارای میزان بالایی از ارتباط متقابل با یکدیگر هستند که نقض این شرط است. این پدیده نامیده می شود چند خطی بودن

مدت، اصطلاح هم خطی بودن (خطی) یک همبستگی خطی بین دو متغیر مستقل را نشان می دهد و چند خطی (چند خطی) – بین بیش از دو متغیر مستقل. به طور معمول، چند خطی به هر دو مورد اشاره دارد.

بدین ترتیب، چند خطی بودن یعنی یک رابطه خطی نزدیک یا همبستگی قوی بین دو یا چند متغیر توضیحی (مستقل) وجود دارد.یکی از وظایف اقتصاد سنجی شناسایی چند خطی بودن بین متغیرهای مستقل است.

تمیز دادن کاملو ناقصچند خطی بودن کاملچند خطی بودن به این معنی است که تغییر در یکی از متغیرهای مستقل را می توان به طور کامل با تغییر در متغیر(های) دیگر توضیح داد.

در غیر این صورت، رابطه بین آنها با یک تابع خطی بیان می شود

تفسیر گرافیکی این مورد:

ناقصچند خطی را می توان به عنوان یک رابطه عملکردی خطی بین دو یا چند متغیر مستقل تعریف کرد که آنقدر قوی است که می تواند به طور قابل توجهی بر تخمین ضرایب متغیرها در مدل تأثیر بگذارد.

چند خطی ناقص زمانی رخ می دهد که دو (یا چند) متغیر مستقل در یک رابطه تابعی خطی با یکدیگر باشند که توسط معادله توصیف می شود.

برخلاف معادله مورد بحث قبلی، این معادله شامل بزرگی خطای تصادفی است. این نشان می دهد که اگرچه رابطه بین و ممکن است کاملاً قوی باشد، اما آنقدر قوی نیست که تغییر در متغیر را بتوان به طور کامل با تغییر در توضیح داد. تغییرات غیرقابل توضیحی وجود دارد.

از نظر گرافیکی این مورد به صورت زیر ارائه می شود:

در چه مواردی چند خطی ممکن است رخ دهد؟ حداقل دو نفر از آنها وجود دارد.

1. روند جهانی تغییرات همزمان در شاخص های اقتصادی وجود دارد. به عنوان مثال می توان به شاخص هایی مانند حجم تولید، درآمد، مصرف، انباشت، اشتغال، سرمایه گذاری و ... اشاره کرد که مقادیر آنها در دوره های رشد اقتصادی افزایش و در دوره های رکود کاهش می یابد.

یکی از دلایل چند خطی بودن، وجود یک روند (گرایش) در پویایی شاخص های اقتصادی است.

2. استفاده از مقادیر تاخیری متغیرها در مدل های اقتصادی.

به عنوان مثال می توان مدل هایی را در نظر گرفت که هم از درآمد دوره جاری و هم از هزینه های مصرف دوره قبلی استفاده می کنند.

به طور کلی، هنگام مطالعه فرآیندها و پدیده های اقتصادی با استفاده از روش های اقتصادسنجی، اجتناب از وابستگی بین شاخص ها بسیار دشوار است.

پیامدهای چند خطی بودن به این خلاصه می شود

1. کاهش دقت ارزیابی که از طریق خود را نشان می دهد

آ. خطاهای بسیار بزرگ در برخی برآوردها،

ب سطح بالایی از همبستگی بین خطاها،

ج افزایش شدید در پراکندگی تخمین پارامترها. این تجلی چند خطی ممکن است در به دست آوردن یک علامت غیرمنتظره هنگام تخمین پارامترها نیز منعکس شود.

2. بی اهمیت بودن تخمین پارامترها برای برخی از متغیرهای مدل، اولاً به دلیل وجود رابطه آنها با سایر متغیرها و نه به دلیل عدم تأثیر آنها بر متغیر وابسته. یعنی آمار - پارامترهای مدل سطح معنی داری را برآورده نمی کند (آزمون t Student آزمون کفایت را نمی گذراند).

3. افزایش شدید حساسیت تخمین پارامترها به اندازه جمعیت مشاهدات. یعنی افزایش تعداد مشاهدات می تواند به طور قابل توجهی بر تخمین پارامترهای مدل تأثیر بگذارد.

4. افزایش فواصل اطمینان.

5. افزایش حساسیت تخمین ها به تغییرات در مشخصات مدل (به عنوان مثال، اضافه کردن یا حذف متغیرهایی از مدل، حتی آنهایی که تأثیر ناچیزی دارند).

نشانه های چند خطی بودن:

1. زمانی که در بین ضرایب همبستگی جفت

بین متغیرهای توضیحی (مستقل) متغیرهایی وجود دارند که سطح آنها یا به ضریب همبستگی چندگانه نزدیک می شود یا برابر است.

اگر بیش از دو متغیر مستقل در مدل وجود داشته باشد، بررسی دقیق‌تر روابط بین متغیرها ضروری است. این روش را می توان با استفاده از الگوریتم Farrar-Glober انجام داد.

2. هنگامی که تعیین کننده ماتریس ضرایب همبستگی زوجی بین متغیرهای مستقل به صفر نزدیک می شود:

اگر، پس چند خطی کامل وجود دارد،

اگر، پس هیچ چند خطی وجود ندارد.

3. اگر مقدار پارامتر کوچکی در مدل در سطح بالایی از ضریب تعیین جزئی یافت شود و در عین حال معیار - به طور قابل توجهی با صفر متفاوت باشد.

چند خطی همبستگی دو یا چند متغیر توضیحی در یک معادله رگرسیونی است. می تواند کاربردی (صریح) و تصادفی (پنهان) باشد. با چند خطی عملکردی، ماتریس XTX منحط است و (XTX)-1 وجود ندارد، بنابراین تعیین آن غیرممکن است. اغلب، چند خطی بودن خود را به شکل تصادفی نشان می دهد، در حالی که تخمین های OLS به طور رسمی وجود دارد، اما دارای تعدادی معایب است:

1) یک تغییر کوچک در داده های اولیه منجر به تغییر قابل توجهی در برآورد رگرسیون می شود.
2) برآوردها دارای خطاهای استاندارد بزرگ و اهمیت کم هستند، در حالی که مدل به طور کلی قابل توجه است (مقدار R2 بالا).
3) تخمین فاصله ضرایب گسترش می یابد و دقت آنها را بدتر می کند.
4) امکان به دست آوردن علامت اشتباه برای ضریب رگرسیون وجود دارد.

تشخیص

چندین نشانه وجود دارد که توسط آنها می توان حضور چند خطی را تعیین کرد.

اول، تجزیه و تحلیل ماتریس همبستگی ضرایب همبستگی زوجی:

- اگر جفت متغیرهایی وجود داشته باشند که ضرایب همبستگی بالایی دارند (> 0.75 - 0.8)، آنها از چند خطی بودن بین آنها صحبت می کنند.
- اگر فاکتورها همبستگی نداشته باشند، det Q = 1، اگر همبستگی کامل وجود داشته باشد، det Q = 0.

می توانید H0 را بررسی کنید: det Q = 1; با استفاده از آزمون آماری

که در آن n تعداد مشاهدات است، m = p+1.

اگر، H0 رد می شود و چند خطی بودن ثابت می شود.

ثانیاً ضرایب چندگانه تعیین یکی از متغیرهای توضیحی و گروهی از متغیرهای دیگر تعیین می شود. وجود R2 بالا (> 0.6) نشان دهنده چند خطی بودن است.

ثالثاً، نزدیکی به صفر حداقل مقدار ویژه ماتریس XTX (یعنی حل معادله) نشان می دهد که det (XTX) نیز نزدیک به صفر است و بنابراین، چند خطی است.

چهارم، ضرایب همبستگی جزئی بالا.

اضافات جبری عناصر ماتریس ضرایب همبستگی نمونه کجاست. ضرایب همبستگی جزئی مرتبه های بالاتر را می توان از طریق ضرایب همبستگی جزئی مرتبه های پایین تر با استفاده از فرمول تکرارشونده تعیین کرد:

پنجم، وجود چند خطی با برخی از نشانه های خارجی مدل ساخته شده نشان داده می شود که پیامدهای آن است. این موارد باید شامل موارد زیر باشد:

· برخی از برآوردها دارای نشانه های نادرست از نظر تئوری اقتصادی یا مقادیر مطلق بزرگ غیر منطقی هستند.
· یک تغییر کوچک در داده های آماری اولیه (اضافه کردن یا حذف برخی از مشاهدات) منجر به تغییر قابل توجهی در برآورد ضرایب مدل، حتی تغییر علائم آنها می شود.
· اکثر یا حتی تمام تخمین‌های ضرایب رگرسیون طبق آزمون t از نظر آماری بی‌اهمیت هستند، در حالی که مدل به طور کلی طبق آزمون F معنی‌دار است.

تعدادی روش دیگر برای تعیین چند خطی وجود دارد.

اگر وظیفه اصلی مدل پیش بینی مقادیر آینده متغیر وابسته باشد، با ضریب تعیین R2 به اندازه کافی بزرگ (> 0.9)، وجود چند خطی معمولاً بر کیفیت های پیش بینی مدل تأثیر نمی گذارد. اگر همین روابط بین متغیرهای همبسته در آینده باقی بماند، این عبارت توجیه خواهد شد.

اگر هدف مطالعه تعیین میزان تأثیر هر متغیر توضیحی بر متغیر وابسته باشد، وجود چند خطی که منجر به افزایش خطاهای استاندارد می شود، احتمالاً روابط واقعی بین متغیرها را مخدوش می کند. در این شرایط، چند خطی بودن یک مشکل جدی است.

چند خطیهمبستگی دو یا چند متغیر در یک معادله رگرسیونی است. در صورت وجود چند خطی، تخمین OLS به طور رسمی وجود دارد، اما دارای تعدادی معایب است:

1) یک تغییر کوچک در داده های اولیه منجر به تغییر قابل توجهی در برآورد رگرسیون می شود.

2) برآوردها دارای خطاهای استاندارد بزرگ و اهمیت کم هستند، در حالی که مدل به عنوان یک کل قابل توجه است (شاخص تعیین مقدار بالایی دارد).

دلیل اصلی وقوع چند خطی وجود در شی مورد مطالعه است که به طور همزمان بر برخی از متغیرهای ورودی تأثیر می گذارد، اما در مدل لحاظ نمی شود. این ممکن است نتیجه تحقیقات بی کیفیت در زمینه موضوع یا پیچیدگی روابط بین پارامترهای شی مورد مطالعه باشد.

دو نوع چند خطی وجود دارد: کامل و جزئی.

به عنوان مثال، اگر در یک مدل، متغیرهای توضیحی با یک رابطه خطی مرتبط باشند، معادله اصلی به یک معادله رابطه خطی ساده کاهش می‌یابد.

آخرین معادله به ما اجازه نمی دهد که سهم ها را در توضیح رفتار متغیر جدا کنیم.

پر شدهچند خطی (کامل) زمانی رخ می دهد که یک رابطه عملکردی خطی بین متغیرها وجود داشته باشد.

جزئيهم خطی (ناقص) زمانی رخ می دهد که روابط آماری خطی به اندازه کافی نزدیک بین متغیرهای توضیحی وجود داشته باشد.

چند خطی ناقص عوامل با بزرگی ضریب همبستگی بین آنها مشخص می شود. هر چه ضریب همبستگی بزرگتر باشد، تفکیک تأثیر متغیرهای توضیحی دشوارتر است و تخمین ضرایب رگرسیون برای این متغیرها کمتر قابل اعتماد خواهد بود. بنابراین، اگر هنگام تخمین معادله رگرسیون، چندین متغیر توضیحی بی‌اهمیت بودند، باید دریابید که آیا هر یک از آنها به شدت با یکدیگر همبستگی دارند یا خیر. برای انجام این کار، یک ماتریس همبستگی محاسبه می شود (این توسط بسته های آماری استاندارد ارائه می شود) و اهمیت آماری ضرایب همبستگی زوجی بررسی می شود. اگر همبستگی قوی وجود داشته باشد (ضریب همبستگی در مقدار مطلق بزرگتر از 0.7) یکی از جفت عوامل مرتبط با هم حذف می شود یا برخی از توابع آنها به عنوان متغیر توضیحی در نظر گرفته می شود. اگر فقط یک متغیر ناچیز باشد، می توان آن را حذف کرد یا با متغیر دیگری جایگزین کرد.

برای ارزیابی وجود چند خطی، می توان از تعیین کننده ماتریس همبستگی بین عاملی استفاده کرد و با استفاده از آمار می توان اهمیت چند خطی بودن عوامل را ارزیابی کرد.

در برخی موارد، چند خطی بودن آنقدر مشکل جدی نیست که نیاز به شناسایی و حذف داشته باشد. همه چیز به اهداف مطالعه بستگی دارد. اگر وظیفه اصلی مدل سازی فقط پیش بینی مقادیر متغیر وابسته باشد، با ضریب تعیین به اندازه کافی بزرگ ()، وجود چند خطی بر کیفیت های پیش بینی مدل تأثیر نمی گذارد. اگر هدف از مدل‌سازی تعیین سهم هر عامل در تغییر متغیر وابسته باشد، وجود چند خطی یک مشکل جدی است.

ساده ترین روش برای حذف چند خطی، حذف یک یا تعدادی از متغیرهای همبسته از مدل است.

از آنجایی که چند خطی مستقیماً به نمونه بستگی دارد، ممکن است با نمونه متفاوت اصلاً چند خطی وجود نداشته باشد یا آنقدر جدی نباشد. بنابراین، برای کاهش چند خطی، در برخی موارد کافی است حجم نمونه را افزایش دهید.

در برخی موارد، مشکل چند خطی بودن را می توان با تغییر مشخصات مدل حل کرد: یا شکل مدل تغییر می کند یا عواملی اضافه می شوند که در مدل اصلی در نظر گرفته نشده اند، اما به طور قابل توجهی بر متغیر وابسته تأثیر می گذارند.

ادبیات:

1. Eliseeva I.I. اقتصاد سنجی: کتاب درسی. M.: امور مالی و آمار، 2008.

2. Borodich S.A. اقتصاد سنجی: کتاب درسی. Mn.: دانش جدید، 2001.

3. کرمر ن.ش. اقتصاد سنجی: کتاب درسی برای دانشجویان. M.: UNITY-DANA، 2008.

تاثیر منفی چند خطی چیست؟ تعیین وجود چند خطی. ماتریس ضرایب همبستگی جفت

مقررات اساسی

روش های حذف چند خطی

همچنین بخوانید

3 پایگاه اطلاع رسانی توزیع شده

زبان پرس و جو 1c 8.3 مشابه است. مشابه شرایط پرس و جو. شرح نحو عملگر مشابه است

طولانی ترین دامنه سیریلیک نامگذاری شده است

زنگ