رگرسیون خطی چیست؟


پایان‌نامه
مدل رگرسیون خطی با خطاهای اندازه گیری همبسته

چکیده:
مدل‌های رگرسیونی خطی ساده با خطا در متغیرها، روابط بین دو متغیر تصادفی هستند که با خطا اندازه-گیری شده‌اند. در بعضی از مواقع متغیرهای توضیحی و پاسخ قابل مشاهده نیستند. به رگرسیون خطی چیست؟ عنوان مثال در بیشتر متغیرها مانند ضربان قلب و دمای بدن در مسایل پزشکی یا متغیرهایی مانند میزان بارنندگی و مقدار نیتروژن خاک در کشاورزی را نمی‌توان به صورت دقیق اندازه‌گیری کرد و برای اندازه‌گیری آن‌ها دچار خطا می‌شویم و لذا کارکردن با این مدل ضروری است. در این پایان‌نامه مدلی بررسی می‌شود که خطا در متغیر توضیحی، با خطای معادله رگرسیونی همبسته باشد. مدل‌ خطای معادله‌ای با فرض خطاهای همبسته را به عنوان مدل گسترش‌یافته و مدل حاصل از نادیده گرفتن خطاهای همبسته را به عنوان مدل ساده مطرح می‌کنند. مقایسه‌ی بین برآوردگر شیب رگرسیونی این دو مدل بر مبنای واریانس و میانگین مربعات مجانبی برای نمونه‌ای با حجم زیاد بحث یک بخش از پایان‌نامه است. نتایج حاصل از این مطالعه، نشان می-دهد که برآوردگر مدل رگرسیون گسترش‌یافته در بیشتر مواقع کارایی بهتری دارد. این مقایسه برای نمونه‌ای با حجم کوچک با استفاده از شبیه‌سازی .

رگرسیون خطی چیست؟

دکترای سنجش و اندازه گیری Email: [email protected] Tel:09109825698 Skype ID: a.moghadam3 ادامه.

پیوندها

  • روانسنجی (وبلاگ دکتر حرفه دوست)
  • سنجش و اندازه گیری سازه های انسانی (وبلاگ دکتر ضرغامی)
  • درباره سنجش و اندازه گیری در علوم رفتاری و اجتماعی (وبلاگ دکتر موسوی)

ابر برجسب

جدیدترین یادداشت‌ها

  • مدل سازی
  • مقاله جدید
  • کتاب های فارسی در زمینه فراتحلیل
  • همایش ملی سنجش علمی و آزمون های ورودی آموزش عالی
  • معرفی کتاب
  • مفروضات تحلیل کوواریانس چند متغیره یکراهه (one-way MANCOVA)
  • مفروضات تحلیل واریانس چند متغیره (MANOVA)
  • معرفی سایت psychometrica برای محاسبه اندازه اثر یا effect size از طریق ماشین حساب آن لاین
  • طرح استانداردهای مبتنی توافق برای انتخاب ابزارهای اندازه گیری سلامت (COSMIN)
  • نرم افزار R و RStudio

بایگانی

تقویم

ش ی د س چ پ ج
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 رگرسیون خطی چیست؟ 31

جستجو

پیش فرض های تحلیل رگرسیون خطی

1-متغیر ملاک باید در مقیاس پیوسته اندازه گیری شود. متغیر(های) پیش بین باید در مقیاس پیوسته اندازه گیری شوند یا اگر در مقیاس های طبقه ای اندازه گیری می شوند لازم است مجدداً کدگذاری شوند.

2- نرمال بودن شکل توزیع نمرات متغیر ملاک (بررسی توزیع تک متغیره و چند متغیره)

3- بررسی باقیمانده ها از نظر همپراشی، نرمال بودن و همبسته نبودن با یکدیگر و همبسته نبودن با متغیرهای پیش بین

4- شناسائی داده های پرت تک متغیره و چند متغیره با استفاده از فاصله ماهالانوبیس و آماره های تشخیص (فاصله، اهرم و نفوذ)

تنسورفلو ۸ : دسته بندی خطی

در یادگیری تحت نظارت رگرسیون خطی و دسته بندی خطی رایج ترین الگوریتم ها هستند. رگرسیون خطی یک مقدار رو تخمین می زنه و دسته بندی خطی یک دسته رو.

دسته بندی میزان احتمال اینکه ورودی متعلق به چه دسته ای هست رو بر میگردونه. و برچسب یک مقدار گسسته هست که نمایانگر یک دسته هست.

اگه دو برچسب داشته باشیم دسته بندی دوگانه هست و در غیر این صورت چندگانه

مثال دسته بندی دوگانه این هست که آیا یک مشتری برای بار دوم خرید می کند یا نمی کند. و تشخیص نوع حیوان موجود در تصویر چند گانه هست.

دسته بندی دوگانه چگونه کار می کند؟

همونطور که قبلا یاد گرفتیم یک تابع از دو نوع متغیر ساخته شده متغیر مستقل و متغیر وابسته. در رگرسیون خطی یک متغیر وابسته یک عدد حقیقی بدون مرز هست و هدف اصلی تخمین این عدد با کاهش میانگین مربع خطا هست.

در یک دسته بندی دوگانه برچسب دو عدد صحیح مختلف می تونه باشه. مثلا ۰ یا ۱. که مثلا صفر ینی خرید مجدد انجام نمیده و یک ینی خرید مجدد انجام میده.

احتمال موفقیت به وسیله > تشخیص داده میشه

تابع به دو قسمت تقسیم میشه

مدل خطی

شما از قبل با اینکه چجوری وزن ها محاسبه میشه آشنا هستید وزن ها نمایانگر نحوه ارتباط متغیر های x و y هست.

مدل خطی در پایان یک عدد حقیقی بر میگردونه که به وسیله تابع منطقی به صفر یا یک تبدیل میشه.

تابع منطقی

تابع منطقی رگرسیون خطی چیست؟ یا تابع سیگموئید شکلی شبیه به S داره که خروجی تابع همیشه بین صفر و یک هست و اگه عدد خروجی بین ۰ تا ۰.۴۹ بود مثلا میگیم در دسته ۰ و اگه بین ۰.۵ تا ۱ بود در دسته ۱ قرار می گیره.

چگونه کارایی یک مدل دسته بندی خطی را بسنجیم؟

دقت مدل

کارایی کلی یک دسته بند به وسیله میزان دقت اندازه گرفته می شه. برای محاسبه دقت تعداد پاسخ های درست رو بر تعداد کل مشاهدات تقسیم می کنیم. مثلا دقت ۸۰٪ ینی مدل برای ۸۰ درصد داده ها به درستی تخمین زده.

البته یک نکته ای که باید دقت کنیم تعادل داشتن پایگاه دانش هست. مثلا اگه ما یه دیتاستی داشته باشیم درباره تعداد مرگ و میر و ۹۵ ٪ داده ها عضو دسته مرگ باشند و بقیه عضو دسته کسایی که فوت نکردن. اگه مدل ما همیشه فوت کردن رو پیش بینی کنه می تونه دقت ۹۵ ٪ داشته باشه.

ماتریس درهم‌ریختگی

ماتریس درهم‌ریختگی دقت یک دسته بند رو بر اساس مقایسه مقدار واقعی و مقدار تخمین زده شده محاسبه می کنه و دارای اجزا زیر هست:

  • مثبت درست: TP : مقدار تخمین زده شده به درستی به عنوان درست تخمین زده شده است
  • مثبت نادرست: FP : مقدار تخمین زده شده به اشتباه به عنوان درست تخمین زده شده است
  • منفی نادرست : FN: مقدار تخمین زده شده به اشتباه به عنوان نادرست تخمین زده شده است
  • منفی درست: TN : مقدار تخمین زده شده به درستی به عنوان نادرست تخمین زده شده است

دقت و حساسیت

به وسیله ماتریس درهم‌ریختگی میشه به طور دقیق تر کارایی رو محاسبه کرد.

صحت (Precision)

معیار صحت نشان می دهد پیش بینی کلاس های مثبت چه تعداد درست است.

وقتی که مدل به درستی تمام مقادیر مثبت را پیش بینی کرده مقدار یک هست.این معیار به تنهایی کافی نیست زیرا مقادیر منفی را در نظر نمی گیرد عموما با معیار حساسیت باهم بررسی می شود.

حساسیت(Recall)

حساسیت نسبت مقادیر مثبت درست تخمین شده رو نشون میده. این معیار نشان می دهد که چه مقدار یک مدل در تشخیص اعضا کلاس مثبت خوب عمل می کند.

دسته بندی خطی با TensorFlow

برای این آموزش از داده های سرشماری استفاده می کنیم. هدف این است که با استفاده از مقادیر دیتاست سرشماری سطح درآمد فرد رو تخمین بزنیم که خروجی دوگانه هست. برای مقادیر بیشتر از 50k یک و در غیر این صورت صفر بر می گرداند.

دیتاست شامل مقادیر زیر می شود:

  • محل کار
  • تحصیلات
  • وضعیت ازدواج
  • اشتغال
  • رابطه
  • نژاد
  • جنسیت
  • کشور اصلی

و مقادیر پیوسته:

  • age
  • fnlwgt
  • education_num
  • capital_gain
  • capital_loss
  • hours_week

با این آموزش قراره با دسته بندی توسط تنسورفلو آشنا بشیم و اینکه چجوری دقت مدل رو افزایش بدیم.

مرحله ۱) ورود داده ها

ابتدا لایبرری ها رو وارد می کنیم

سپس دیتا ها رو وارد می کنیم.

تنسورفلو برای تعلیم مدل نیاز به یک مقدار Boolean داره برای کلاس بندی داده ها. و باید string ها رو به int تبدیل کنیم

مرحله ۲) تبدیل داده ها

باید داده ها رو برای ورود به مدل آماده کنیم. تخمین گر نیاز به لیست ویژگی ها برای تعلیم مدل داره و از این رو باید داده ستون ها به tensor تبدیل شود.

یک کار خوب رگرسیون خطی چیست؟ تعریف دو لیست از مقادیر بر حسب نوع آن هاست (پیوسته و گسسته)

ویژگی های این دیتاست از دو نوع هستند.

ویژگی های مختلف بر حسب گروه آن ها در زیر می بینید:

در کد زیر مقادیر پیوسته رو به تنسور های با مقادیر عددی تبدیل می کنیم.این کار برای ساخت مدل اجباریه. همه مقادیر مستقل باید به نوع تنسور صحیح خود تبدیل شود.

برای تبدیل داده های گسسته راه های مختلفی وجود داره یکی اینکه مثلا اگه داده ها محدود هستن تبدیل به id شود مثلا همسر، شوهر،مجرد بشه ۱ ۲ ۳

یک راه دیگه اینه که هر متغییری یک ستون جدا بشه و مقدار صفر یا یک داشته باشه

مثلا ستون مرد و ستون زن بجای تک ستون جنسیت

خود تنسورفلو یک متد خوب برای تبدیل متغیر های گسته داره که در زیر می بینید. تعداد باکت هم ینی این که تنسورفلو در کل چه تعداد گروه می تونه بسازه:

مرحله ۳) یادگیری مدل

برای تعریف مدل از کد زیر استفاده می کنیم که ورودی ها به ترتیب تعداد کلاس های طبقه بندی، دایرکتوری مدل و ستون های مدل هست

و در کد های زیر تابع ورودی داده ها رو می سازیم

و با کد های زیر شروع می کنیم مدل رو تعلیم بدیم

برای تخمین میزان کارایی مدل از کد زیر استفاده می کنیم

اگه دقت کنید دقت مدل زیاده این هم بخاطر اینه که مدل حتی اگه شانسی هم تخمین بزنه چون دیتا ها متعادل نیستن می تونه تخمین خوبی داشته باشه ولی اگه دقت کنید مقادیر صحت و حساسیت پایینه که یعنی مدل مشکل داره و باید بهبودش داد.

مرحله ۴) بهبود مدل

خب توی آموزش قبل یاد گرفتید چگونه با استفاده از اثر تعاملی دقت رو بهبود ببخشیم توی این قسمت قراره متغیر های چند جمله ای رو امتحان کنیم و به این دلیل هست که شاید بین متغیر ها و خروجی شاید ارتباط خطی نباشه. دو راه برای بدست آوردن غیری خطی بودن در مدل هست

  • افزودن متغیر چند جمله ای
  • دسته بندی مقادیر پیوسته در بسته های گسسته

متغیر چند جمله ای

گاهی برای مدل کردن و تخمین برخی از داده ها مدل به صورت خطی با نتیجه مرتبط نیست مثلا در تصویر زیر بجای یک خط صاف یک خط خمیده بهتر بر روی داده ها قرار می گیره برای همین نیاز هست از متغیر های چند جمله ای مثل X^3 و. استفاده کنیم

در مثال ما سن با میزان درآمد رابطه خطی نداره. مثلا در بچگی میزان درآمد صفر هست و کم کم بیشتر میشه و در سنین پیری و بازنشستگی کمتر میشه. حدودا مثل یک U برعکس هست.مثلا میشه یک توان دو به مدل اضافه کرد و ببینیم دقت چه تغییری می کنه.

یک تابع می سازیم که دیتاست آموزش و آزمون و نام متغیر رو بگیره و توان دو رو به دیتاست ها اضافه کنه:

سپس تابع رو صدا می زنیم.

و به لیست متغیر های پیوسته اضافه می کنیم

و بعد مدل جدید رو می سازیم البته model_dir رو عوض باید کنیم

سپس آموزش میدیم

دقت از ۷۶ شد ۷۹ :دی

با دسته بندی مقادیر پیوسته و استفاده از اثر متقابل میشه بهترش کرد

فشرده سازی و اثر متقابل

خب تا اینجا مدل نتونست بازم رابطه سن و درآمد رو درست تشخیص بده یک قدم دیگه اینه که سن ها رو به یک سری مرز سنی تبدیل کنیم برای این کار از کد زیر استفاده می کنیم

یک راه دیگه برتی بهبود مدل استفاده از اثر متقابل متغیر هاست که تنسورفلو یک راهکاری در اختیار ما قرار میده تحت عنوان رگرسیون خطی چیست؟ feature crossing که راهی هست برای ساخت متغیر های جدید از متغیر های موجود که برای مدل دسته بندی خطی که نمی تونه اثر متقابل رو تشخیص بده مفید هست.

ورودی hash_bucket_size تعداد کلاس های مختلف ایجاد شده هست

آموزش و ارزیابی مدل جدید

خب الان دقت شد ۸۳.۵۸

در پایان با جلو گیری از over fit شدن مدل رو بهبود میدیم.

مرحله ۵) بهبود پارامتر ها: Lasso & Ridge

یک مدل با دو مشکل می تونه روبرو بشه overfitting یا underfitting.

  • اولی Overfitting: مدل قابلیت تعمیم به داده های جدید برای تخمین زدن رو نداره
  • دومی Underfitting: وقتی که مدل قابلیت پیدا کردن الگو داده ها رو نداره مثلا استفاده از رگرسیون خطی برای داده های غیر خطی

برای جلوگیری از overfitting و عمومی تر کردن مدل تکنیک هایی وجود داره مثل:

داخل تنسورفلو شما می تونید این دو بهبود دهنده رو به مدل اضافه کنید.

البته خودتون با تغییر این دو پارامتر سعی کنید مدل رو بهبود بدید ببینید چقدر میشه بهتر کرد

رگرسیون خطی چیست؟

عنوان مقاله: کاربرد روش تحلیل رگرسیون خطی جهت برآورد مقاومت فشاری تک محوره و تخلخل ماسه سنگ با استفاده از سرعت موج طولی
شناسه (COI) مقاله: CAGE05_095
منتشر شده در پنجمین همایش ملی زمین شناسی و محیط زیست در سال 1389

ناصر مدنی اصفهانی - کارشناسی ارشد مهندسی اکتشاف معدن، باشگاه پژوهشگران جوان، دانشگاه آز

خصوصیات فیزیکی و مکانیکی از جمله مهمترین پارامترهای سنگ میباشند که به طور گسترده ای در پروژه های عمرانی و معدنی برای مطالعات مکانیک سنگی مورد نیاز بوده و تعیین می گردند. از طرفی آزمایش سرعت صوت جز آزمایشهای غیر مخرب و آسان است و امکان انجام آن در سرزمین وجود دارد. این آزمایش بیشتر برای تعیین خصوصیات دینامیکی سنگها استفاده میشود. موضوع اصلی این مقاله، تخمین خواص مکانیکی مقاومت تراکمی تک محوری و تخلخل ماسه سنگ با استفاده از آزمون ساده و غیرمخرب سرعت موج طولی میباشد، برای انجام این امر آزمونهای آزمایشگاهی برروی نمونه های ماسه سنگ انجام گردیده است. برای انجام آزمایشات مختلف بلوک های سنگی ماسه سنگ تهیه و سپس جهت انجام آزمایشات مربوطه از بلوکهای سنگی (نمونه های مغزه استوانه ای) استاندارد، تهیه گردید. هر دو پارامتر مقاومت تراکمی تک محوره وتخلخل بر طبق استاندارد تعیین گردیدند. سرعت بارگذاری برای اندازه گیری مقاومت تراکمی تک محوری برای نمونه های مختلف 0 تا 1 مگاپاسکال بر ثانیه در نظرگرفته شد برای انجام آزمایش سرعت موج طولی از دستگاه پاندیت استفاده گردید. یکی از روشهای آماری برای تعیین ارتباط بین پارامترهای مختلف استفاده از روش رگرسیون گیری خطی کمترین مربعات میباشد، در مبحث رگرسیون، هدف یافتن رابطه ای بین متغیرهای وابسته و متغیرهای مستقل میباشد. این رابطه ممکن است از نوع خطی یا غیرخطی باشد. برای انجام عمل رگرسیون امروزه از نرم افزارهای متعددی بهره گرفته میشود که نرم افزار MATLAB از متداولترین آنهاست. نحوه عمل بدین قرار است که با مشخص کردن متغیرهای مستقل به عنوان ورودی در نرم افزار و متغیر وابسته به عنوان خروجی، موتور نرم افزار با توجه به میزان مقادیر ورودی و خروجی معادله ای را ایجاد میکند که بوسیله آن میتوان میزان متغیر وابسته را بر حسب پارامترهای ورودی (متغیرهای مستقل) را تخمین زد. این معادله در سطح اعتماد مهندسی (95%) دارای دقت است، به عبارت دیگر در جوابهای معادله ایجاد شده نسبت به مقادیر واقعی (متغیر وابسته) دارای ضریب همبستگی (R) سطح اعتماد مهندسی میباشند. هر چه میزان ضریب همبستگی به عدد 1 نزدیک تر باشد معادله ایجاد شده توسط نرم افزار دارای دقت بالاتری است به منظور تعیین رگرسیون خطی چیست؟ ارتباط میان سرعت موج طولی و سایر پارامترها از روش رگرسیون گیری شرح داده شده استفاده گردید، به طوری که معادله مربوط به بهترین خط عبوری از داده ها در سطح اعتماد 95 % تعیین و ضریب همبستگی مربوط به آن برای هر رابطه تعیین گردید. با توجه به بررسیهای انجام شده مشخص شد که سرعت موج طولی پارامتر مناسبی برای تخمین مقادیر مقاومت تراکمی تک محوری و تخلخل ماسه سنگ بوده و میتوان با استفاده از آن از انجام آزمایشات پرهزینه و وقتگیرجهت برآورد این مقادیر اجتناب کرد. بررسی آماری میان این پارامترها نشان داد که روابط خطی مناسب و قابل قبولی میان سرعت موج طولی و سایر پارامترها با ضرایب همبستگی به ترتیب 0/81، 0/74وجود دارد. همچنین بررسی ها نشان داد که مقدار سرعت موج طولی با افزایش مقادیر مقاومت تراکمی تک محوری افزایش و با افزایش تخلخل کاهش می یابد. روابط ارائه شده در این مقاله ساده و دارای دقت کافی بوده و میتوان با استفاده از آنها از انجام آزمایشات پرهزینه و وقتگیر جهت تعیین پارامترهای مکانیک سنگی اجتناب نمود. مقایسه فراوانی اختلاف میان مقادیر تخمینی و واقعی با توجه به میزان دقت آن، میتواند معیاری مناسب جهت ارزیابی نتایج روابط ارائه شده در این خصوص باشد

سرعت موج طولی، UCS، تخلخل، ماسه سنگ

برای چاپ کامل صفحه، در گزینه های چاپ Background Graphics را فعال نمایید.

دفتر مرکزی انتشارات بوم سازه (سیویلیکا): تهران، بزرگراه جلال آل احمد، بین خیابان کارگر و بزرگراه چمران، کوچه پروانه، پلاک ۴، ساختمان چمران، طبقه ۴، واحد ۳۱
تلفن: ۸۸۰۰۸۰۴۴ ، ۸۸۳۳۵۴۵۰ ، ۸۸۳۳۵۴۵۱ ، ۸۸۳۳۵۴۵۲ - کد پستی: ۱۴۳۹۹۱۴۱۵۳

رگرسیون خطی چیست؟

تحلیل رگرسیونی یکی از ابزارهای آماری است که کاربرد وسیعی در اقتصادسنجی، علوم زیستی،هواشناسی، امور مالی و … دارد. این تکنیک روشی ساده را برای بررسی و تعیین روابط بین متغیرها به کار می برد. در بحث روابط بین دو متغیر ضریب همبستگی به عنوان آماره ای برای سنجش میزان و جهت رابطه خطی بین دو متغیر معرفی شد. حال می خواهیم معادله ای بیابیم که این رابطه را با مدل ریاضی تبیین کند. در این روش با استفاده از الگوی همبستگی، مدلی برازش داده شده که از آن برای پیش­ بینی مقدار یک متغیر از روی مقادیر سایر متغیرها استفاده می ­شود.

برای تحلیل رگرسیونی مراحل زیر را میتوان در نظر گرفت:

  • بیان مسئله و انتخاب متغیرهای مناسب
  • تشخیص الگوی مناسب و برازش بهترین مدل
  • اعتبار سنجی مدل برازش شده

بیان مسئله(Problem Statement)

اولین و مهمترین گام در رگرسیون، طرح مسئله است. هدف از تحلیل رگرسیونی میتواند ارزیابی اهمیت هر یک از متغیرهای مستقل برای تحلیل اثرات خط مشی بوسیله تغییر مقادیر این متغیرها یا پیش بینی مقادیر متغیر پاسخ برای هر مجموعه معلوم از داده ها باشد. مسئله ای که بد تعریف شود یا درست فرمول بندی نشود به انتخاب مجموعه متغیرها و روش آماری نامناسب منتهی می شود. پس از انتخاب متغیرهای مناسب به گردآوری داده ها از زمینه مورد مطالعه پرداخته می شود.

برازش مدل(Model Fitting)

تشخیص شکل الگویی که مجموعه متغیرها را در مدل بهم مربوط می سازد مرحله بعدی در تحلیل رگرسیونی است. اگر بتوان مدل برازش داده شده را به صورت معادله خطی نوشت، چنین مدلی را رگرسیون خطی و در غیر این صورت رگرسیون غیر خطی می نامند. رگرسیون خطی با توجه به تعداد متغیرهای پیش گو در مدل ممکن است ساده یا چندگانه باشد.

در رگرسیون خطی چندگانه به ارزیابی رابطه چند متغیر مستقل یا پیش گو با متغیر Y می پردازد. (رگرسیون چندگانه و رگرسیون چند متغیره متفاوت است. در اولی تعداد متغیرهای پیشگو بیش از یکی است و در دومی تعداد متغیرهای پاسخ. در این مقاله صرفاً در مورد رگرسیون تک متغیره بحث می شود). متغیرهای پیش گو را با X نشان داده و متغیر Y را که وابسته به مقادیرمتغیر پیش بینی کننده بوده و مقدار ان تصادفی است، متغیر پاسخ می نامند. اگرچه در رگرسیون متغیر پیش­گو را متغیر مستقل نیز می ­نامند ولی در عمل به ندرت پیش می­اید که متغیرهای پیش­گو مستقل از یکدیگر باشند.

انواع تحلیل رگرسیونی شرایط
خطی معادله رگرسیونی بر حسب پارامترهای مدل نسبت به متغیر پاسخ، خطی است
غیر خطی برخی پارامترها به طور غیر خطی در مدل ظاهر می شوند
ساده نوعی از رگرسیون خطی که تنها یک متغیر پیشگو در مدل وجود دارد
چندگانه نوعی از رگرسیون خطی که دو یا چند متغیر پیشگو در مدل وجود دارد
یک متغیری تنها یک متغیر پاسخ کمی درمدل خطی وجود دارد
چند متغیری دو رگرسیون خطی چیست؟ یا چند متغیر پاسخ کمی در مدل خطی وجود دارد
پارامتری تعداد پارامترهای مدل متناهی است
شبه پارامتری پارامترهای مدل نامتناهی ولی شمارا است
ناپارامتری پارامترهای مدل ناشمارا است
پویا رگرسیون دینامیک که داده ها خود همبسته هستند
لجستیک متغیر پاسخ دوجمله ای است
پواسون متغیر پاسخ شمارشی است

الگوی رگرسیون خطی چندگانه به این صورت بیان می­شود:

\[Y_j =\beta_0 + \beta_1 X_{1j} +\dots +\beta_p X_{pj} + \epsilon_j; \quad j=1, 2, \dots, n. \]

که در آن ها پارامترهای مدل یا ضرایب رگرسیونی هستند. که باید با توجه به داده ها برآورد شوند. خطای تصادفی است که پراکندگی در تقریب را نشان میدهد و به آن مقادیر باقی مانده Residuals گویند. این مقدار حاصل اختلاف بین مقادیر مشاهده شده و مقادیر پیش بینی شده با مدل در نمونه تصادفی است. در این تکنیک ابزاری که به خوبی میتواند رابطه بین دو متغیر را به لحاظ بصری نمایان کند نمودار پراکنش است. در یک نمودار پراکنش اگر همبستگی بین دو متغیر وجود داشته باشد نقاط بطور تقریبی در امتداد یکدیگر قرار می گیرند. خط رگرسیونی خطی است که از میان نقاط طوری میگذرد که بیش از هر خط دیگری به نقاط نزدیک باشد.

نمودار پراکنش و خط رگرسیون برازش داده شده

نمودار پراکنش و خط رگرسیون برازش داده شده

بعد از تعیین الگو ، گام بعدی برازش مدل است. در این مرحله راه حلی برای برآورد پارامترهای نامعلوم مدل با استفاده از اطلاعات نمونه می رگرسیون خطی چیست؟ یابیم. رایجترین روش برازش کمترین توانهای دوم است. البته با توجه به مفروضات مسئله روشهای دیگر براورد مانند درستنمایی ماکزیمم میتواند مطرح شود. پس از براورد پارامترهای مدل ( ها)، مقادیری که در ازای مشاهدات نمونه ای برای متغیر حاصل می شود مقادیر برازش شده نامیده می شود. در صورتی که مقادیر پیش بینی شده در ازای هر مجموعه از مقادیر متغیر پیشگو محاسبه می شود.

مهمترین شرایط برای مدل رگرسیون خطی عبارت است از:

  • نرمال بودن باقی مانده ها
  • ثابت بودن واریانس باقی مانده ها
  • استقلال باقی مانده ها
  • عدم وجود همخطی بین متغیرهای پیشگو

به عبارتی باقی مانده ها باید مستقل و با توزیع نرمال با میانگین ۰ و واریانس ثابت باشند.

اعتبار سنجی( Validation)

در تحلیل رگرسیونی پس از برازش مدل به داده ها مناسب بودن مدل برازش شده مورد ارزیابی قرار می گیرد. پیش از هرگونه نتیجه گیری آماری از مدل، مانند پیش بینی، انجام آزمون فرض یا ساختن فواصل اطمینان از ضرایب رگرسیونی، فرض ها و شرایط رگرسیون خطی باید بررسی شوند. هر انحراف از شرایط و مفروضات مدل در خطاهای مدل دیده می شود. بهترین روش برای این که ببینیم مدل رگرسیون تا چه اندازه برای برازش به داده ها خوب است ، رسم نمودار مانده ها می باشد.

مانده یا خطا میزانی از تغییرات در متغیر پاسخ است که با رگرسیون خطی چیست؟ مدل رگرسیون بیان نمی شود. آزمون باقی مانده ها عموما به شکل بصری و با استفاده از نمودارهای هیستوگرام و پراکنش انجام می شود. البته باید توجه شود هنگامی که حجم نمونه کم است هیستوگرام به نظر نرمال نمی آید. در ضمن مقادیر رگرسیون خطی چیست؟ پرت نیز با استفاده از این نمودارها قابل تشخیص خواهد بود.

a- نمودار مانده ها با واریانس ثابت

در نمودار مانده ها در مقابل مقادیر برازش شده اگر نقاط حول خط به طور یکنواخت و متقارن پراکنده شده باشند. به ترتیب نشان میدهد الگوی رگرسیون برازش داده شده از لحاظ ثابت بودن واریانس خطاها و میانگین صفر برای خطاها دارای وضعیت مناسبی است. نمودار a نشان دهنده حالتی است که در آن واریانس خطاها ثابت است . (وضعیت مطلوب)

b – نمودار مانده ها با واریانس متغیر

نمودار قیفی شکل ثابت نبودن واریانس را نشان می دهد. هنگامی که فرض واریانس ثابت برای خطاها برقرار نباشد براورد پارامترهای مدل با خطای زیاد خواهد بود در این شرایط دو روش پیش روی تحلیلگر است روش اول بکار بردن کمترین توان دوم وزنی برای براورد ضرایب رگرسیونی و روش دیگر استفاده از تبدیل کننده های واریانس است. در صورتی که نمودار مانده ها در مقابل متغیر پاسخ روند غیر خطی داشته باشد معمولا متغیری به مدل اضافه می شود و یا تبدیلی روی داده ها اعمال می شود. (تبدیل توان دوم یا لگاریتم)

برای بررسی فرض استقلال خطاها نیز می توان نمودار مانده ها در مقابل زمان را بکار برد اگر الگوی خاصی در نمودار مشاهده نشود می توان فرض استقلال مانده ها را تایید کرد. ولی این روش در صورتی قابل استفاده است که ترتیب زمانی مشاهدات گرداوری شده معلوم باشد. بررسی نرمال بودن خطاها نیز با نمودار Q_Q میتوان انجام داد. برای بررسی نرمال بودن خطاها می توان به این نوشته ها رجوع کرد.

مدل از نظر وجود هم خطی بین متغیرهای پیشگو نیز با استفاده از آزمون های همبستگی بررسی می شود. همخطی زمانی روی می دهد که متغیرهای پیشگو همبستگی بالایی داشته باشند. هر چقدر که متغیرهای پیشگو هم خطی بیشتری داشته باشند، خطای براورد پارامترهای مدل نیز بالا خواهد بود. برای تشخیص وجود همخطی در متغیرهای پیشگو، معمولا از مقادیر ویژه ماتریس همبستگی متغیرهای پیشگو و شاخص VIF (عوامل افزایش واریانس، Variance Inflation Factors) استفاده می شود. مقادیر ویژه کمتر از ۰.۰۱ و شاخص VIF بیشتر از ۱۰ را می توان نشان از وجود همخطی در متغیرهای مدل دانست. برای گذر از این مسئله دو رویکرد وجود دارد. در روش اول همخطی داده ها با استفاده از حذف متغیرها از بین می رود. روش دیگر بکار بردن رگرسیون ستیغی Ridge Regression و رگرسیون مولفه های اصلی Principal Component Regression می تواند باشد.

نیکویی برازش ( Goodness of Fit )

گام بعدی در بررسی کفایت مدل برازش شده، معمولا باسنجش میزان رابطه خطی Y و مجموعه متغیرهای مستقل بوسیله نمودار پراکنش Y در مقابل مقادیر برارش داده شده آن انجام می شود. هرچه مجموعه نقاط به خط راست نزدیکتر باشد نشان دهنده رابطه قوی بین متغیرهای مستقل با متغیر پاسخ و مناسب بودن مدل برازش داده شده می باشد. روش دیگر آزمون فرض مربوط به میزان تاثیر گذاری متغیر به عنوان یک پیشگو برای ، با فرض صفر است. هرچقدر پی-مقدار رگرسیون خطی چیست؟ آزمون کوچکتر باشد نشان از موثر بودن متغیر در مدل است.

ضریب تعیین یا نیز شاخصی است که نسبت کل تغییرات در متغیر پاسخ را که با مجموعه متغیرهای پیشگو بیان می کند. به عنوان مثال مقدار ۸۵. برای نشان می دهد حدود ۸۵% رگرسیون خطی چیست؟ از تغیییرات در متغیر پاسخ را می توان با متغیرهای پیشگو موجود در مدل بیان کرد. در صورتی که مدل برازش خوبی به داده ها باشد این مقدار به ۱ نزدیکتر است. ولی لزوما مقادیر نزدیک به ۱ برای این شاخص نمی تواند نشان اطمینان از مناسب بودن الگوی برازش داده شده باشد و نیاز به تحلیل های گسترده تری دارد.

تحلیل رگرسیونی در حقیقت فرایندی دوره ای است. در این روش آماری همواره پس اعتبار سنجی مدل با استفاده از خروجی های مدل، به اصلاح مدل پرداخته و این فرایند تا به دست آوردن یک مدل رضایت بخش تکرار می شود. برای بررسی اعتبار یا کفایت مدل معمولا دو راهکار وجود دارد:

  • مشاهدات موجود را به صورت تصادفی به دوقسمت تقسیم کرده یک قسمت برای برازش مدل و قسمت دیگر برای بررسی کفایت مدل بکار برده می شود.
  • راه دوم استفاده از همه مشاهدات برای مدلبندی داده ها و یافتن یک سری مشاهدات دیگر جهت بررسی کفایت مدل است.

البته روش دوم طرفداران بیشتری دارد. زیرا با کم شدن حجم نمونه قسمتی از اطلاعات ازبین رفته و دقت براوردها کم می شود. در کل بهتر است از تمامی مشاهدات موجود جهت برازش بهترین مدل بهترین مدل ممکن بهره برد. با استفاده از مشاهدات جدید نیز می توان مدل را در یک موقعیت متفاوت بررسی کرد.



اشتراک گذاری

دیدگاه شما

اولین دیدگاه را شما ارسال نمایید.