تشخیصی مطرح شد.زمانی که متغیر وابسته در سطح اسمی یا قیاسی188 است و متغیرهای مستقل هم فاصلهای و هم ترتیبی(متریک یا غیر متریک )هستند روش های رگرسیون خطی معمولی و تحلیل تشخیصی مقدار برآوردها را کمتر از مقدار واقعی نشان می دهند، در حالی که رگرسیون لجستیک دارای ماهیتی برخلاف این موضوع دارد.همچنین در رابطه با عنوان(نام) رگرسیون لجستیک باید گفت که نام این تحلیل برگفته شده از تبدیلات لجیتی189 است.
رگرسیون لجستیک شبیه رگرسیون خطی است با این تفاوت که نحوه محاسبه ضرایب در این روش یکسان نمیباشد به این معنی که رگرسیون لجستیک به جای حداقل کردن مجذور خطاها احتمالی را که یک واقعه روی میدهد حداکثر میکند. همچنین در تحلیل رگرسیون خطی برای آزمون برازش مدل و معنی داری بودن اثر هر متغیر در مدل به ترتیب از آمارهای F و T استفاده میشود درحالی که درلجستیک از آمارههای کای اسکوئر و والد استفاده میشود. رگرسیون لجستیک نسبت به تحلیل تشخیصی نیز ارجحیت دارد و مهمترین دلیل آن است که در تحلیل تشخیصی گاهی اوقات وقوع یک پدیده خارج از طیف صفر تا یک قرار میگیرد و متغیرهای پیش بین نیز باید دارای توزیع نرمال چند متغیره باشند.در حالی که در رگرسیون لجستیک احتمال وقوع یک پدیده در داخل محدوده صفر تا یک قرار دارد و رعایت پیش فرض نرمال بودن متغیرهای پیش بین نیز لازم نیست.

انواع رگرسیون لجستیک
همانطور که در ابتدای مبحث تحلیل رگرسیون لجستیک گفته شد در رگرسیون لجستیک متغیروابسته میتواند به دو شکل دووجهی و چند وجهی باشد .به همین خاطر در نرم افزار SPSS شاهد وجود دو نوع تحلیل رگرسیون لجستیک هستیم که بسته به تعداد مقولات و طبقات متغیر وابسته میتوانیم از یکی از این دو شکل استفاده کنیم:
رگرسیون لجستیک اسمی دو وجهی(باینری)190: موقعی است که متغیر وابسته در سطح اسمی دو وجهی است.یعنی زمانی که با یک متغیر وابسته دو وجهی سرو کار داریم. به این صورت که متغیر زوجی وابسته دو گروه از علایق را در نظر میگیرد،که به یکی از گروهها مقدار ۱ و به گروه دیگر مقدار ۰ را اختصاص میدهدو این اصلا مهم نیست که کدام مقدار ( ۰ یا ۱ ) به کدام گروه تخصیص داده میشود.اما در زمان تفسیر ضرایب باید این موضوع مورد توجه قرار بگیرد.
۲- رگرسیون لجستیک اسمی چند وجهی یا چندجملهای191:موقعی مورد استفاده قرار میگیرد که متغیر وابسته اسمی چند وجهی باشد.به این صورت که چنانچه ماnگروه یعنی بیش از دو گروه داشته باشیم به ترتیب برای گروه اول(دارای بالاترین رتبه “ممتاز”) عدد 1 و برای گروه دوم عدد 2 و …ادامه میدهیم که در نهایت برای گروه آخر عدد n(دارای پایین ترین رتبه) را اختصاص می دهیم.
مدل رگرسیون لجستیک
شکل عمومی مدل لجستیک به صورت زیر است:

π=P(X)=(〖exp〗^(a+β_1 x_1+β_2 x_(2+)…β_(kx_k ) )/(1+〖exp〗^(a+β_1 x_(1+) β_2 x_(2+…β_k x_k ) ) ))

برخلاف رگرسیون خطی، رگرسیون لجستیک مستقیما متغیر وابسته y را مدل سازی نمی کند بلکه ابتدا متغیر وابسته را به یک متغیر لوجیت (لگاریتم طبیعی بختهای وقوع یا عدم وقوع متغیرy ) تبدیل میکند.یعنی به صورت ln⁡〖π/(1-π)〗 و سپس از برآورد حداکثر درست نمایی برای برآورد ضرایب استفاده میکند.مدل پیچیده رگرسیون لجستیک که شامل چند متغیر مستقل و یک متغیر وابسته می باشد همانند شکل زیر که در آن لگاریتم نسبت بختها به مدل لوجیت معروف است.احتمال بودن در یک گروهπ تقسیم بر احتمال بودن در گروه دیگر منهای یاπ1- است.

log⁡it(Y)=natural log(odds)=ln⁡〖π/(1-π)〗=a+β_1 x_1+β_2 x_2+…β_k x_k

که در آن:
π:احتمال پیامد یا واقعه ای مورد نظر تحت وجود متغیر مستقل x
α:پارامتر محور مختصات y
β:ضریب رگرسیونی
: X متغیر مستقل
نکته: در حالی که دامنه تغییرات نسبت بختها 192بین صفر تا یک نوسان دارد دامنه تغییرات لوجیت نسبت بختها بین∞- تا ∞+ است.

اهداف رگرسیون لجستیک:
۱.تشخیص متغییرهای مستقلی که بر عضویت در گروه برای متغیر وابسته اثر میگذارند.
۲.ساخت سیستم طبقهبندی شده بر اساس مدل لجستیک برای تصمیم گرفتن در مورد عضویت گروه.

مشخصات منحصر به فرد در رگرسیون لجستیک
رگرسیون لجستیک چندین مشخصه منحصر به فرد دارد که بر روی طرح تحقیقی اثر دارد؛
۱.اولین خصیصه ،طبیعت منحصر به فرد متغیر وابسته است که آن زوجی(باینری) بودن متغیر میباشد .
۲.دومین خصیصه مربوط میشود به اندازه نمونه،که چند عامل بر روی این خصیصه اثر گذار میباشند.از جمله روش تخمین استفاده شده در رگرسیون لجستیک (MLE193)
اندازه نمونه:
در ادبیات مربوط به رگرسیون لجستیک قواعد خاصی برای حجم نمونه و نیز حداقل نسبت تعداد نمونه به تعداد متغیر مستقل پیشنهاد نشده است اما برخی نویسندگان در حوزه آمار چند متغیره حداقل حجم نمونه برای یک تحلیل لجستیکی خوب را صد نفر و برخی نیز پنجاه نفر عنوان کردهاند.در خصوص حداقل نسبت تعداد نمونه به تعداد متغیر مستقل نیز به عنوان یک قاعده کلی حداقل نسبت ده متغیر مستقل به یک نمونه لازم است.اما آنچه مسلم است این است که هر چه تعداد متغیرهای مستقل بیشتر باشد حجم نمونه باید بیشتر باشد ضمن آن که در رگرسیون لجستیک به حجم نمونه بسیار بیشتر از رگرسیون خطی نیاز داریم.همچنین در خصوص حجم نمونه نابرابر در طبقات متغیر وابسته نیز در طبقهای که حجم نمونه آن کمتر است به ازای هر متغیر مستقل حداقل ده نمونه لازم است.

منحنی لجستیک:
به دلیل این که متغیر وابسته زوجی(باینری) تنها مقادیر ۰ و ۱ را میگیرد.مقادیر پیشبین
ی شده (احتمالها)برای اینکه در محدودههای یکسانی قرار گیرند.باید محدوده بندی شوند.برای تعریف یک رابطه محدوده بندی شده بوسیله ۰و ۱،رگرسیون لجستیک از منحنی لجستیک برای نشان دادن رابطه بین متغیر وابسته و متغیر مستقل استفاده میکند.استفاده از منحنی لجستیک این واقعیت را نشان میدهد اگر حتی در یک رابطه رگرسیون اصلاحیههایی برای تبدیل اثرهای غیرخطی به خطی هم انجام شود نمیتواند این موضوع را که مقادیر پیشبینی شده بین ۰و ۱ باقی بماند را تضمین کند.

طبیعت منحصر به فرد متغیر وابسته :
طبیعت زوجی متغیر وابسته خواصی دارد که پیش فرضهای رگرسیون چندگانه را نقض میکنند،که عبارتند از:
۱.خطای یک متغیر گسسته از توزیع دوجملهای194 به جای توزیع نرمال پیروی میکند.بنابراین تمام تستهای آماری مبتنی بر پیش فرض نرمال بودن غیر معتبر میشوند.
۲.واریانس متغییرهای زوجی ثابت نیستند بنابراین نوعی ناهمگنی واریانس(انحراف)195 ایجاد میکند.

این مطلب رو هم توصیه می کنم بخونین:   تحقیق با موضوعاقلام تعهدی، قلام تعهدی، سود تقسیمی

تبدیلات متغیر وابسته:
مدل لجیت از فرم خاصی از منحنی لجستیک(s-shaped) برای ماندن در محدوده ۰ تا ۱ استفاده میکند.برای تخمین مدل لجستیک باید این منحنی از مقادیر پیش بینی شده به مقادیر واقعی منطبق شوند.به این دلیل که مقادیر واقعی متغیر وابسته فقط باید ۰ یا ۱ را بپذیرند.شکل زیر دو مدل از تطبیق دادهها را نشان میدهد.

پیش فرضهای رگرسیون لجستیک
مهم ترین پیش فرضرگرسیون لجستیک زوجی بودن متغیر وابسته میباشد.
در رگرسیون لجستیک نیازی به این نیست که رابطه بین ضرایب متغیر وابسته و ضرایب متغیرهای مستقل یک رابطه خطی باشد در صورتی که رگرسیون چندگانه به این صورت نیست.
متغیرهای مستقل میتوانند هم در سطح کمی و هم در سطح کیفی طبقهبندی شده باشند.اما چنانچه یک یا چند متغیر مستقل در سطح اسمی /ترتیبی بودند حتما باید ابتدا این متغیرها را به متغیرهای مجازی تبدیل کنیم ( یعنی ۰ و ۱) البته در رگرسیون لجستیک ،کادری به نام Categoricalوجود دارد که با نتخاب و اجرای آن متغیرهای ترتیبی به طور خودکار به متغیرهای مجازی تبدیل میشوند بنابراین نیازی به کدگذاری مجدد آنها توسط محقق نیست196.
لزوم تبعیت دادههای متغیرهای مستقل از توزیع نرمال ضروری نیست(متریک یا غیرمتریک).اما چنانچه این متغیرها دارای توزیع نرمال چندمتغیره باشند،در آن صورت برازش مدل بهتر خواهد بود.
چندهم خطی نبودن متغیرهای مستقل از دیگر مفروضات رگرسیون لجستیک است.چرا که صورت چند هم خطی بودن این متغیرها براوردها دارای اریب بوده و خطاهای استاندارد نیز نوسان زیادی خواهند داشت .ترسیم نمودار پراکنش به ما کمک میکند تا از چند هم خطی بودن یا نبودن متغیرهای مستقل اطمینان حاصل کنیم.

روشهای انتخاب متغیرها در رگرسیون لجستیک
در رگرسیون لجستیک روشهای متعددی برای انتخاب و ورود متغیرها به مدل وجود دارد که به ما کمک میکند تا مشخص کنیم که چگونه متغیرهای مستقل وارد تحلیل شوند و نیز بتوانیم مدلهای رگرسیونی متفاوتی را بر روی یک مجموعه متغیر یکسان ایجاد کنیم.
روش همزمان197:در این روش تمامی متغیرها در یک مرحله وارد مدل میشوند.
روش پیشرو مشروط198: نوعی روش گام به گام است که در آن ورود متغیرها به تحلیل بر اساس معنی داری مقدار آماره نسبت درست نمایی و خروج متغیرها از تحلیل براساس احتمال این آماره و با توجه به برآورد پارامتر مشروط انجام میگیرد.
روش پیش رو نسبت درست نمایی199: نوعی روش گام به گام است که در آن ورود متغیرها به تحلیل بر اساس معناداری مقدار آماره نسبت درست نمایی و خروج متغیرها از تحلیل براساس احتمال این آماره وبا توجه به برآوردهای حداکثر درست نمایی جزئی استفاده میشود.
روش پیش رو والد200: نوعی روش گام به گام است که در آن ورود متغیرها به تحلیل براساس معنی داری مقدار آماره نسبت درست نمایی و خروج متغیرها از تحلیل براساس احتمال آماره والد انجام میگیرد.
روش حذف پس رو مشروط201: نوعی روش گام به گام پسرو است که در آن خروج متغیرها از تحلیل براساس احتمال آماره نسبت درست نمایی و با توجه به براوردهای پارامتر مشروط انجام میگیرد.
روش حذف پسرو نسبت درست نمایی202: نوعی روش گام به گام پسرو استکه در آن خروج متغیرها از تحلیل براساس احتمال آماره نسبت درست نمایی و با توجه به براورد حداکثر درست نمایی جزیی انجام میگیرد.
روش حذف پسرو والد203: نوعی روش گام به گام پسرو است که در آن خروج متغیرها از تحلیل براساس احتمال والد انجام میگیرد.

مفاهیم پایه در رگرسیون لجستیک
بختها: Odds
بختها عبارت میباشند از احتمال رخ دادن یک واقعه بر احتمال رخ ندادن آن واقعه.بختها از طریق فرمول زیر محاسبه میشوند که در آن pi احتمال رخ دادن یک واقعه و1-pi احتمال رخ ندادن آن واقعه است.
(Prob_i)⁄((1-Prob_i))

برای درک بهتر مفهوم بختها به مثال زیر توجه کنید(در رابطه با شرکت مردان و زنان در انتخابات).
بخت شرکت مردان در انتخابات عبارت است از تعداد مردانی که در انتخابات شرکت کرداند p1 نسبت به تعداد مردانی که در انتخابات شرکت نکردهاند1-p1 به عنوان مثال نسبت ۹۰/۲۰=۴٫۵ همچنین در گروه زنان نیز بخت شرکت زنان در انتخابات برابر است با تعداد زنانی که در انتخابات شرکت کردهاند p0 نسبت به تعداد زنانی که در انتخابات شرکت نکردهاند نکردهاند 1-p0 به عنوان مثال ۸۰/۱۰=۸ .

نسبت بختها Odds ratio
در رگرسیون لجستیک برای تعیین میزان تاثیر هر متغیر مستقل بر متغیر
وابسته،از آمارهای به نام نسبت بختها OR استفاده میشود204.نسبت بختها در واقع نسبت دو بخت به همدیگر است و به معنای نسبت احتمال وقوع یک پیامد با فرض عضویت در گروه اول به احتمال وقوع آن پیامد با فرض عضویت در گروه دوم میباشد. به عبارتی نسبت بختها نشان دهنده، یک واحد تغییر در بختهای وقوع یک پیامد به ازای یک واحد تغییر در متغیر مستقل است.از این رو نسبت بختها را میتوان معادل β در رگرسیون خطی دانست .
که در آن
p1 احتمال وقوع یک پیامد با فرض عضویت در گروه اول (۱)
p0 احتمال وقوع یک پیامد با فرض عضویت در گروه دوم (۰)
برای درک بهتر نحوه محاسبه نسبت بختها مثال مربوط به بختها را بار دیگر تکرار میکنیم در این مثال برای محاسبه نسبت بختها ابتدا لازم است بخت شرکت در انتخابات در دو گروه مردان و زنان را محاسبه کنیم.در محاسبه بختها ملاحظه کردیم که بخت شرکت مردان در انتخابات برابر ۹۰/۲۰=۴٫۵ و بخت آن برای زنان برابر با ۸۰/۱۰=۸ است.
حال اگر مقدار دو بخت را بر یکدیگر تقسیم کنیم نسبت


دیدگاهتان را بنویسید