Stata bilan logistik regressiya; 1-bob: Stata bilan logistik regressiyaga kirish

Stata bilan logistik regressiya 1-bob: Stata bilan logistik regressiyaga kirish

Stata bilan logistik regressiya 1-bob: Stata bilan logistik regressiyaga kirish Biz binomial logistik regressiyani muntazam oddiy bilan taqqoslash orqali muhokama qilamiz
08.09.2021

Biz binomial logistik regressiyani muntazam oddiy eng kichkina kvadratchalar (OLS) regressiya bilan taqqoslash orqali muhokama qilishni boshlaymiz. Ehtimol, bu ikkalasining eng aniq farqi shundaki, OLS regressiyasida qaram o'zgaruvchi doimiy va binomial logistik regressiyada ikkilik bo'lib, 0 va 1 sifatida kodlangan bo'lib, bog'liq o'zgaruvchi ikkilik bo'lganligi sababli logistik regressiyada boshqacha taxminlar mavjud OLS regressiyasida qilingan va biz keyinchalik bu taxminlarni muhokama qilamiz. Logistik regressiya OLS regressiyasiga o'xshaydi, chunki u qaysi taxminiy o'zgaruvchilar statistik jihatdan ahamiyatli ekanligini aniqlash uchun, diagnostika yordamida taxminlarning haqiqiyligini tekshirish uchun ishlatiladi, test-statistik hisoblab chiqiladi, bu umumiy model statistik jihatdan ahamiyatli yoki yo'qligini ko'rsatadi,va har bir taxminiy o'zgaruvchining koeffitsienti va standart xatosi hisoblanadi.

OLS va logistik regressiya o'rtasidagi farqni ko'rsatish uchun, ikkilik natijalar o'zgaruvchisi bo'lgan ma'lumotlar OLS regressiyasi yordamida tahlil qilinganda nima bo'lishini ko'rib chiqamiz. Ushbu bobdagi misollar uchun biz Kaliforniya shtati tomonidan o'quv yutuqlarini o'lchaydigan 1200 ta o'rta maktablardan yig'ilgan ma'lumotlar to'plamidan foydalanamiz. Bizning qaram o'zgaruvchimiz hiqualdeb nomlanadi. Ushbu o'zgaruvchi uzluksiz o'zgaruvchidan ( api00) 745 chegaranuqtasi yordamida yaratilgan. Demak, 744 va undan past qiymatlar 0 ("not_high_qual" yorlig'i bilan) sifatida kodlangan va 745 va undan yuqori qiymatlar 1 deb kodlangan. ("high_qual" yorlig'i bilan). Bizning taxminiyo'zgaruvchimiz avg_eddeb nomlangan doimiy o'zgaruvchi bo'ladi, bu qatnashayotgan o'rta maktab o'quvchilarining ota-onalarining o'rtacha ma'lumotlarini (1 dan 5 gacha) doimiy ko'rsatkichi. Regressiyani ishga tushirgandan so'ng, biz mos keladigan qiymatlarni olamiz va keyin ularni kuzatilgan o'zgaruvchilarga qarab chizamiz.

Izoh: Ma'lumotlar to'plamida 1200 ta kuzatuvlar mavjud bo'lishiga qaramay, ulardan faqat 1158 tasi quyida tahlil qilishda foydalanilganligini sezasiz. Tahlilda foydalanilgan har qanday o'zgaruvchida etishmayotgan qiymatlari bo'lgan holatlar bekor qilindi (ro'yxat bo'yicha o'chirish). Keyinchalik ushbu bobda ushbu masalani muhokama qilamiz.

Yuqoridagi grafikada biz taxmin qilingan qiymatlarni (afsonada "mos qiymatlar" deb nomlangan, ko'k chiziq) kuzatilgan ma'lumotlar qiymatlari (qizil nuqta) bilan birga chizdik. Grafika bilan tanishib chiqib, ba'zi bir mantiqiy bo'lmagan narsalarga e'tibor berasiz. Birinchidan, noldan kam, boshqalari +1 dan yuqori bo'lgan taxmin qilingan qiymatlar mavjud. Bizning natija o'zgaruvchimiz bilan bunday qiymatlar mumkin emas. Shuningdek, chiziq ma'lumotlar nuqtalarini "moslashtirish" yoki "tavsiflash" ishini yomon bajaradi. Keling, xuddi shu tahlilni logistik regressiya bilan bajarishga harakat qilaylik.

Oldingi kabi, biz bashorat qilingan ehtimollarni hisoblab chiqdik va ularni kuzatilgan qiymatlar bilan taqqosladik. Logistik regressiya bilan biz mantiqiy taxmin qilingan ehtimollarni olamiz: bashorat qilinadigan ehtimolliklar noldan kam yoki birdan katta emas. Shuningdek, logistik regressiya egri chizig'i ma'lumotlar nuqtalarini "moslashtirish" yoki "tavsiflash" vazifasini ancha yaxshi bajaradi.

Terminologiya

Logistik regressiya tahlilining namunasini ko'rganimizdan so'ng, keltirilgan lug'at boyligini muhokama qilish uchun ozgina vaqt sarflaymiz. Shunday qilib, tez-tez uchraydigan turli xil atamalarni aniqlashdan boshlaylik, ushbu atamalarning bir-biri bilan qanday aloqasi borligi va ular logistik regressiya natijalarini tushuntirish uchun qanday ishlatilishini muhokama qilaylik. Ehtimollik- bu hodisa yuz berish imkoniyatining miqdoriy ifodasi. Rasmiy ravishda, bu hodisa "sodir bo'lishi" sonini, voqea sodir bo'lishi mumkin bo'lgan vaqtga bo'linadi. Oddiy misol uchun, tanga tashlashni ko'rib chiqaylik. O'rtacha har ikki zarbadan bir marta bosh olasiz. Demak, bosh olish ehtimoli 1/2 yoki .5 ga teng.

Keling, koeffitsientlarniko'rib chiqaylik . Umumiy tilda, ehtimollik va koeffitsientlar bir-birining o'rnida ishlatiladi. Biroq, statistikada ehtimollik va koeffitsientlar bir xil emas. farqsodir bo'layotgan hodisa, voqea sodir bo'lish ehtimolini voqea sodir bo'lmasligi ehtimoliga bo'linish sifatida aniqlanadi. Bizning tanga tashlash misolida davom etish uchun, bosh olish ehtimoli .5, bosh olmaslik ehtimoli (ya'ni, dumlarni olish) ham .5. Demak, koeffitsientlar .5 / .5 = 1. Voqea sodir bo'lishi ehtimoli va uning maqtovi, voqea sodir bo'lmasligi ehtimoli 1 ga teng bo'lishi kerakligini unutmang. Keling, ehtimol, ehtimol tangani o'zgartirib yubormoqchimiz. boshlarni olish .6. Boshlarni olmaslik ehtimoli u holda .4. Boshlarni olish koeffitsienti .6 / .4 = 1.5. Agar biz tanga boshini olish ehtimoli .8 ga teng qilib o'zgartirgan bo'lsak, unda bosh olish koeffitsienti .8 / .2 = 4. Ko'rinib turibdiki, koeffitsientlar bitta bo'lganda,voqea sodir bo'lish ehtimoli voqea sodir bo'lmasligi ehtimoliga teng. Koeffitsientlar birdan katta bo'lsa, voqea sodir bo'lish ehtimoli voqea sodir bo'lish ehtimolligidan yuqori bo'ladi va koeffitsientlar birdan kam bo'lsa, voqea sodir bo'lish ehtimoli voqea sodir bo'lish ehtimolidan kam bo'ladi. . Qarama-qarshiliklarni ehtimolga qaytarish mumkinligini ham unutmang: ehtimollik = koeffitsient / (1 + koeffitsient).

Endi koeffitsientlar koeffitsientiniko'rib chiqamiz . Nomidan ko'rinib turibdiki, bu ikki koeffitsientning nisbati. Aytaylik, bizda jamoaga qo'shilishni istagan erkaklar va ayollar bor. Aytaylik, 75% ayollar va 60% erkaklar jamoani tashkil qiladi. Shunday qilib, ayollar uchun koeffitsient .75 / .25 = 3, erkaklar uchun .6 / .4 = 1.5. Koeffitsientlar koeffitsienti 3 / 1,5 = 2 ni tashkil etadi, ya'ni erkaklar bilan taqqoslaganda ayol jamoani tuzadigan koeffitsient 2 dan 1 gacha.

Tushuntirishni talab qiladigan yana bir atama, logit deb ham ataladigan log stavkalari. Kundalik koeffitsientlar koeffitsientlarningtabiiy logarifmi hisoblanadi. Logistik regressiya chiqishidagi koeffitsientlar log koeffitsientlari birliklarida berilgan. Shuning uchun, koeffitsientlar, modeldagi boshqa barcha o'zgaruvchilar bilan prognozli o'zgaruvchida bitta birlik o'zgarishi bo'lganida, jurnal koeffitsientlarida kutilgan o'zgarish miqdorini ko'rsatadi. Birozdan so'ng biz nima uchun koeffitsientlar log koeffitsientlari bilan berilganligini tushuntiramiz. Iltimos, ushbu bobda logaritma har qanday muhokama qilinganida, biz tabiiy jurnalni nazarda tutamiz.

  • ehtimollik: hodisa sodir bo'lishining sonini voqea sodir bo'lishi mumkin bo'lgan songa bo'linadi (mumkin bo'lgan qiymatlar 0 dan 1 gacha)
  • farq: voqea voqea sodir bo'lmaydi, deb ehtimoli bilan bo'lingan bo'ladi, deb ehtimollik: ehtimollik (muvaffaqiyat) / ehtimoli (etishmovchiligi)
  • koeffitsientlar koeffitsienti: bir guruh uchun muvaffaqiyatga erishish koeffitsientini boshqa guruhning muvaffaqiyat koeffitsientiga bo'lish nisbati: (ehtimollik (muvaffaqiyat) A / ehtimollik (muvaffaqiyatsizlik) A) / (ehtimollik (muvaffaqiyat) B / ehtimollik (muvaffaqiyatsizlik) B )
  • log stavkalari: koeffitsientlarningtabiiy jurnali

Orcalcbuyrug'i (sifatida odds ratio calculation) farq hollarini olish uchun foydalanish mumkin. Search orcalcyozib buyruqni yuklab olishingiz kerak bo'ladi . (I foydalanish haqida qo'shimcha ma'lumot olish uchun? dasturlari izlanglar va qo'shimcha yordam olish uchun qidiruv buyrug'ini foydalanishingiz mumkin Qanday qarang Izlash). Ushbu buyruqdan foydalanish uchun shunchaki ishlatilishi mumkin bo'lgan ikkita ehtimollikni taqdim eting (avval 1-guruh uchun muvaffaqiyat ehtimoli, so'ngra 2-guruh uchun muvaffaqiyat ehtimoli beriladi). Misol uchun,

Shu o'rinda biz ma'lumotlarni kodlash bilan bog'liq qisqacha munozarani to'xtatib turishimiz kerak. Logistik regressiya nafaqat bog'liq o'zgaruvchini ikkilamchi, balki ikkilik deb ham qabul qiladi; boshqacha qilib aytganda 0 va +1 sifatida kodlangan. Ushbu kodlar raqamli bo'lishi kerak (ya'ni mag'lubiyat emas) va 0 hodisa ro'y bermaganligini, 1 voqea sodir bo'lganligini ko'rsatadigan odatiy holdir. Ko'pgina statistik paketlar, shu jumladan Stata, 0 va 1 kodlari bilan bog'liq bo'lgan o'zgaruvchi bo'lmasa, logistik regressiyani amalga oshirmaydi. Xususan, Stata qaram o'zgaruvchilarning barcha nolga teng bo'lmagan qiymatlari 1 deb hisoblaydi. uni ikkilamchi o'zgaruvchiga aylantiradigan Stata barcha qiymatlarni 1 deb hisoblaydi. Bu Stata-da qattiq kodlangan; bunga haddan tashqari minadigan variantlar yo'q.Agar bog'liq o'zgaruvchingiz 0 va 1 dan boshqa usulda kodlangan bo'lsa, logistika regressiyasini ishga tushirishdan oldin uni qayta yozishingiz kerak bo'ladi. (Izoh: SAS 0 voqea sodir bo'lganligini bildiradi deb hisoblaydi; dan foydalaningSAS modelini 1 ga ega bo'lish uchun proc logistikbayonotida tushishopsiyasi .) Odatiy bo'lib, Stata voqea sodir bo'lish ehtimolini taxmin qiladi.

Stata logit va logistik buyruqlari

Stata logistik regressiya, logitva logistikuchun ikkita buyruqga ega . Ikkalasining asosiy farqi shundaki, birinchisi koeffitsientlarni, ikkinchisi koeffitsientlar koeffitsientlarini aks ettiradi. Siz shuningdek logitbuyrug'i yordamida yokivariant. Qaysi buyruqni ishlatishingiz shaxsiy xohishingizga bog'liq. Quyida biz koeffitsientlar va koeffitsientlar nisbati o'rtasidagi munosabatni muhokama qilamiz va birini boshqasiga qanday o'tkazish mumkinligini ko'rsatamiz. Biroq, logistika regressiyasining ba'zi bir misollarini muhokama qilishdan oldin, bir muncha vaqtni logaritmalarga oid ba'zi asosiy matematikani ko'rib chiqishimiz kerak. Ushbu veb-kitobda barcha logaritmalar tabiiy jurnallar bo'ladi. Agar log (a) = b bo'lsa, u holda exp (b) = a bo'ladi. Masalan, log (5) = 1.6094379 va exp (1.6094379) = 5, bu erda "exp" darajalashni bildiradi. Bu juda muhimdir, chunki bu koeffitsientlar va koeffitsientlar nisbati o'rtasidagi bog'liqlikdir.

Logit koeffitsientlari ( logitbuyrug'ining natijasida berilgan) va koeffitsientlar nisbati ( logistikabuyrug'ining natijasida berilgan) o'rtasidagi munosabatni tasvirlashga yordam beradigan ba'zi kichik ma'lumotlar to'plamlarini yaratdik . Ma'lumotlarning qanday taqsimlanishini ko'rish uchun tabulyatsiyabuyrug'idan foydalanamiz . Shuningdek, biz taxmin qilingan qiymatlarni olamiz va ularni OLS regressiyasida bo'lgani kabi xga taqqoslaymiz .

Ma'lumotlarni kiritish qulayligi uchun biz bu erda kengaytirishbuyrug'idan foydalanamiz . Har bir satrda biz xva yqiymatlarini kiritamiz , va cnto'zgaruvchisi uchun biz ma'lumotlar qatorida ushbu satrningnecha marta takrorlanishini xohlaymiz. Ma'lumotlar to'plamini yaratishni tugatish uchun kengaytirishbuyrug'idan foydalanamiz . Buni ro'yxatbuyrug'i yordamida ko'rishimiz mumkin . Agar ro'yxatbuyrug'i o'z-o'zidan chiqarilsa (ya'ni, undan keyin o'zgarmaydiganlar bo'lsa), Stata barcha o'zgaruvchilar uchun barcha kuzatuvlarni ro'yxatlaydi.

Ushbu misolda biz logitva logistikbuyruqlar natijalarini taqqosladik . Keyinchalik ushbu bobda biz topilmalarni sharhlashda yordam berish uchun ehtimolliklardan foydalanamiz. Ko'p odamlar ehtimollik koeffitsientlariga qaraganda ehtimollikni osonroq tushunishadi. Siz ikkita chiqishning yuqori qismidagi ma'lumotlar bir xil ekanligini sezasiz. Wald test qiymatlari (z deb nomlanadi) va p-qiymatlari bir xil, jurnal ehtimolligi va standart xato. Ammo logitbuyrug'i koeffitsientlarni va ularning ishonch oraliqlarini beradi, logistikabuyrug'i koeffitsientlar nisbatlarini va ularning ishonch oraliqlarini beradi. Bundan tashqari, logistikaekanligini sezasizbuyrug'i doimiylik haqida hech qanday ma'lumot bermaydi, chunki koeffitsient nisbati bilan doimiylik haqida gapirish unchalik mantiqiy emas. (Doimiy ( _cons) koeffitsientlar bilan ko'rsatiladi, chunki logistik regressiya modeli uchun tenglamani yozish uchun har ikkala qiymatdan ham foydalanasiz.) Keling, xo'zgaruvchisiga nisbatan chiqishni boshlaymiz . Dan chiqish Logitamri koeffitsienti bildiradi xyilda bir birlik o'zgarishi bilan 0. Bu vositasidir x, siz bir 0 birligi o'zgarishlarni oldindan edi y. Koeffitsientni koeffitsientga aylantirish uchun koeffitsientning eksponentligini oling:

Bu koeffitsient nisbati bo'lgan 1 ni beradi. 1 koeffitsienti xning y gata'siri yo'qligini anglatadi . Z testi statistikasiga qarab, biz uning statistik jihatdan ahamiyatli emasligini ko'ramiz va koeffitsientning ishonch oralig'iga 0 kiradi. E'tibor bering, agar ta'sir bo'lmasa, koeffitsient nisbati ishonch oralig'i 1 ga teng bo'ladi.

Keyin, hujayra soni teng bo'lmagan misolni sinab ko'raylik.

Ushbu misolda biz xkoeffitsienti yana 0 ga teng ekanligini ko'ramiz (1.70e-15 taxminan 0, yaxlitlash xatosi bilan) va shuning uchun koeffitsientlar nisbati 1. Yana, xning y gastatistik jihatdan sezilarli ta'siri yo'q degan xulosaga keldik . Ammo, bu misolda doimiylik 0 ga teng emas, agar x = 0 bo'lsa, doimiylik y = 1 koeffitsienti bo'lib, doimiy (kesma deb ham ataladi) modeldagi barcha o'zgaruvchilar teng tutilganda taxmin qilingan log stavkalari. 0 ga.

Endi koeffitsientlar nisbati 1 ga teng bo'lmagan misolni ko'rib chiqamiz.

Bu erda koeffitsientlar nisbati 4, aniqrog'i, 4 dan 1 gacha bo'lganini ko'ramiz. Boshqacha qilib aytganda, 1 deb kodlangan guruhning koeffitsienti 0 ga teng bo'lgan guruhning koeffitsientidan to'rt baravar ko'pdir.

Bitta ikkilamchi bashoratchi

Keling, birinchi misolimizdagi ma'lumotlarni yana ishlataylik. Bizning taxminiyo'zgaruvchimiz ikki yilliko'zgaruvchidir, yr_rnd, bu maktab yil bo'yi taqvimda (1 deb kodlangan) yoki yo'qligini (0 sifatida kodlangan) bildiradi. Birinchidan, jadvallar jadvalini tuzamiz va keyin ma'lumotlarning qanday ko'rinishini tasavvur qilish uchun o'zgaruvchilarni grafikamiz.

Ikkala o'zgaruvchimiz ikkitomonlama bo'lganligi sababli, biz jitteropsiyasidan foydalanganmiz, shunda ballar bir-birining ustiga to'liq tushmasin. Endi logistik regressiyani ko'rib chiqamiz.

Logitva logistikbuyruqlarning natijalarini qisqacha muhokama qiladigan bo'lsak , iltimos, to'liq davolash uchun Izohli Chiqish sahifalarimizga qarang. Chiqishning yuqori qismidan boshlaymiz. Takrorlash jurnalining ma'nosi keyinroq muhokama qilinadi. Keyinchalik, umumiy model statistik jihatdan ahamiyatli ekanligini sezasiz (chi-kvadrat = 77,60, p = .00). Bu shuni anglatadiki, yr_rndo'z ichiga olgan modelma'lumotlarga statistik jihatdan unchalik mos bo'lmagan modelga qaraganda yaxshiroq mos keladi (ya'ni faqat doimiyga ega model). Biz bu erda "psevdo R-square" ning ma'nosini "psevdo" atamasiga urg'u berish kerakligini aytishdan tashqari, ba'zi mualliflar (Xosmer va Lemeshou, 2000) bu narsaning foydasini kamaytirayotganini ta'kidlashdan tashqari, izohlashga urinmaymiz. statistik. O'rnatilgan modelning jurnalga kirish ehtimoli -718,62623. Ehtimollik - parametrlarning qiymatini hisobga olgan holda berilgan kuzatuvlar to'plamini kuzatish ehtimoli. O'zidagi -718.62623 raqami unchalik katta ma'noga ega emas; aksincha, qisqartirilgan model to'liq modelga qaraganda ancha mos kelishini aniqlashda va boshqa modellarni taqqoslashda foydalaniladi.

Yr_rnduchun koeffitsient -1,78ga teng. Bu shuni ko'rsatadiki, yr_rndning bir birlik o'sishi bilan hiqualning loglar koeffitsientlarida1,78 ga pasayish kutiladi (boshqacha aytganda, yil davomida maktab o'quvchilari uchun bo'lmaganlarga nisbatan). Ushbu koeffitsient ham statistik jihatdan ahamiyatlidir, Uoldning sinov qiymati (z) -7.30 ga teng. Wald testi statistik jihatdan ahamiyatli bo'lgani uchun, koeffitsient uchun ishonch oralig'i 0 ni o'z ichiga olmaydi, avvalgidek koeffitsientni eksponentlash orqali koeffitsientga aylantirish mumkin:

Stata-dan koeffitsientlar koeffitsientini logistikbuyruqni berish yoki yoki logitbuyrug'i bilan yokiopsiyasidan foydalanish orqali olishingiz mumkin .

Ushbu ikkita chiqish o'rtasidagi farq faqat logitbuyrug'ining yuqori qismida takrorlash jurnalini o'z ichiga olganliginiko'rasiz . Bu erda bizning fikrimiz shuki, siz ushbu ma'lumotlarni olish uchun bir nechta usullardan foydalanishingiz mumkin va ulardan qaysi biri sizga bog'liq. Koeffitsientlar koeffitsienti yr_rnd-da bir birlik o'zgarishi bo'lsa, koeffitsientlar nisbati .1686011 o'zgarishi sifatida talqin etiladi . .1686011 o'zgarishi aslida pasayish ekanligiga e'tibor bering (chunki 1dan kam koeffitsientlar pasayishni bildiradi; siz salbiy koeffitsientga ega bo'lolmaysiz). Boshqacha qilib aytadigan bo'lsak, siz yillik bo'lmagan maktabdan yil bo'yi maktabga borganingizda, koeffitsientlar nisbati kichikroq bo'ladi.

Oldingi misolda biz dichotomous mustaqil o'zgaruvchidan foydalandik. An'anaga ko'ra, tadqiqotchilar va ma'lumotlar tahlilchilari ikkita ikkilamchi o'zgaruvchilar o'rtasidagi munosabatni tahlil qilganda, ular ko'pincha xi-kvadrat test haqida o'ylashadi. Keling, logistik regressiya va xi-kvadrat o'rtasidagi bog'liqlikni ko'rib chiqaylik. Chi-kvadrat aslida logistik regressiyaning alohida holatidir. Xi-kvadrat tahlilida har ikkala o'zgaruvchi ham kategorik bo'lishi kerak va hech qanday o'zgaruvchi mustaqil yoki qaram o'zgaruvchiga aylanmaydi (bu ajratilmaydi). Logistik regressiyada qaram o'zgaruvchi ikkilamchi bo'lishi kerak bo'lsa, mustaqil o'zgaruvchi ikkilamchi va doimiy bo'lishi mumkin. Shuningdek, logistik regressiya faqat bitta mustaqil o'zgaruvchi bilan chegaralanmaydi.

Bitta doimiy taxmin

Keling, bitta uzluksiz bashorat qiluvchi modelni ko'rib chiqamiz. Ushbu misol uchun biz avg_ednomli o'zgaruvchidan foydalanamiz . Bu tadqiqotda ishtirok etgan maktablarda bolalar ota-onalarining ta'lim yutuqlarining o'lchovidir. Keling, ushbu o'zgaruvchini umumlashtirish va grafiklash bilan boshlaymiz.

Dan chiqishi qarab Logitamri, biz LR-chi-kvadrat juda yuqori va aniq statistik muhim ekanligini ko'rib turibmiz. Bu shuni anglatadiki, biz ko'rsatgan model, ya'ni avg_ed hiqualnibashorat qiladi, faqat doimiy (ya'ni, shunchaki qaram o'zgaruvchiga ega) modelga qaraganda ancha yaxshi. Avg_educhun koeffitsient 3.91 ni tashkil etadi, ya'ni biz avg_edhar bir birlik ortishi bilan hiqualninglog stavkalarida 3.91 ga o'sishni kutamiz. Wald statistikasining qiymati koeffitsientning 0 dan sezilarli farq qilishini ko'rsatadi, ammo hiqualninglog stavkalari 3,91 ga oshgani aniq emas.haqiqatan ham anglatadi. Shuning uchun, logistikbuyruqdan chiqishni ko'rib chiqamiz . Bu bizga koeffitsientlar koeffitsienti 49,88 ekanligini bildiradi. Modeldagi boshqa barcha o'zgaruvchilar bilan taxminiy o'zgaruvchida bitta birlik o'zgarishi bo'lsa, bu koeffitsientlar nisbati kutilayotgan o'zgarish miqdori.

Agar biz hiqualva avg_edgrafikasini ko'rsak, ushbu bobning boshida tuzilgan ma'lumotlar kabi grafikalar kabi, bu juda ham ma'lumotli emasligini ko'rasiz. Agar siz OLS regressiyasida bo'lgani kabi nuqtalar orqali to'g'ri chiziq o'tkazishga harakat qilsangiz, chiziq ma'lumotlarni tavsiflashda yaxshi ishlamaydi. Ushbu muammoning mumkin bo'lgan echimlaridan biri , ushbu bobning boshidagi misolda yhat1ni bashorat qilganimizkabi, bog'liq o'zgaruvchining qiymatlarini taxmin qilingan ehtimolliklarga aylantirishdir . Biz bashorat ehtimolliklar grafik bo'lsa hiqualqarshi avg_ed, (a o'zgaruvchi, biz nido yhatcbiz bir satrda kabi biroz egri ekanini qarang) Shosil bo'ladi. Ushbu s shaklidagi egri chiziq ba'zi statistik taqsimotlarga o'xshaydi va regressiya tenglamasi turini va uning statistik testlarini yaratish uchun ishlatilishi mumkin. Logistik regressiyada OLS da ko'rilgan to'g'ri chiziqdan s-shaklli egri chiziqqa o'tish uchun biz matematik o'zgarishlarni amalga oshirishimiz kerak. Ushbu formulalarni ko'rib chiqishda, logistik regressiya haqida gapirganda nima uchun ehtimolliklar, tabiiy jurnallar va eksponentlar haqida gapirishimiz kerakligi aniq bo'ladi.

Ikkala va doimiy prognoz qiluvchi

Endi ikkiga bo'linadigan va doimiy o'zgaruvchiga ega bo'lgan misolni sinab ko'raylik.

Ushbu logistik regressiyadan chiqishni talqin qilish avvalgilaridan unchalik farq qilmaydi. LR-chi-kvadrat juda baland va statistik ahamiyatga ega. Bu shuni anglatadiki, biz aniqlagan model yr_rndva avg_edpredikatorlarisiz modelgaqaraganda hiqualnibashorat qilishda ancha yaxshi . Yr_rnduchun koeffitsient -1,09 nitashkil etadi va shuni anglatadiki, yr_rndhar bir birlik o'sishi uchun hiqualninglog stavkalarida 1,09 birlik pasayishini kutmoqdamiz va boshqa barcha o'zgaruvchilarni modelda doimiy ushlab turamiz. Avg_educhun koeffitsient 3.86 ga teng va biz hiqualninglog stavkalari 3.86 birlikka ko'payishini kutmoqdamiz.avg_edhar bir birlik o'sishi bilan , qolgan barcha o'zgaruvchilar doimiy ravishda saqlanadi. Ushbu ikkala koeffitsient Wald testi bo'yicha 0dan sezilarli darajada farq qiladi.

Tafsirga yordam beradigan vositalar

OLS regressiyasida R-kvadrat statistikasi model tomonidan hisobga olingan bog'liq o'zgaruvchidagi o'zgaruvchanlik ulushini (ya'ni modeldagi barcha mustaqil o'zgaruvchilarni) ko'rsatadi. Afsuski, logistik regressiya modeli uchun bir xil ma'lumotlarni taqdim etish uchun statistikani yaratish juda qiyin bo'lgan. Ko'p odamlar sinab ko'rdilar, ammo tadqiqotchilar yoki statistiklar tomonidan hech qanday yondashuv keng qabul qilinmadi. Logitva logistikbuyruqlardan olingan natijalar "psevdo-R-square" deb nomlangan statistikani beradi va asosiy e'tibor "psevdo" atamasiga qaratilgan. Ushbu statistika faqat hisobga olinadigan dispersiya nisbati to'g'risida eng umumiy fikrni berish uchun ishlatilishi kerak. fitstatbuyrug'i turli xil soxta-R kvadratlarning ro'yxatini beradi. Siz yuklab olishingiz mumkin fitstat(I foydalanish haqida qo'shimcha ma'lumot olish uchun? Dasturlari izlanglar va qo'shimcha yordam olish uchun qidiruv buyrug'ini foydalanishingiz mumkin Qanday ko'rish Internet orqali qidiruv).

Chiqish natijalaridan ko'rinib turibdiki, ba'zi statistik ma'lumotlar modelga nisbatan mosligini, boshqalari esa unchalik yaxshi emasligini bildiradi. Qadriyatlar juda xilma-xil, chunki ular har xil narsalarni o'lchaydilar. Ushbu chiqindagi narsalarni muhokama qilmaymiz; aksincha, bizning fikrimiz shundan iboratki, logistik regressiyada R-kvadrat statistikasi bo'yicha ozgina kelishuv mavjud va har xil yondashuvlar juda boshqacha xulosalarga olib keladi. Agar siz R kvadratik statistikani umuman ishlatsangiz, uni juda ehtiyotkorlik bilan ishlating.

Keyinchalik, siz yuritgan logistik regressiyalarni yaxshiroq tushunishda yordam beradigan ba'zi vositalarni tavsiflaymiz. Bu buyruqlar deb nomlangan .ado rejasining bir qismi bo'lgan spost9_ado(I foydalanish haqida qo'shimcha ma'lumot olish uchun? Dasturlari izlanglar va qo'shimcha yordam olish uchun qidiruv buyrug'ini foydalanishingiz mumkin Qanday qarang Izlash). (Agar siz Stata 8 dan foydalanayotgan bo'lsangiz, ushbu versiya uchun spost.ado- ni olishni xohlaysiz .) Listcoefbuyrug'i sizga logistik regressiya koeffitsientlarini, Wald testidan olingan z-statistikani va uning p-qiymati, koeffitsientlar koeffitsientini, standartlashtirilgan koeffitsientlar koeffitsienti va x ning o'rtacha og'ishi (ya'ni mustaqil o'zgaruvchilar). Biz yordamni qo'shdikpastki qismida har bir ustunning izohi berilishi uchun variant. Ikkita foydali ustunlar koeffitsientlarni beradigan e ^ b va e ^ bStdX, bu x ning bitta standart og'ish koeffitsienti o'zgarishini beradi (ya'ni yr_rndva avg_ed).

Prtabbuyrug'i modeli keltirilgan mustaqil o'zgaruvchilar belgilangan qiymatlar uchun bashorat qadriyatlar jadvali hisoblaydi. Boshqa mustaqil o'zgaruvchilar sukut bo'yicha o'rtacha qiymatda doimiy ravishda ushlab turiladi.

Ushbu buyruq yuqori darajadagi maktabda bo'lish ehtimolini beradi, agar yg_rndhar xil darajalarda bo'lsa, avg_edo'rtacha qiymatidaushlab turiladi. Demak, yr_rnd= 0 va avg_ed= 2.75 bo'lganda, yuqori sifatli maktab bo'lish ehtimoli 0,1964 ga teng. Qachon yr_rnd= 1 va avg_ed2.75, yuqori sifatli maktab bo'lish bashorat ehtimoli 0,0759 = bo'ladi. Shubhasiz, maktab yil davomida dars jadvalida bo'lmagan paytda yuqori sifatli maktab bo'lish ehtimoli ancha yuqori. Chiqish ostidagi "x =" x (ya'ni mustaqil) o'zgaruvchilarning vositalarini beradi.

Keling , ushbu buyruq nima qilishini va nima uchun foydali ekanligini yaxshiroq tushunish uchun doimiy o'zgaruvchiga ega bo'lgan prtabbuyrug'ini sinab ko'raylik . Birinchidan, biz yangi o'zgaruvchiga ega bo'lgan logistik regressiyani bajarishimiz va taxmin qilingan qiymatlarni hisoblashimiz kerak. Keyin, biz taxmin qilingan qiymatlarni o'zgaruvchiga qarshi chizamiz. Biz foydalanadigan o'zgaruvchiga ovqatdeyiladi va bu maktabda bo'lganida bepul ovqatlanadigan o'quvchilar foizini ko'rsatadi.

Garchi bu grafik klassik s shaklidagi egri chiziqqa o'xshamasa ham, bu logistik regressiya egri chizig'ining yana bir misoli. Bu avg_edyordamida hosil bo'lgan egri chiziqqa o'xshamaydi,chunki avg_edva hiqualo'rtasida ijobiy bog'liqlik mavjud, ovqatlanishva hiqualo'rtasida esa salbiy munosabat mavjud . Aytganingizdek, bepul ovqatlanish foizlari oshgani sayin yuqori sifatli maktab bo'lish ehtimoli kamayadi. Endi ushbu grafikani prtabbuyrug'ining natijasi bilan taqqoslaylik. Dastlab siz matritsani (matritsa kattaligi) 800 ga o'rnatishingiz kerak bo'ladi. Bu Stata modelini baholashda ishlatishi mumkin bo'lgan maksimal o'zgaruvchilar sonini oshiradi.

Agar siz chiqishni grafik bilan taqqoslasangiz, ular bir xil narsalarning ikkita tasviri ekanligini ko'rasiz: prtabchiqishining birinchi qatorida berilgan juftlar juftligi grafadagieng chap nuqta uchun koordinatalar va boshqalar. . Agar siz ushbu grafani yr_rndyordamida yaratmoqchibo'lsangiz, grafika unchalik ma'lumotli emasligini ko'rasiz: yr_rndfaqat ikkita mumkin bo'lgan qiymatga ega; shuning uchun grafada faqat ikkita nuqta bor.

Ushbu chiqindagi qiymatlar ilgari ko'rilganlardan farq qiladi, chunki modellar har xil. Ushbu misolda biz avg_edni predictorisifatida kiritmadikva bu erda avg_ed o'rtacha qiymatda saqlanmaydi.

PrchangeAgar yuqori qiymatiga past qiymatiga borish kabi buyruq bashorat ehtimoli o'zgarishlarni hisoblaydi. Ushbu misol uchun biz avg_eddan foydalanamiz (uning qiymati 1 dan 5 gacha), chunki 0/1 o'zgaruvchiga past qiymatdan yuqori qiymatga o'tish unchalik qiziq emas.

Keling, bizga nima aytib berishini bilish uchun ushbu chiqish elementini elementlar bo'yicha ko'rib chiqaylik. Vazirliklar>max ustun biz bashorat ehtimol kutish kerak, deb o'zgarish miqdorini bildiradi hiqualsifatida avg_eduning maksimal qiymati, uning minimal qiymat o'zgarishlar. 0->1 ustunida biz taxmin qilinadigan hiqualehtimoli o'zgarishi miqdorini bildiradi, chunki avg_ed0 dan 1 gachao'zgaradi. Eng past qiymati 1 bo'lgan avg_edkabi o'zgaruvchi uchun bu ustun unchalik foydali emas, chunki avg_edning kuzatiladigan doirasidan tashqarida ekstrapolyatsiya qiladi. - + 1/2 ustun biz bashorat ehtimol kutish kerak, deb o'zgarish miqdorini bildiradi hiqualsifatida avg_edo'rtacha - 0,5 dan o'rtacha + 0,5 ga o'zgaradi. (ya'ni o'rtacha bir tomonning yarim birligi). Boshqacha qilib aytganda, bu nishabning funktsiya o'rtacha qiymatidagi o'zgarish tezligi (yuqoriga chizilgan logistik funktsiyani orqaga qarang). - + sd / 2 ustuni oldingi ustun bilan bir xil ma'lumotlarni beradi, faqat standart og'ishlarda bo'ladi. MargEfct ustuni funktsiya moyilligining mumkin bo'lgan eng katta o'zgarishini beradi. Pr (y | x) ishlab chiqarish qismi yuzaga beradi hiqualTeng bashoratchilari o'rtacha qiymatiga da, deb berilgan nol va ehtimollik deb hiqualkim shu o'rtacha qadriyatlaridan ma'lumoti berilgan teng. Demak, avg_edbo'lganda yuqori sifatli maktab bo'lish ehtimolio'rtacha qiymati bo'yicha .8225 ga teng va yuqori sifatli maktab bo'lish ehtimoli avg_edbir xil o'rtacha qiymatga ega bo'lganda .1775 gateng. X o'zgaruvchining (larning) o'rtacha va o'rtacha og'ishi natijaning pastki qismida berilgan.

Modellarni taqqoslash

Endi bizda ikkita o'zgaruvchiga ega bo'lgan model mavjud bo'lib, uning ichida faqat bitta o'zgaruvchiga ega modelga qaraganda "yaxshiroq" ekanligini so'rashimiz mumkin. Buning uchun biz ehtimollik nisbati testi uchun lrtestdeb nomlangan buyruqdanfoydalanamiz . Ushbu buyruqni ishlatish uchun siz avval taqqoslash uchun asos sifatida foydalanmoqchi bo'lgan modelni ishga tushirasiz (to'liq model). Keyinchalik, est storebuyrug'i yordamida taxminlarni nom bilan saqlaysiz. Keyin siz o'zingizning to'liq modelingiz bilan taqqoslashni xohlagan modelni ishga tushirasizva keyin to'liq model nomi bilan lrtestbuyrug'ini berasiz. Bizning misolimizda biz to'liq modelimizni full_model deb nomlaymiz. Buning natijasi, kamaytirilgan modeldan tashqarida qoldirilgan o'zgaruvchan (lar) ning koeffitsientlari bir vaqtning o'zida 0 ga teng bo'lishi haqidagi nol gipotezani tekshiradigan ehtimollik nisbati testidir. Boshqacha qilib aytganda, ushbu test uchun nol gipoteza o'zgaruvchan (lar) ning ta'siri yo'q; bu kambag'alroq mos keladigan modelga olib kelmaydi. Ushbu buyruq qanday ishlashini ko'rsatish uchun keling, ikkalasini ham avg_edva yr_rnd(to'liq model) bilan modelni faqat uningichida avg_ed(qisqartirilgan model) bilan taqqoslaylik.

Xi kvadrat statistikasi 11.40 ga teng, bu statistik ahamiyatga ega. Bu shuni anglatadiki, qisqartirilgan modelni ishlab chiqarish uchun olib tashlangan o'zgaruvchining natijasi sezilarli darajada yomonroq bo'lgan modelga olib keldi va shuning uchun o'zgaruvchan modelga kiritilishi kerak. Keling, bir oz vaqtni ishlatib, yuqorida ko'rsatilgan kodga bir nechta sharhlar beramiz. Ikkinchi logit uchun (qisqartirilgan model uchun), agarbiz Stata faqat birinchi modelga kiritilgan holatlardan foydalanishni tavsiya qiladigan bo'lsa, e (sample)qo'shdik . Agar qisqartirilgan modelni yaratish uchun to'liq modeldan tushirilgan o'zgaruvchilardan biri haqida ma'lumot etishmayotgan bo'lsa, qisqartirilgan modelda ko'proq holatlar qo'llanilgan bo'lar edi. Ikkala modelda ham xuddi shu holatlarning ishlatilishi juda muhimdir, chunki lrtesthar bir modelda bir xil holatlar ishlatilishini taxmin qiladi. Lrtestbuyrug'ining oxiridagi nuqta (.) Ni kiritishshart emas, lekin biz tekshirilayotgan narsa haqida aniq bo'lishi uchun uni kiritdik. Stata modelni "nomlaydi". agar siz uni aniq nomlamagan bo'lsangiz.

Bizning so'nggi misolimiz uchun tasavvur qiling-a, unda sizda ko'plab bashoratchilar mavjud bo'lgan model mavjud. Siz bir vaqtning o'zida bitta o'zgaruvchini yoki bir vaqtning o'zida o'zgaruvchilar guruhini tashlab, modelning ko'plab o'zgarishlarini ishlatishingiz mumkin. Har safar modelni ishga tushirishda siz est storebuyrug'idan foydalanasiz va har bir modelga o'z nomingizni berasiz. Quyida mini-misolni sinab ko'ramiz.

Ushbu natijalar shuni ko'rsatadiki, vmodelini yaratish uchun to'liq modeldan tushgan o'zgaruvchilar tushib qolmasligi kerak (LR chi2 (2) = 14.08, p = 0.0009). Ikkinchi lrtestnatijalari o'xshash; o'zgaruvchilar tashlanmasligi kerak. Boshqacha qilib aytganda, to'liq model afzalroq ko'rinadi.

Shuni esda tutishimiz kerakki, ichki modellarni sinab ko'rish har bir model bir xil namunada, boshqacha aytganda aynan bir xil kuzatuvlarda ishlashini taxmin qiladi. Ehtimollar nisbati testi aks holda haqiqiy emas. Agar bir yoki bir nechta o'zgaruvchiga oid ma'lumotlar etishmayotgan bo'lsa, siz har bir modelda bir xil kuzatuvlarga ega bo'lmasligingiz mumkin. Bunday holda siz barcha modellarni faqat barcha modellar uchun mavjud bo'lgan kuzatuvlarda ishlatishni xohlashingiz mumkin (eng kam kuzatuvlar soni bo'lgan model).

Namuna hajmi haqida eslatma

Ushbu bobda bir necha bor ta'kidlaganimizdek, logistik regressiya koeffitsientlarning taxminlarini olish uchun maksimal ehtimoldan foydalanadi. Namunaning kattalashishi bilan maksimal ehtimollikning ko'plab kerakli xususiyatlari topiladi. Namunaning kichik o'lchamlari bilan maksimal ehtimollik harakati yaxshi tushunilmagan. Long (1997 y., 53-54 betlar) ga binoan, 100 eng kam miqdordagi namunadir va siz taxmin qilish uchun * kamida * 10 ta kuzatishni xohlaysiz. Agar sizda bitta bashoratchi bo'lsa, sizga 10 ta kuzatuv kerak degani emas. Agar sizda kategoriyali bashorat qiluvchilar bo'lsa, bo'sh hujayralar tufayli yuzaga keladigan hisoblashda qiyinchiliklarga duch kelmaslik uchun ko'proq kuzatuvlar qilishingiz kerak bo'lishi mumkin. Agar qaram o'zgaruvchisi juda aylantirilsa, ko'proq kuzatuvlar zarur; boshqacha qilib aytganda, 1 juda kam va 0 ko'p bo'lsa yoki aksincha bo'lsa.Ushbu veb-kitobning 3-bobida ko'p satrlilik haqida bahs yuritilgan. Agar u mavjud bo'lsa, sizga kattaroq namuna hajmi kerak bo'ladi.

Xulosa

Biz ushbu bobda juda ozgina materiallarni qamrab olganimizni tushunamiz. Bizning asosiy maqsadlarimiz 1) OLS regressiyasi va logistik regressiya o'rtasidagi o'xshashlik va farqlar hamda 2) Stata logitva logistikabuyruqlaridan chiqishni qanday izohlash haqida xabardor qilish edi . Hozirgacha olib borgan logistika regressiyalarida ikkala dixotomik va doimiy mustaqil o'zgaruvchidan foydalandik. OLS regressiyasida bo'lgani kabi, kategorik o'zgaruvchilar ham keyingi bobda ularga alohida e'tibor berishni talab qiladi.

Onlayn kazino
O'yin -kulgi avtomatlari
Onlaynkazino

Bizning yangiliklarimizga obuna bo'lish orqali birinchi eksklyuziv taklifni oling va eng yaxshi onlayn kazinolarda har kungi ajoyib chegirmalarimizdan foydalaning!