Preview only show first 10 pages with watermark. For full document please download

Otanta-aineistojen Analyysi (78136, 78405) Kevät 2010 Teema 4: Asetelmaperusteinen Monimuuttuja-analyysi

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi Risto Lehtonen Analyysimenetelmiä ja työaluja Lineaariset mallit Regressioanalyysi

   EMBED

  • Rating

  • Date

    June 2018
  • Size

    286.3KB
  • Views

    1,372
  • Categories


Share

Transcript

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi Risto Lehtonen Analyysimenetelmiä ja työaluja Lineaariset mallit Regressioanalyysi Varianssianalyysi ANOVA (Analysis of Variance) Kovarianssianalyysi ANCOVA Yleistetyt lineaariset mallit Logistiset mallit Poisson-mallit YHTEENVETOTAULUKKO Risto Lehtonen 2 1 ESIMERKKI Moniulotteisten frevenssitaulujen analyysi Asetelmaperusteinen logit-anova Moniulotteinen i frevenssitaulu Usean muuttujan avulla muodostettu moniulotteinen frevenssitaulu: Epäsymmetrinen tilanne Ysi disreetti tulosmuuttuja - Binäärinen (0 / 1) - Moniluoainen i ( 2 luoaa) Useita disreettejä selittäjiä Tulosmuuttujan ja selittäjien riippuvuusraenteen mallintaminen logististen mallien avulla Risto Lehtonen 3 Asetelmaperusteinen analyysi logitmalleilla SAS-proseduuri SURVEYLOGISTIC Logistinen malli: Yleistettyjen lineaaristen mallien perheen jäsen Generalized linear models Binäärinen (0 / 1) tulosmuuttuja Moniluoainen tulosmuuttuja - Nominaalinen (laatueroasteio) (A / B / C / ) - Odi Ordinaalinen (jäj (järjestysasteio) )(1/2/3/ / / ) Otanta-asetelman ominaisuudet Ositus STRATA-lause Ryvästys CLUSTER-lause Painotus WEIGHT-lause Risto Lehtonen 4 2 Logit-ANOVA-mallit Logit-ANOVA-mallit Ysinertaisin tilanne Binäärinen (0/1) tulosmuuttuja ESIMERKKI: OHC-aineisto Tulosmuuttuja y: PSYCH2 1 - esimääräistä vaavampi psyyinen rasittuneisuus 0 - esimääräistä lievempi psyyinen rasittuneisuus Risto Lehtonen 5 Logit-ANOVA-mallit Disreetit selittäjät (x-muuttujat): Suupuoli SEX (M/F) Iä AGE2 (-44/45-) Työn fysiaaliset haitat PHYS (0/1) Table 8.2 Lehtonen&Pahinen (2004) Tauluossa on 8 osajouoa Tavoite: Tutitaan, missä määrin ja miten tulosmuuttujan tt PSYCH2 osuudet vaihtelevat t selittäjämuuttujien muaan Table 8.4 Lehtonen and Pahinen (2004) Tuloset Risto Lehtonen 6 3 OHC-survey: Frevenssiaineisto (Lehtonen&Pahinen 2004) Logit-ANOVA Table 8.2 Proportion p of persons in the upper psychic strain group, with standard error estimates s.e and design-effect estimates deff of the proportions, and domain sample sizes n and the number of sample clusters m (the OHC Survey). Domain SEX AGE PHYS p s.e deff n m 1 Males Females All Risto Lehtonen 7 Risto Lehtonen 8 4 Tilastollinen malli Logitmalli (logistinen malli) Tulosmuuttuja y aliolle y : y = 1 jos tutittava ilmiö tapahtuu y = 0 muulloin Tilastollinen malli: exp( x β) Em( y) = P{ y = 1} = 1+ exp( x β) missä x = (1, x1,..., x p) on selittävien muuttujien arvojen vetori aliolle = 0 1 β ( β, β,..., β ) on estimoitavien parametrien vetori p Risto Lehtonen 9 Tilastollinen malli Logitmalli (logistinen malli) Logitmalli Vaihtoehtoinen muoto Ysinertainen tilanne: Ysi selittävä muuttuja x y logit( y ) = log = x β = β + β x y missä β 0 on mallin vaiotermi (intercept) β on ulmaerroin (slope) 1 Risto Lehtonen 10 5 ESIMERKKI Kiinteiden teijöiden logitmalli y logit( y) = log = x β = β0 + β1x1 1 y missä β 0 on mallin iinteä vaiotermi (intercept) β on ulmaerroin (slope) 1 Monitasomalli (seamalli) y logit( y u) = log = β0 + u0d + β1x1 1 y missä u 0d on satunnainen vaiotermi (random intercept) Risto Lehtonen 11 Logitmallin parametrien asetelmaperusteinen estimointi GWLS-estimointi ei-iteratiivinen menetelmä Painotettu PNS Generalized weighted least squares PML-estimointi yleisimmin äytetty menetelmä Pseudo-usottavuus Pseudo maximum lielihood Iteratiivinen menetelmä SAS/SURVEYLOGISTIC, GENMOD, ym. Risto Lehtonen 12 6 Logitmallin parametrien asetelmaperusteinen estimointi GEE-estimointi vaihtoehto PML- menetelmälle Yleistetyt estimointiyhtälöt Generalized estimating equations SAS/GENMOD (malliperusteinen) Risto Lehtonen 13 Asetelmaperusteinen Waldin testisuure ˆ 2 β 2 j Χ des( β j ) =, j = 1,..., p + 1 ( ˆ β ) v des j 2 joa on asymptoottisesti χ -jaautunut vapausastein df=1 Termi ˆj β on estimoitu logit-regressioerroin (esim. PML) Termi v ( βˆ ) on asetelmaperusteisesti estimoitu varianssi des j (esim. linearisointimenetelmä, jacnife, bootstrap) βˆ β j Vastaava t-testisuure t des( β j ) = s.e ( ˆ des β j ) on Waldin testisuureen merinen neliöjuuri Risto Lehtonen 14 7 Logit ANOVA: Teninen tarastelu Logitmallin parametrien estimointimenetelmät GWLS PML GEE Lasentatyöalut SAS / IML SAS / SURVEYLOGISTIC EXAMPLE 8.1 (Lehtonen-Pahinen 2004) Diat 5b Risto Lehtonen 15 Logit ANOVA, tilastometodinen uvaus Lehtonen&Pahinen (2004) 8.3 ANALYSIS OF CATEGORICAL DATA Design-based GWLS Estimation Goodness of Fit and Related Tests Unstable Situations Residual Analysis Design Effect Estimation Example 8.1 Risto Lehtonen 16 8 Logit ANCOVA, tilastometodinen uvaus Lehtonen&Pahinen (2004) 8.4 LOGISTIC AND LINEAR REGRESSION Design-based and Binomial PML Methods Logistic Regression Example 8.2 Risto Lehtonen 17 ESIMERKKI Lehtonen&Pahinen (2004) Example 8.2 Asetelmaperusteinen logistinen ANCOVA OHC Survey Ositettu ryväsotanta-asetelma H= 5 ositetta m= 250 toimipaiaa (otosryvästä) n = 7841 otoshenilöä Risto Lehtonen 18 9 Asetelmaperusteinen logistinen ANCOVA Binäärinen tulosmuuttuja: PSYCH2 Psyyinen rasittuneisuus 0: Lievä (alle mediaanin) 1: Vaava (yli mediaanin) Disreetti selittäjä Suupuoli SEX (M/F) Jatuva selittäjä Iä AGE (vuosina) Binääriset selittäjät Työn fysiaaliset haitat: PHYS (0/1) Pitäaiaissairastavuus: CHRON (0/1) Risto Lehtonen 19 Tilastollinen malli Logit-ANCOVA-malli logit(p) = INTERCEPT + SEX + AGE + PHYS + CHRON + SEX*AGE + SEX*PHYS + SEX*CHRON missä P = Prob(Psych2 = 1 X) Tuntematon osuusparametri Todennäöisyys uulua vaavamman psyyisen rasittuneisuuden luoaan Risto Lehtonen 20 10 Tilastollinen malli Mallin parametrivetorin estimointi PML-estimointi Pseudolielihood SAS/SURVEYLOGISTIC Lopullinen redusoitu malli: logit(p) = INTERCEPT + SEX + AGE + PHYS + CHRON + SEX*AGE Risto Lehtonen 21 SAS Procedure SURVEYLOGISTIC proc surveylogistic data=ohc; strata stratum; cluster ryvas; class sex / param=ref; model psych2(event=last) = sex age phys chron sex*age / lin=logit rsquare; run; Risto Lehtonen 22 11 Lehtonen & Pahinen (2004) Table 8.8 Risto Lehtonen 23 Suhteellinen risi Odds Ratio OR Suupuoli-iävaioitu suhteellinen risi Odds Ratio, OR (asetelmaperusteinen 95% luottamusväli): OR(PHYS) = 1.32 (1.17, 1.48) OR(CHRON) = 1.76 (1.57, 1.97) Risto Lehtonen 24 12 Risto Lehtonen 25 VLISS Virtual Laboratory in Survey Sampling Practical Methods for Design and Analysis of Complex Surveys. Risto Lehtonen and Eri Pahinen TRAINING KEY 288: Logistic ANCOVA In Training Key 288, logistic analysis of covariance (ANCOVA) is demonstrated for a binary response variable and the results of Example 8.2 are reproduced. Pseudolielihood (PML) estimation is used for the OHC Survey data set, accounting for the sampling complexities. An option is provided for a detailed examination of the role of interaction effects in a logistic ANCOVA model Risto Lehtone 13