Preview only show first 10 pages with watermark. For full document please download

Regresja Wielokrotna

   EMBED


Share

Transcript

Dzisiaj na wykładzie •Regresja wieloraka – podstawy i założenia •Przykładowe oblicznia w Statistica •Weryfikacja założeń w Statistica •Zadanie Regresja wieloraka Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi) Typowe zadanie Jak przewidzieć odsetek upadków zwierząt przy transporcie? Jakie zmienne związane są z upadkami zwierząt? Co decyduje o upadkach zwierząt? Które z nich są najważniejsze i w jakim stopniu są powiązane ze stratami zwierząt? regresja pierwszego rzędu y = a + b1x1 + b2x2 + b3x3 + ... + e drugiego rzędu y = a + b1x1 + b2x2x2 + ... y = a + b1x1 + b2x2 + b3x2x3 + Dlaczego te regresje są liniowe? y = a + b1x1 + b2x2 + b3x3 + ... + e a to wyraz wolny. Średnia? b1, b2, b3 – cząstkowe współczynniki regresji to niezależne wkłady każdej ze zmiennych objaśniających Dlaczego cząstkowe? Współczynniki cząstkowe obrazują zależności po uwzględnieniu pozostałych czynników. przykład: długość włosów i wzrost Jak je oszacować? Jak wyznaczyć prostą regresji •metoda najmniejszych kwadratów •metoda najmniejszych kwadratów ważonych •metoda najmniejszych reszt bezwględnych Metoda najmniejszych kwadratów Wy kr. rozrzutu: upadki (%) wzgldy stans (km) dy stans (km) = 1,4419 + 15,277 * upadki (%) Korelacja: r = ,91987 120 110 100 90 80 70 60 dystans (km) 50 40 30 20 1 2 3 4 5 upadki (%) 6 7 8 95% p.uf ności R-kwadrat czyli współczynnik determinacji • Mówi o jakości przewidywania • R2=30% znaczy 30% wariancji opisane przez zmienne opisujące i 70% wciąż nie opisane (błędy) R-kwadrat R-kwadrat = 1 - SSE / SST • SSE - suma kwadratów reszt • SST - suma kwadratów obserwacji R-kwadrat skorygowane R-kwadrat zależy od liczby zmiennych objaśniających! Im więcej zmiennych tym większy. • R-kwadrat skorygowane NIE zależy od liczby zmiennych objaśniających • Porównując dwa modelu o różnej liczbie zmiennych patrz na R-kwadrat skorygowane R czyli korelacja • R to pierwiastek z R-kwadrat. Tylko dodatni ( 0 - 1 ) !!! • wskazuje na stopień powiązania zmiennych Zależność między zmiennymi jest liniowa • Trudne do sprawdzenia • Małe odstępstwa niegroźne • Liniowość oceniamy na oko – wykresy rozrzutu • Co jeżeli zależność nie jest liniowa? – transformacja danych – regresja nieliniowa Regresja mówi o współwystępowaniu zjawisk, a nie o przyczynach i skutkach! Regresja liczby kradzieży na liczbę policjantów jest dodatnia! Zwodnicza regresja Jeżeli w modelu umieścisz dużą liczbę zmiennych objaśniających część z nich na pewno będzie istotna. Im więcej danych tym mniej złudne są wyniki. Ile? Reszty mają rozkład normalny • Ważne przy testowaniu, nie przy szacowaniu • Stosujemy histogramy reszt i wykresy normalności reszt • Niewielkie odchylenia nie są groźne • Dobry model daje duży R-kwadrat i normalność reszt. Czy taki potrafimy znaleźć? Nadmiarowość danych • % upadków przy transporcie tak samo dobrze opisuje liczba przejechanych kilometrów jak i dystans do ubojni (to to samo) • Statistica daje sygnał o „złym uwarunkowaniu macierzy”, ale nie zawsze. Odstające obserwacje Znacznie przekłamują oszacowania. Najczęściej to błędy powstałe przy wpisywaniu danych. Najlepiej usunąć je przed analizą regresji. Przykładowe dane Analiza bez interakcji z wieloma zmiennymi objaśniającymi ciągłymi Który model jest najlepszy? • Ten z max. R-kwadrat? Im szerszy model tym większy wsp. determ. • Lepiej stosować statystykę Fj SSEj / MSE Jak wyznaczyć najlepszy model? • Najlepiej rozpatrywać każdy model z osobna (Statistica tego nie ułatwia). • Jeżeli więcej zmiennych kandydujących to korzystamy z regresji krokowej – wstecznej – postępującej R. krokowa postępująca 1. Najprostszy model – tylko wyraz wolny 2. Testujemy każdy z osobna, i dodajemy do modelu zmienną, której F>Fwprow. 3. Kontynuujemy - wprowadzamy następne zmienne i usuwamy te, dla których F