Transcript
Dzisiaj na wykładzie •Regresja wieloraka – podstawy i założenia
•Przykładowe oblicznia w Statistica •Weryfikacja założeń w Statistica
•Zadanie
Regresja wieloraka Bada związki między zmienną objaśnianą (zależną) i zmiennymi objaśniającymi (niezależnymi)
Typowe zadanie
Jak przewidzieć odsetek upadków zwierząt przy transporcie? Jakie zmienne związane są z upadkami zwierząt? Co decyduje o upadkach zwierząt? Które z nich są najważniejsze i w jakim stopniu są powiązane ze stratami zwierząt?
regresja pierwszego rzędu y = a + b1x1 + b2x2 + b3x3 + ... + e drugiego rzędu y = a + b1x1 + b2x2x2 + ...
y = a + b1x1 + b2x2 + b3x2x3 + Dlaczego te regresje są liniowe?
y = a + b1x1 + b2x2 + b3x3 + ... + e
a to wyraz wolny. Średnia? b1, b2, b3 – cząstkowe współczynniki regresji to niezależne wkłady każdej ze zmiennych objaśniających Dlaczego cząstkowe?
Współczynniki cząstkowe obrazują zależności po uwzględnieniu pozostałych czynników. przykład: długość włosów i wzrost
Jak je oszacować?
Jak wyznaczyć prostą regresji •metoda najmniejszych kwadratów •metoda najmniejszych kwadratów ważonych •metoda najmniejszych reszt bezwględnych
Metoda najmniejszych kwadratów Wy kr. rozrzutu: upadki (%) wzgldy stans (km) dy stans (km) = 1,4419 + 15,277 * upadki (%) Korelacja: r =
,91987
120 110 100 90 80 70 60
dystans (km)
50 40 30 20 1
2
3
4
5 upadki (%)
6
7
8
95% p.uf ności
R-kwadrat czyli współczynnik determinacji • Mówi o jakości przewidywania
• R2=30% znaczy 30% wariancji opisane przez zmienne opisujące i 70% wciąż nie opisane (błędy)
R-kwadrat R-kwadrat = 1 - SSE / SST • SSE - suma kwadratów reszt • SST - suma kwadratów obserwacji
R-kwadrat skorygowane R-kwadrat zależy od liczby zmiennych objaśniających! Im więcej zmiennych tym większy. • R-kwadrat skorygowane NIE zależy od liczby zmiennych objaśniających • Porównując dwa modelu o różnej liczbie zmiennych patrz na R-kwadrat skorygowane
R czyli korelacja • R to pierwiastek z R-kwadrat. Tylko dodatni ( 0 - 1 ) !!! • wskazuje na stopień powiązania zmiennych
Zależność między zmiennymi jest liniowa • Trudne do sprawdzenia • Małe odstępstwa niegroźne • Liniowość oceniamy na oko – wykresy rozrzutu • Co jeżeli zależność nie jest liniowa? – transformacja danych – regresja nieliniowa
Regresja mówi o współwystępowaniu zjawisk, a nie o przyczynach i skutkach! Regresja liczby kradzieży na liczbę policjantów jest dodatnia!
Zwodnicza regresja Jeżeli w modelu umieścisz dużą liczbę zmiennych objaśniających część z nich na pewno będzie istotna. Im więcej danych tym mniej złudne są wyniki. Ile?
Reszty mają rozkład normalny • Ważne przy testowaniu, nie przy szacowaniu • Stosujemy histogramy reszt i wykresy normalności reszt • Niewielkie odchylenia nie są groźne • Dobry model daje duży R-kwadrat i normalność reszt. Czy taki potrafimy znaleźć?
Nadmiarowość danych • % upadków przy transporcie tak samo dobrze opisuje liczba przejechanych kilometrów jak i dystans do ubojni (to to samo) • Statistica daje sygnał o „złym uwarunkowaniu macierzy”, ale nie zawsze.
Odstające obserwacje Znacznie przekłamują oszacowania. Najczęściej to błędy powstałe przy wpisywaniu danych. Najlepiej usunąć je przed analizą regresji.
Przykładowe dane
Analiza bez interakcji z wieloma zmiennymi objaśniającymi ciągłymi
Który model jest najlepszy? • Ten z max. R-kwadrat? Im szerszy model tym większy wsp. determ. • Lepiej stosować statystykę Fj SSEj / MSE
Jak wyznaczyć najlepszy model? • Najlepiej rozpatrywać każdy model z osobna (Statistica tego nie ułatwia).
• Jeżeli więcej zmiennych kandydujących to korzystamy z regresji krokowej – wstecznej – postępującej
R. krokowa postępująca 1. Najprostszy model – tylko wyraz wolny 2. Testujemy każdy z osobna, i dodajemy do modelu zmienną, której F>Fwprow. 3. Kontynuujemy - wprowadzamy następne zmienne i usuwamy te, dla których F