Transcript
TERMINOLOGIA
Przypadki i zmienne: Przypadki są odpowiednikami rekordów w bazach danych lub wierszy w arkuszach kalkulacyjnych. Zmienne są zaś odpowiednikami pól lub kolumn. Każdy przypadek jest zbiorem wartości zmiennych.
TERMINOLOGIA
PRZYPADEK
ZMIENNA
ETAPY ANALIZY STATYSTYCZNEJ
WYNIKI
POPULACJA
PRÓBKA OBLICZENIA
POMIARY
ANALIZA
ETAPY ANALIZY STATYSTYCZNEJ
WYNIKI
POPULACJA
PRÓBKA OBLICZENIA
POMIARY
ANALIZA
PRÓBKA WYBÓR PRÓBKI: Próbka wybrana do badania musi być odpowiednia
Wybór próbki jest kluczowy etapem z punktu widzenia wiarygodności końcowych wyników
DOBRZE POBRANA PRÓBKA JEST REPREZENTATYWNA!!!
REPREZENTATYWNOŚĆ PRÓBKI Próbka reprezentatywna: w dobry sposób odzwierciedla populację, z której została pobrana
Dla zapewnienia reprezentatywności konieczna jest odpowiednia liczebność próbki. Im większa próbka, tym bardziej wiarygodne wyniki. Uwaga! Liczności nie można zwiększać w nieskończoność (koszty analiz!). Należy szukać optimum pomiędzy kosztami a wiarygodnością wyników.
Liczebność próby Przeprowadzając badania z populacji generalnej pobieramy próbę:
n 100 n 30 10 n < 30 n < 10
próba b. duża próba duża próba mała próba b. mała
RODZAJE DANYCH Dana: każda informacja opisująca badane zjawisko/obiekt
Typy danych: dane kategorialne (uzyskiwane przy ocenie metodą alternatywną) dane liczbowe (pochodzące z pomiarów)
RODZAJE DANYCH Typy danych: dane kategorialne Uzyskuje się je w przypadkach: dzielenia (klasyfikowania) przedmiotów na kategorie zliczania liczby przedmiotów w danych kategoriach zliczania proporcji przedmiotów zliczania liczby braków/obecności
RODZAJE DANYCH
Typy danych: dane kategorialne Są one często wykorzystywane w praktyce, bo do ich zebrania zazwyczaj nie potrzeba skomplikowanych i dokładnych urządzeń pomiarowych. Przykład: klasyfikacja czystości wody, stwierdzanie braku/obecności danego gatunku ryby w jeziorze
RODZAJE DANYCH Typy danych: dane kategorialne
Zwykle stosuje się 2 kategorie: brak i obecność. Można jednak stosować więcej kategorii, które odzwierciedlać będą jakość.
Przykład: klasy czystości wód I, II, III. Klasa Inajwyższej jakości, klasa III- najgorszej.
RODZAJE DANYCH Typy danych: dane kategorialne Zalety: prostota czytelność otrzymanych wyników Wady: nieprecyzyjność
RODZAJE DANYCH Typy danych: dane liczbowe
Uzyskuje się je w przypadkach: pomiarów cechy obiektu badań przeliczania numerycznych wartości z dwóch lub więcej pomiarów liczbowych Wymóg: korzystanie z urządzeń pomiarowych
PREZENTOWANIE DANYCH Najprostszy sposób: spisywanie w rzędzie np.: 5,6,9,11,6,7,7,6,5,9,7,8,7,6,7,8,4,8,7,8,10,10,9,7,8,... Ten zapis jest nieczytelny i mało użyteczny
PREZENTOWANIE DANYCH
Użyteczne metody prezentacji danych: tabela częstości wystąpień (liczności) histogram
wykres punktowy
PREZENTOWANIE DANYCH Tabela częstości wystąpień Wartość danej
Wystąpienie danej
Liczba wystąpień
3
0
4
2
5
3
6
5
7
1
PREZENTOWANIE DANYCH Tabela częstości wystąpień Z tabeli takiej można łatwo odczytać:
ile pomiarów o danej wartości zarejestrowano która wartość powtarzała się najczęściej w jakim zakresie pojawiają się dane (minimum i maksimum)
PREZENTOWANIE DANYCH Histogram
Jest pewnym rozwinięciem tabeli liczności. Szczególnie przydatny do prezentowania dużej ilości danych liczbowych i kategorialnych.
PREZENTOWANIE DANYCH Histogram 31,820
33,100
33,780
34,650
34,870
35,530
36,750
32,010
33,120
33,790
34,690
34,880
35,620
36,680
32,010
33,260
33,790
34,690
34,900
35,780
36,780
32,050
33,260
33,790
34,720
34,920
35,790
36,850
32,230
33,280
33,820
34,720
34,960
35,860
38,520
32,600
33,300
33,820
34,810
35,090
36,120
32,950
33,360
33,860
34,810
35,120
36,250
33,030
33,540
33,950
34,810
35,160
36,560
33,050
33,560
34,210
34,860
35,280
36,560
33,060
33,750
34,220
34,870
35,290
36,590
PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu:
1. Posortowanie danych w porządku od najmniejszej do największej: nasze dane są już tak ustawione 2. Wyznaczenie wartości najmniejszej i największej: w naszym zbiorze wartość najmniejsze xmin=31,820, wartość największa xmax=38,520
PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 3. Obliczenie szerokości zakresu, w jakim pojawiają się dane (rozstępu): R=xmax-xmin=38,520-31,820=6,7 4. Wyznaczenie liczby przedziałów: ilość przedziałów= pierwiastek(ilość pomiarów) =pierwiastek(65)=8,068 UWAGA! Zasady tej nie stosujemy przy dużej liczbie pomiarów (>100). Zasadniczo liczba przedziałów powinna się mieścić w przedziale <6,12>
PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 5. Ustalenie szerokości przedziałów: szerokość przedziału=rozstęp/l-ba przedziałów =6,7/8=0,831 Otrzymaną wartość zaokrąglamy w taki sposób, aby narysowany histogram był jak najbardziej czytelny (tutaj do wartości 1)
PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 6. Rozpisanie przedziałów i obliczenie, ile w każdym z nich znajduje się wyników: Przedział wartości
Ilość wyników w przedziale
(31,32]
1
(32,33]
6
(33,34]
21
(34,35]
17
(35,36]
10
(36,37]
9
(37,38]
0
(38,39]
1
PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 6. Narysowanie wykresu: w zależności od liczby wyników w poszczególnych przedziałach, rysuje się odpowiednią wysokość słupka.
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH Histogram
Ilość wystąpień
.
25
20
15
10
5
0 (31,32]
(32,33]
(33,34]
(34,35]
(35,36]
Przedział
(36,37]
(37,38]
(38,39]
Typy rozkładów (histogramów)
Typy rozkładów (histogramów)
Amodalny = skrajnie asymetryczny
Typy rozkładów (histogramów)
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH Wykres punktowy Tabela Uziarnienie w zależności od obrotów młyna. Pomiary w próbce
Obroty młyna [obr/min] 1415
1430
1445
1460
1480
1
32,76
33,37
36,54
36,20
36,74
2
32,72
33,11
35,11
36,58
36,40
3
32,70
33,15
36,02
35,24
36,43
4
32,69
33,25
35,59
36,14
36,72
5
32,67
33,20
36,03
35,52
36,55
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36
Uziarnienie
35.5 35 34.5 34 33.5 33 32.5 32 1410
1420
1430
1440
1450
1460
1470
1480
1490
Obroty [obr/min]
Rys. Wykres punktowy zależności pomiędzy uziarnieniem a obrotami młyna.
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36
Uziarnienie
35.5 35 34.5 34 33.5 33 32.5 32 1410
1420
1430
1440
1450
1460
1470
1480
1490
Obroty [obr/min]
im większe obroty młyna tym większe uziarnienie
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36
Uziarnienie
35.5 35 34.5 34 33.5 33 32.5 32 1410
1420
1430
1440
1450
1460
1470
1480
1490
Obroty [obr/min]
Przy obrotach 1450 i 1460 największa zmienność uziarnienia
PODSTAWY – DANE I ICH PREZENTACJA
PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36
Uziarnienie
35.5 35 34.5 34 33.5 33 32.5 32 1410
1420
1430
1440
1450
1460
1470
1480
1490
Obroty [obr/min]
uziarnienie najbardziej jednorodne przy 1415 obrotach na min
STATYSTYKI OPISOWE Miary położenia: średnia arytmetyczna- przeciętna w próbie; inaczej: wartość oczekiwana x1 x2 ... xn 1 n xśr xi n n i 1
rzadko wykorzystywane: średnia geometryczna, średnia harmoniczna, średnia ważona
STATYSTYKI OPISOWE Miary położenia: mediana: wartość środkowa w ciągu danych; wartość, która dzieli wyniki próby na dwie części takie, że przynajmniej połowa próby ma wynik mniejszy niż mediana moda (dominanta): wartość występująca najczęściej w zbiorze danych
STATYSTYKI OPISOWE Miary zmienności (pokazują rozproszenie wyników) wariancja- zróżnicowanie wyników, de facto jest ona równa kwadratowi odchylenia standardowego n 1 2 ( xi xśr ) 2 n i 1
odchylenie standardowe- przeciętna różnica między średnią a poszczególnymi wynikami
2
UWAGA! Powyższe wzory obowiązują, pod warunkiem, że mamy możliwość zbadania całej populacji, co jest PRAWIE NIGDY SPEŁNIONE
STATYSTYKI OPISOWE
Miary zmienności (pokazują rozproszenie wyników) Ponieważ opisujemy rozkład opierając się jedynie na pewnej próbce wyników, pobranej z populacji, stosuje się estymator:
1 n 2 s ( x x ) i śr n 1 i 1