Transcript
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
02.06.2015
DATA
Co to jest Data Mining?
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
def 1 Proces zwi¡zany z odkrywaniem wzorców i relacji w ekstremalnie du»ych zbiorach danych.
dane Sample
Importowanie danych Sampling Partycjonowanie
def 2 Zbiór metod pozwalaj¡cych na automatyczne wykrywanie istotnych zale»no±ci i wzorców w bardzo du»ych zbiorach
Explore
danych, wraz z metodologi¡ prowadz¡c¡ od poznania danych,
Modify
do podj¦cia decyzji na podstawie przeprowadzonych analiz.
Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA
Co to jest Data Mining?
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Data Mining od lat 90 XX wieku jest pewnym standardem w
dane
instytucjach biznesowych z bran»: bankowo±ci, ubezpiecze«,
Sample
telekomunikacji, handlu, farmacji.
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DM jest stosowane jako wsparcie procesów decyzyjnych, zarówno przez
predykcyjne.
eksploracj¦ danych jak i modelowanie
DATA
Co to jest Data Mining?
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane
Problemy zwi¡zane z tymi dwoma gaª¦ziami:
Modelowanie predykcyjne: •
zrezygnuje z usªugi?)
•
Explore
Eksploracja danych: •
Drzewa Regresja logistyczna Sieci neuronowe Asses
Analiza powi¡za« (np. czy produkt X jest zwykle kupowany wraz z produktem Y?)
Modify Model
Predykcja (np. jaka jest warto±¢ nieruchomo±ci o danych parametrach?)
Sample
Importowanie danych Sampling Partycjonowanie
Klasykacja (np. czy klient o danych parametrach
•
Klasteryzacja (np. czy istniej¡ grupy klientów z podobnymi zachowaniami konsumenckimi?)
DATA
Co to jest Data Mining?
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W porównaniu z poszczególnymi metodami statystycznymi pojawiaj¡cymi si¦ wcze±niej na tym przedmiocie, Data Mining nie narzuca z góry jednej metody któr¡ nale»y u»y¢. Dopuszczanych jest wiele ró»nych metod statystycznych. W oparciu o te metody tworzone s¡ modele, które nast¦pnie s¡ porównywane jako±ciowo.
Przedstawianymi w tej prezentacji metodami s¡:
•
drzewa decyzyjne
•
regresja logistyczna
•
sieci neuronowe
DATA
Metodologie
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Aby skutecznie przeprowadzi¢ Data Mining, potrzebny jest logiczny plan dziaªania uwzgl¦dniaj¡cy wszystkie kroki konieczne
dane
do zrozumienia i rozwi¡zania problemu.
Sample
Najcz¦±ciej spotyka si¦ poni»sze dwie metodologie:
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
• •
CRISP-DM SEMMA (u»ywana w tej prezentacji)
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Cross Industry Standard Process for Data Mining
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Najcz¦±ciej u»ywana ogólna metodologia (nie w tej prezentacji).
DATA
SEMMA
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore
•
Sample
•
Explore
•
Modify
•
Model
•
Asses
SEMMA Metodologia opracowana przez SAS Institute, stworzona i
Modify
dopasowana do Data Mining w SAS Enterprise Miner.
Model
Jest to logicznie uporz¡dkowana lista kroków, zorganizowana
Drzewa Regresja logistyczna Sieci neuronowe Asses
pod k¡tem u»ywania kolejnych narz¦dzi w ±rodowisku Enterprise Miner.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Kilka sªów o SAS Enterprise Miner. Jest to produkt SAS Institute stworzony z my±l¡ o DATA MINING. Polega na budowie procesu DM na diagramie za pomoc¡ w¦zªów.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Opis danych Dane na których b¦dziemy pracowa¢ to dane demograczne, zebrane przez Ameryka«ski urz¡d statystyczny (census.gov) w roku 1994. Dane dotycz¡ dorosªych pracj¡cych ludzi.
DATA
Opis danych
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Zbiór zawiera 15 zmiennych. Ka»da obserwacja zawiera informacje dotycz¡ce jednej
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
ankietowanej osoby. Zmienne wyst¦puj¡ce w zbiorze to:
• •
dane
stanowy lub federalny), wªasna dziaªalno±¢ (praca w niej,
Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
age - wiek osoby (zm. numeryczna) workclass - rodzaj pracy: prywatny, rz¡dowy (lokalny, lub posiadanie)
• •
fnlwgt - zmienna wagowa (zm. numeryczna) education - najwy»szy zdobyty poziom edukacji: przedszkole, klasy 1
− 4,
klasy 5
− 6,
klasy 7
− 8,
klasa 9,
klasa 10, klasa 11, klasa 12, high-school, some-college (nie uko«czone studia) , associate-vocational, associate-academic (tytuª pracownika naukowego), bachelors, masters, professional schools, doctorate.
DATA
Opis danych
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
• Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner
education
•
Divorced, Separated, Widowed, Married-AF-spouse
dane
(maª»onek/maª»onka to osoba zwi¡zana z siªami
Sample
zbrojnymi), Married-spouse-absent (maª»onek/maª»onka
Importowanie danych Sampling Partycjonowanie
Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
marital_status - stan cywilny: Married-civ-spouse (maª»onek/maª»onka to osoba cywilna), Never-married,
Analizowane
Explore
education_num - numeryczny odpowiednik zmiennej
nieobecna)
•
occupation - zawód: Adm-clerical, Craft-repair, Exec-managerial, Farming-shing, Handlers-cleaners, Machine-op-insp, Other-service, Priva-house-serv, Prof-specialty, Protective-serv, Sales, Tech-support, Transport-moving
DATA
Opis danych
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
• Data Mining
Own-child, Unmarried, Other-relative
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner
•
Analizowane
•
dane Sample
Importowanie danych Sampling Partycjonowanie Explore
Drzewa Regresja logistyczna Sieci neuronowe Asses
race - rasa: White, Black, Asian/Pacic islander, American Indian/Eskimo, Other
• • •
sex - pªe¢: Female, Male capital_gain - wzrost kapitaªu (zm. numeryczna) capital_loss - strata kapitaªu (zm. numeryczna) hours_per_week - ilo±¢ godzin przepracowywanych w tygodniu
Modify Model
relationship - zwi¡zek: Husband, Wife, Not-in-family,
• •
native_country - kraj pochodzenia (42 kraje) y : 1 = dana osoba osi¡gn¦ªa roczny dochód > 50 000 $, 0 = dana osoba osi¡gn¦ªa dochód poni»ej 50 000 $.
DATA
Opis danych
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Zbiór danych posiada ª¡cznie okoªo 32000 obserwacji. Zmienna Y jest zmienn¡ zale»n¡ - szuka¢ b¦dziemy najlepszego
dane
modelu, który b¦dzie ocenia¢ czy roczny dochód osoby o
Sample
zadanych, przez zmienne niezale»ne cechach przekroczy próg 50
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
000$. Model wyja±nia¢ b¦dzie tak»e, które z cech najbardziej wpªywaj¡ na przekroczenie tego progu.
DATA
Sampling
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane
Sampling jest pierwszym etapem metodyki SEMMA i skªada si¦ z trzech etapów
•
Importowanie danych(Input Data Source)
•
Dobór próby(Sampling)
•
Partycjonowanie(Data Partition)
Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA
Importowanie danych
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner
Ten w¦zeª mo»e wykonywa¢ nast¦puj¡ce dziaªania
•
2000 obserwacji. W przypadku danych maj¡cych mniej niz
Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Dla ka»dej zmiennej tworzy metadane pobieraj¡c losowo 2000 obserwacji SAS wykorzystuje wszystkie dane
•
Na podstawie metadanych sprawdza poziom zmiennych oraz ich granice
•
Tworzy statystyki opisowe dla ka»dych zmiennych(na podstawie pobranych metadanych)
DATA
Sampling
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane
Ten w¦zeª jest opcjonalny w tym etapie, warto go stosowa¢ przy du»ych zbiorach danych. Sampling polega na doborze próby z wi¦kszego zbioru w taki sposób, aby dobór próby byª reprezentatywny. Mo»na tego dokona¢ na kilka sposobów:
• •
prawdopodobie«stwo zostania wylosowanej.
Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
N pierwszych Losowanie zwykªe Ka»da obserwacja ma to samo
•
Losowanie warstwowe Losowanie to ma nast¦puj¡ce kryteria
Proporcjonalne Udziaª obserwacji na ka»dej z warstw b¦dzie taki sam w populacji • Równe W¦zeª losuje t¡ sam¡ liczb¦ obserwacji z ka»dej z warstw. • Optymalne Udziaª obserwacji na warstwach jak i
•
wariancja b¦d¡ takie same jak w populacji
DATA
Partycjonowanie
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane
Partycjonowanie polega na podziale zbioru na 3 cz¦±ci:
•
by¢ liczebno±ci 50%-70% próby wej±ciowej
•
Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Walidacyjna- Wykorzystuje si¦ j¡ do porównywania skuteczno±ci modeli
Sample
Importowanie danych Sampling Partycjonowanie
Ucz¡cy - Sªu»y do zbudowania modelu. Próba powinna
•
Testowa- Sprawdza si¦ w niej ostateczn¡ ocen¦ modelu wybranego w zbiorze walidacyjnym
Ten etap jest bardzo podobny do samplingu, gdy» dzielimy nasz zbiór przez dobór próby, który mo»emy zrobi¢ na te same sposoby co w sampilngu
DATA MINING G. Jaªocha
Partycjonowanie
A. Pomykaªa B. Szymecki K. Zera
W przypadku zagadnie« klasykacyjnych, stosuje si¦ podziaª zachowuj¡cy rozkªad zmiennej obja±nianej we wszystkich
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
zbiorach. Je»eli mamy wybran¡ zmienn¡ celu(obja±nian¡) to wybieramy domy±ln¡ metod¦ partycjonowania:
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA
Eksploracja danych
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane
W etapie eksploracji, b¦dziemy stara¢ si¦ "zrozumie¢" dane. Bada¢ b¦dziemy rozkªady poszczególnych zmiennych oraz ich statystyki opisowe, a tak»e analizowa¢ zale»no±ci wyst¦puj¡ce mi¦dzy nimi. Sprawdzona zostanie kompletno±¢ danych (braki danych), a tak»e czy w zbiorze nie ma obserwacji odstaj¡cych (bª¦dy w danych).
Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Po otwarciu diagramu, górny pasek narz¦dzi zawiera w¦zªy pogrupowane pod k¡tem kolejnych kroków wprowadzonej metodologii. W tym kroku prezentacji gªównym w¦zªem b¦dzie wezeª o nazwie " rozbudowania.
Eksploracja statystyk" z powodu jego
DATA MINING G. Jaªocha
Eksploracja statystyk "StatExplore"
A. Pomykaªa B. Szymecki K. Zera
W¦zeª ten umo»liwia obliczenie podstawowych statystyk Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
opisowych oraz wst¦pn¡ analiz¦ wspóªzale»no±ci zmiennych. Aby badane korelacje pomi¦dzy zmienn¡ zale»n¡ a zmiennymi niezale»nymi obliczane byªy jedn¡ metod¡, nale»y umo»liwi¢ obliczenie statystyk Chi-kwadrat równie» dla zmiennych ci¡gªych (przedziaªowych)
DATA MINING G. Jaªocha
Eksploracja statystyk "StatExplore"
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Umo»liwi to zastosowanie
wspóªczynnika V Cramera,
przyjmuj¡cego warto±ci od 0 do 1. Wspóªczynnik ten jest unormowan¡ miar¡ wspóªzale»no±ci zmiennych. Wspóªczynnik V Cramera oblicza si¦ w nast¦puj¡cy sposób:
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Eksploracja statystyk "StatExplore" W rezultacie uruchomienia skongurowanego w ten sposób w¦zªa SAS EM zwraca szereg statystyk oraz wykresów. Poni»ej przedstawiony jest wykres wspóªzale»no±ci zmiennych niezale»nych ze zmienn¡ zale»n¡.
DATA MINING G. Jaªocha
Eksploracja statystyk "StatExplore"
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W dalszej cz¦±ci rezultatów umieszczone s¡ statystyki opisowe dla wszystkich zmiennych, pocz¡wszy od zmiennych klasykuj¡cych:
DATA MINING G. Jaªocha
Eksploracja statystyk "StatExplore"
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Kolejno statystyki dla zmiennych ci¡gªych:
DATA MINING G. Jaªocha
Eksploracja statystyk "StatExplore"
A. Pomykaªa B. Szymecki K. Zera
Zwracane s¡ równie» warto±ci statystyki Chi-kwadrat wraz z warto±ciami p.
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Na tym etapie tylko zmienna fnlwgt jest naturalnie zmienn¡ nieistotn¡.
DATA
"MultiPlot"
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane
Poza zaprezentowanymi statystykami, w rezultacie poprzedniego w¦zªa otrzymywane s¡ równie» statystyki poszczególnych zmiennych bior¡c pod uwag¦ zmienn¡ zale»n¡. Te wyniki lepiej jednak zobrazowa¢ za pomoc¡ kolejnego w¦zªa o nazwie "
Wykresy ró»ne" ("MultiPlot").
Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W¦zeª ten tworzy dla ka»dej zmiennej niezale»nej wykres sªupkowy uwzgl¦dniaj¡cy cz¦stotliwo±ci wyst¦powa« warto±ci danej zmiennej, wraz z naªo»eniem na ka»d¡ kolumn¦ wykresu rozkªadu zmiennej zale»nej. Dzi¦ki temu wykresowi mo»na lepiej zrozumie¢ wpªyw danego efektu na zmienn¡ celu.
DATA
"MultiPlot"
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Wykres wieku.
DATA
"MultiPlot"
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Wykres lat edukacji.
DATA MINING G. Jaªocha
"MultiPlot"
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Wykres w zale»no±ci od stanu cywilnego.
DATA MINING G. Jaªocha
"MultiPlot"
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Wykres w zale»no±ci od przepracowywanych tygodniowo godzin.
DATA
"MultiPlot"
MINING G. Jaªocha A. Pomykaªa B. Szymecki
Wykres w zale»no±ci od zawodu.
K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Na tym wykresie widzimy pojawienie si¦ warto±ci
"?" która jest
zakodowanym brakiem danych i której SAS nie wyªoniª we
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Macierz korelacji - "SAScode" Poza zbadaniem zale»no±ci pomi¦dzy efektami a zmienn¡ zale»n¡, nale»y sprawdzi¢ tak»e korelacje wyst¦puj¡ce pomi¦dzy
silnie skorelowane zmienne niezale»ne mogªyby znieksztaªci¢ tworzone modele. poszczególnymi efektami, gdy»
Mo»na to zrobi¢ w 2 krokach. Po 1 mo»na skonstruowa¢
wspóªczynnikami Pearsona) mi¦dzy zmiennymi ci¡gªymi za pomoc¡ w¦zªa "Kod SAS-owy" macierz korelacji (ze
znajduj¡cego si¦ w zakªadce "Pomocnicze". Po wybraniu w¦zªa, w oknie wªa±ciwo±ci w¦zªa klikamy "Edytor Kodu" i umieszczamy tam kod:
DATA MINING G. Jaªocha
Macierz korelacji - "SAScode"
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Otrzymane rezultaty:
DATA
Lista korelacji - zmienne klasykuj¡ce
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane
Poniewa» otrzymana w ten sposób macierz nie uwzgl¦dnia zmiennych klasykuj¡cych, zbadamy korelacje pomi¦dzy efektami za pomoc¡
wspóªczynnika V Cramera.
Kod ze wzgl¦du na dªugo±¢ zamieszczony jest w zaª¡czniku.
Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Kod dziaªa w sposób nast¦puj¡cy: na ka»dej kombinacji dwóch zmiennych ze zbioru bazacensus obliczony zostaje
wspóªczynnik V Cramera (wraz z informacj¡ czy wynik mo»e by¢ uznany za wiarygodny). Nast¦pnie tworzony jest zbiór ª¡cz¡cy wszystkie wyniki i posortowany malej¡co po wspóªczynniku.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Lista korelacji - zmienne klasykuj¡ce Posortowana malej¡co lista korelacji:
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA MINING G. Jaªocha
Explore - podsumowanie
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
W tym etapie Data Mining'u lepiej poznali±my dane, ich potencjalny wpªyw na zmienn¡ zale»n¡, ich rozkªady oraz
dane
korelacje mi¦dzy zmiennymi. Po statystykach opisowych mo»na
Sample
stwierdzi¢, »e dane s¡ wolne od bª¦dów, jednak»e odkryli±my »e
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
dla przynajmiej jednej zmiennej istnieje warto±¢ "?", która jest zakodowanym brakiem danych. W kolejnym etapie sprawdzimy dokªadnie warto±ci przyjmowane przez dane zmienne.
DATA
Modykowanie danych
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify
Modykacja to etap w którym nale»y przygotowa¢ dane do
drzew decyzyjnych ró»ni si¦ od przygotowywania ich do regresji i sieci neuronowych.
modelowania. Przygotowanie danych do budowy
Etap ten zostanie wi¦c podzielony ze wzgl¦du na metod¦ budowy modelu i zostanie rozwini¦ty w kroku "Model". Teraz wi¦c zostanie przeprowadzona podstawowa modykacja danych któr¡ mo»na zastosowa¢ zarówno do drzew jak i regresji oraz sieci neuronowych. Polega ona na:
•
Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Porzuceniu nieistotnych dla budowy modelu oraz silnie skorelowanych zmiennych
•
Sprawdzeniu obserwacji pod k¡tem zakodowanych braków danych
DATA
Porzucanie
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
W pierwszym kroku tego etapu usuniemy zmienne których napewno nie powinno by¢ w budowanych modelach. Po etapie eksploracji wiadomo ju», »e korelacja pomi¦dzy
education_num
education
i
wynosi 1, wi¦c jedna z tych zmiennych
zostanie odrzucona. Po za tym odrzucona zostanie równie» zmienna wagowa
fnlwgt.
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Dokonuje si¦ tego za pomoc¡ w¦zªa "Porzucanie", zmieniaj¡c warto±¢ kolumny "Porzu¢" z "Domy±lne" na "Tak".
DATA
Zast¦powanie - braki danych
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Kolejnym krokiem tego etapu b¦dzie sprawdzenie obserwacji
zakodowanych braków danych i zmienienie ich warto±ci na braki danych odczytywane przez SAS. pod k¡tem
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Ma to szczególne znaczenie przy budowie modeli, poniewa» drzewa decyzyjne "radz¡ sobi¦" z brakami danych, natomiast regresja i sieci neuronowe pomijaj¡ caªe obserwacje dla których
dane
wyst¦puj¡ w której± ze zmiennych braki danych.
Sample
Dla prawidªowego porównywania modeli nale»y je tworzy¢ na
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
tych samych zbiorach danych (lub mo»liwie jak najbardziej zbli»onych). Problem ten zostanie rozwi¡zany przy budowie modeli. Z etapu eksploracji wiadomo ju», »e zmienne ci¡gªe i klasykuj¡ce nie maj¡ braków danych. Przyjrzyjmy si¦ jednak warto±ciom które przyjmuj¡ te zmienne Mo»na tego dokona¢ w w¦¹le "Zast¦powanie" klikaj¡c na "Edytor zast¡pie«" we wªa±ciwo±ciach w¦zªa.
DATA
Zast¦powanie - braki danych
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Jak wida¢ na zaª¡czonym wykresie warto±¢ "?" wyst¦puje dla 3 zmiennych. Zast¦pujemy te warto±ci przez warto±¢ "_missing_". Dzi¦ki temu SAS potraktuje te komórki jako braki danych.
DATA
Podsumowanie
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
W tym momencie otrzymali±my gotowy zbiór ucz¡cy, który mo»e sªu»y¢ do dalszego modelowania
drzew decyzyjnych.
Na tym etapie mo»na równie» zmieni¢ spojrzenie na
dane
rozpatrywany problem i u»y¢ narz¦dzi analizy zmiennych
Sample
skªadowych za pomoc¡ w¦zªa "Zmienne skªadowe" czego nie
Importowanie danych Sampling Partycjonowanie
b¦dziemy robi¢ w tej prezentacji. Mo»na równie» w tym momencie r¦cznie zmodykowa¢ wybrane zmienne (np.
Explore
sklasykowa¢ zmienn¡ wiek) za pomoc¡ w¦zªa "Konstruowanie
Modify
reguª".
Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Podsumowanie
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
DRZEWA DECYZYJNE
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W praktycznych zastosowaniach modeli predykcyjnych istotna jest ªatwo±¢ interpretacji i wyja±nienia generowanych wyników. Bardzo pomocne s¡ przy tym
drzewa decyzyjne, które
generuj¡ zale»no±ci w postaci zbioru warunków logicznych.
DATA MINING G. Jaªocha A. Pomykaªa
Budowa drzewa
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie
Budow¦ drzewa zaczynamy od podziaªu korzenia.W pierwszym kroku poszukujemy podziaªu,który pozwoli odnale¹¢ grupy charakteryzuj¡ce si¦ du»¡ jednorodno±ci¡ ze wzgl¦du na warto±¢ zmiennej obja±nianej.Warunkiem koniecznym jest poprawa stopnia takiej jednorodno±ci wzgl¦dem elementu,który jest dzielony.Szukany jest podziaª,który zmaksymalizuje ró»nic¦:
Explore
∆Z = Z0 −
Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
gdzie:
Z0 -stopie«
Zi -stopie«
r P i=1
ni n0 Zi
niejednorodno±ci dzielonego elementu;
niejednorodno±ci i-tego elementu powstaj¡cego w
wyniku podziaªu; n0 -liczebno±¢ dzielonego elementu; ni -liczebno±¢ i-tego elementu powstaj¡cego w wyniku r -liczba elementów powstaj¡cych w wyniku podziaªu
podziaªu;
DATA MINING G. Jaªocha A. Pomykaªa
Miary niejednorodno±ci
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner
Wspóªczynnik entropii
Analizowane dane
H(p1 , ..., pk ) = −
Sample
Importowanie danych Sampling Partycjonowanie
1
Modify Model
Asses
i=1
pi log2 (pi )
Wspóªczynnik Giniego
Explore
Drzewa Regresja logistyczna Sieci neuronowe
k P
gdzie:
−
k P i=1
pi2
k -liczba kategorii przyjmowanych przez zmienn¡ pi -odsetek populacji przyjmuj¡cy i-t¡ warto±¢
obja±nian¡;
zmiennej obja±nianej
DATA MINING G. Jaªocha A. Pomykaªa
Miary niejednorodno±ci
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner
Log-warto±¢ chi-kwadrat -log(p-warto±¢)
Analizowane dane
gdzie p-warto±¢ jest granicznym poziomem istotno±ci statystyki:
Sample
k P r P
Importowanie danych Sampling Partycjonowanie
i=1 j=1
R(ij)
(R(ij) −E(ij) )2 E(ij)
Explore
przy czym
Modify
wierszu i j-tej kolumnie warto±¢ równ¡ liczbie obserwacji
Model
przyjmuj¡cych i-t¡ warto±¢ zmiennej obja±nianej w j-tym w¦¹le,a
Drzewa Regresja logistyczna Sieci neuronowe Asses
E(ij)
jest macierz¡ rzeczywist¡ przyjmuj¡c¡ w i-tym
jest macierz¡ przyjmuj¡c¡ w i-tym wierszu i j-tej kolumnie
warto±¢ równ¡ oczekiwanej na podstawie rozkªadu liczbie obserwacji przyjmuj¡cych i-t¡ warto±¢ zmiennej obja±nianej w j-tym w¦¹le
DATA MINING G. Jaªocha A. Pomykaªa
Miary niejednorodno±ci
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane
Ostatnia statystyka ma tendencj¦ do "faworyzowania"
Sample
wielokrotnych podziaªów w¦zªa nad dwukrotnymi,dlatego cz¦sto
Importowanie danych Sampling Partycjonowanie
modykuje si¦ wzór,uwzgl¦dniaj¡c kar¦ za liczb¦ badanych podziaªów
Explore Modify
-log(m*p-warto±¢)
Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
gdzie m jest liczb¡ podziaªów
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Ustawienia drzewa
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Ustawienia drzewa cd.
DATA MINING G. Jaªocha A. Pomykaªa
Dost¦pne metody tworzenia drzewa
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie
•
Najwi¦ksze -Wybiera caªe drzewo
•
Ocena -Wybiera najmniejsze drzewo o jak najlepszej warto±ci oceny
Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
•
N -Wybiera najwi¦ksze drzewo z co najwy»ej n li±cmi
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Wyniki
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Wyniki przedstawione s¡ w sze±ciu oknach
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Nakªadka rankingów ocen punktowych
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Porównanie wykresów wzrostu liftu dla zbioru treningowego i walidacyjnego. Je»eli krzywe si¦ istotnie ró»ni¡,to ±wiadczy to o przetrenowaniu lub niedotrenowaniu modelu.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Statystyki li±ciowe
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Wykres porównuje procentowy udziaª warto±ci zmiennej obja±nianej równej 1 we wszystkich li±ciach dla danych
dane
treningowych i walidacyjnych.Du»e ró»nice w wysoko±ci sªupków
Sample
wskazuj¡,»e dany li±¢ nale»y przyci¡¢.
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Mapa drzewa
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Mapa drzewa pokazuje jego struktur¦,powierzchnia prostok¡tów odpowiada liczebno±ci w danych w¦zªach drzewa.Nat¦»enie koloru pokazuje stopie« jednorodno±ci populacji w danym w¦¹le.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Statystyki dopasowania
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane
Tabela pokazuje statystyki dopasowania na zbiorach
Sample
treningowym, walidacyjnym i ewentualnie testowym. Du»e
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
ró»nice w warto±ciach statystyk dopasowania mog¡ wskazywa¢ na przetrenowanie lub niedotrenowanie modelu.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Wynik
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W wyniku warto zwróci¢ uwag¦ na tabel¦ klasykacji,pokazuj¡c¡ udziaª dobrze i ¹le sklasykowanych obserwacji na zbiorach treningowym i walidacyjnym.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Drzewo
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Drzewko
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Kolorem czerwonym oznaczone s¡ reguªy podziaªu,zielonym zmienne dziel¡ce w¦zeª.Grubo±¢ czarnych linii wskazuje na liczebno±¢ podzbioru. Stopie« jednorodno±ci w danym w¦¹le jest tym wi¦kszy,im ciemniejszy jest jego kolor.
DATA MINING G. Jaªocha A. Pomykaªa
W¦zeª
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Z w¦zªa mo»emy odczyta¢ nast¦puj¡ce informacje:
•
dane
Ile zawiera obserwacji ze zbioru treningowego i walidacyjnego
Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
•
Rozkªad procentowy warto±ci zmiennej obja±nianej ze zbioru treningowego i walidacyjnego w danym w¦¹le
•
Numer w¦zªa
DATA MINING G. Jaªocha A. Pomykaªa
Interpretacja fragmentu drzewa
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W zbiorze jest 24, 1% bogatych ludzi,za± w podzbiorze ludzi b¦d¡cych w zwi¡zku maª»e«skim bogaci stanowi¡ ponad 45%. Dziel¡c dalej ten podzbiór stopniem wyksztaªcenia widzimy,»e w±ród zam¦»nych/»onatych ponad 72%.
≥
licencjatów odsetek ten wynosi
DATA MINING G. Jaªocha A. Pomykaªa
English rules
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W rezultatach klikamy
angielskiego
widok −→ model −→ reguªy j¦zyka
DATA MINING G. Jaªocha A. Pomykaªa
ER
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Pokazuje nam si¦ okno peªne logicznych formuª. Np. je±li dany osobnik z populacji jest w zwi¡zku maª»e«skim,ma ni»sze wyksztaªcenie ni» licencjackie i wzrost kapitaªu
≥ 5095, 5
to na
podstawie wcze±niejszych obserwacji stwierdzamy,»e na 98% jest bogaty.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Budowa odpowiedniego drzewa
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie
Zbyt zªo»one drzewo (wielokrotno±¢ podziaªów,du»a gª¦boko±¢ i ilo±¢ li±ci) jest nadmiernie dopasowane do zale»no±ci charakterystycznych dla zbioru treningowego,przez co jest bardziej niestabilne (przetrenowanie).Zbyt maªe drzewo ma
Explore
wi¦kszy odsetek bª¦dnych klasykacji. Optymaln¡ wielko±¢
Modify
drzewa mo»emy wybra¢ posªuguj¡c si¦ wykresem bª¦du
Model
±redniokwadratowego lub skuteczno±ci klasykacji wzgl¦dem
Drzewa Regresja logistyczna Sieci neuronowe Asses
liczby li±ci drzewa.
DATA MINING G. Jaªocha A. Pomykaªa
MSE
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W rezultatach klikamy
poddrzewa
widok −→ model −→ wykres oceny
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Interakcyjne drzewo decyzyjne
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W interakcyjnych drzewach decyzyjnych mamy "caª¡ wªadz¦" podczas budowy.Mo»emy zmienia¢ reguªy podziaªu, dzieli¢ zbiór najpierw przy pomocy zmiennych mniej istotnych,w peªni decydujemy o wygl¡dzie drzewa.
Pokaz na »ywo
DATA MINING G. Jaªocha A. Pomykaªa
Boosting Gradientowy
B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie
Polega na stworzeniu szeregu drzew decyzyjnych,w których ka»de nast¦pne drzewo nadaje wi¦ksz¡ wag¦ obserwacjom ¹le sklasykowanym w poprzednim drzewie,a mniejsz¡ dobrze sklasykowanym.Zachodzi formuªa:
wki =
Explore
Drzewa Regresja logistyczna Sieci neuronowe Asses
(1+mk−1 (i)4 )
i=1
Modify Model
1+mk−1 (i)4 n P
wki -waga i-tej obserwacji w k-tej iteracji algorytmu; mk−1 (i)-liczba niepoprawnych klasykacji i-tej obserwacji w k − 1 poprzednich iteracjach; n-liczba obserwacji w zbiorze gdzie:
treningowym
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner
Regresja logistyczna w porównaniu do drzew decyzyjnych reprezentuje odmienne podej±cie do zagadnie« klasykacyjnych. Zakªada si¦ bowiem, »e warto±¢ prawdopodobie«stwa jest uzale»niona predyktorem liniowym logit(p) ˆ
η = X β.
= X β = β0 + β1 X1 + β2 X 2 + · · · + βN XN
Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie
Po estymacji parametrów modelu mo»emy dla wektora
X = (X1 , X2 , X3 . . . Xn )
policzy¢ wyestymowane
prawdopodobie«stwo:
Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
pˆ =
1 1
+ exp(−X β)
DATA
Imputacja
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W przypadku komercyjnych zagadnie« analitycznych, zale»nie od ilo±ci danych, mo»na uzupeªni¢ braki w danych(w¦zeª imputacja ). Mo»na to zrobi¢ na kilka sposobów:
• •
Wykorzystuj¡c znajomo±¢ specyki modelu danych Zastosowanie metod automatycznych: • • •
Miara tendencji centralnej mediana, dominanta, ±rednia Wylosowanie warto±ci zgodnie z rozkªadem zmiennej Warto±¢ oparta na modelu drzewa decyzyjnego
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie
Przy doborze zmiennych obja±niaj¡cych warto zastanowi¢ si¦, czy na pewno b¦d¡ miaªy wpªyw w modelu na zmienn¡ obja±nian¡ oraz usun¡¢ zmienne, które s¡ ze sob¡ silnie skorelowane. W przypadku wyst¦powania interakcji mi¦dzy dwoma zmiennymi, warto w modelu uwzgl¦dni¢ ich iloczyn. Cz¦sto przy du»ej ilo±ci zmiennych klasykuj¡cych mo»emy mie¢ problem z ich optymalnym doborem do modelu. Mo»na je wyselekcjonowa¢ nast¦puj¡cymi metodami:
•
wolny, nast¦pnie dobieramy pojedynczo zmienne
•
Explore
Drzewa Regresja logistyczna Sieci neuronowe Asses
Krokowa wstecz(Backward)- Zaczynamy od doboru wszystich zmiennych i usuwamy kolejno najmniej istotne
Modify Model
Krokowa wprzód(Forward) - Najpierw dobieramy wyraz
•
Krokowa- Metoda analogiczna do metody Forward, z ró»nic¡, »e po ka»dym kroku bada si¦ istotno±¢ zmiennych obecnych ju» w modelu.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Aby u»y¢ modelu regresji logistycznej, nale»y u»y¢ w¦zªa Regresja dla zmodykowanych danych, oraz wybra¢ odpowiednie zmienne klasykuj¡ce. Jak zmienna celu jest
dane
binarna, to model automatycznie dobiera funkcj¦ logitow¡ jako
Sample
wi¡»¡c¡
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA
Przeksztaªcanie danych
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Przy regresji logistycznej wa»ne jest, aby rozkªad zmiennych ci¡gªych miaª sko±no±¢ blisk¡ zeru. Je»eli w rezultacie w¦zªa
dane
multiplot warto±¢ bezwzgl¦dna estymatora sko±no±ci dla danego
Sample
rozkªadu przekracza 5 to konieczne jest przeksztaªcenie danych.
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Równie» warto zwróci¢ uwag¦ na relacj¦ pomi¦dzy zmienn¡ obja±nian¡. Zmienna age b¦dzie wymagaªa przeksztaªcenia kwadratowego.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Wybieramy post¦puj¡c¡(forward) metod¦ iteracyjn¡
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Po uruchomieniu w¦zªa otrzymujemy okienko z rezultatami w których s¡ pokazane kolejne iteracje procesu, oraz ostateczny model. Wykres liftu:
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Budowa wykresu liftu
•
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Jak mamy dany model, to rankujemy dane wzgl¦dem wyestymowanych prawdopodobie«stw
Data Mining
•
Dzielimy zbiór na równe cz¦±ci np co 5 centyli czyli 20 cz¦±ci.
•
Zliczamy w ka»dej cz¦±ci ilo±¢ sukcesów(y=1)
•
Liczymy skumulowan¡ ilo±¢ sukcesów
•
Obliczamy skumulowan¡ ilo±¢ sukcesów w ka»dej cz¦±ci w procentach(tzw. Gain score)
•
W ostatnim kroku, dzielimy Gain score przez górny kwantyl danego przedziaªu w procentach, np. dla przedziaªu z górnym centylem 15% gain score dzielimy na 15
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Ostateczny model z nast¦puj¡cymi zmiennymi obja±niaj¡cymi
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner
Z racji tego, »e w modelu wi¦kszo±¢ zmiennych to zmienne kategoryzuj¡ce, mo»na porówna¢ najbardziej istotne wspóªczynniki
• •
Analizowane dane
•
Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
βi ,
st¡d, najwi¦ksze efekty dodatnie wyst¦puj¡
dla:
Ludzi po ±lubach cywilnych - 1.58 Ludzi po ±lubach wojskowych- 1.49 Profesjonalistów w swoich dziedzinach(informatycy, adwokaci itd.)- 1.47
za± najwi¦ksze efekty ujemne dla
• • •
Obywatele Kolumbii - 1.46 Usªugi domowe- 1.34 Obywatele Dominikany- 1.26
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Wykres efektów bezwzgl¦dnych
DATA
Sie¢ neuronowa
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
def 1 Zbiór prostych jednostek obliczeniowych przetwarzaj¡cych dane, komunikuj¡cych si¦ ze sob¡ i pracuj¡cych równolegle.
def 2 Zbiór poª¡czonych ze sob¡ jednostek wej±ciowo-wyj±ciowych. Z ka»dym poª¡czeniem skojarzona jest waga, która mo»e zosta¢ zmieniona w trakcie uczenia.
DATA
Sie¢ neuronowa
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
W zaªo»eniu s¡ to obiekty, które swoim dziaªaniem na±laduj¡ aktywno±¢ rzeczywistych ukªadów nerwowych w mózgach
dane
organizmów »ywych. W skutek poª¡czenia szeregu neuronów o
Sample
stosunkowo prostej budowie i niewielkich mo»liwo±ciach
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
uzyskuje si¦ struktur¦ zdoln¡ do przeprowadzania bardzo skomplikowanych procesów rozpoznawania wzorców i klasykacji.
DATA
Sie¢ neuronowa
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Prosta sie¢ neuronowa z skªada si¦ warstwy wej±ciowej Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
zawieraj¡cej n neuronów (odpowiadaj¡cych zmiennym) oraz warstwy wyj±ciowej sumuj¡cej wa»one impulsy i transformuj¡c¡ je do skali oryginalnej zmiennej Y.
DATA
Sie¢ neuronowa
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner
Rozszerzeniem tak opisanej architektury s¡ modele, które
Analizowane
okre±lonej ilo±ci neuronów, które nieliniowo przeksztaªcaj¡
dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
dodatkowo zawieraj¡ warstw¦ ukryt¡. Skªada si¦ ona z kombinacj¦ liniow¡ otrzymanych sygnaªów. Pojedynczy neuron z warstwy ukrytej skªada si¦ z dwóch elementów:
•
funkcji ª¡czenia
•
funkcji aktywacji
DATA MINING G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Funkcja ª¡czenia odpowiada za wytworzenie jednej warto±ci wej±ciowej dla danego neuronu z warto±ci jego poprzedników. Du»a cz¦±¢ dost¦pnych w SAS EM funkcji opiera si¦ na radialnej funkcji bazowej - jest to funkcja, której warto±ci zale»¡ tylko od odlegªo±ci od ustalonego punktu.
DATA MINING G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Funkcja aktywacji oblicza warto±¢ na wyj±ciu neuronu.
DATA MINING G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Ostateczny wynik generowany przez sie¢ jest rezultatem dziaªania funkcji transformuj¡cej sum¦ wa»onych wyj±¢ z neuronów ukrytych. W zale»no±ci od tego, czy zmienna obja±niana jest binarna, czy ci¡gªa, stosuje si¦ odpowiednie przeksztaªcenie sªu»¡ce zachowaniu odpowiedniej skali (dla zmiennej ci¡gªej jest to przeksztaªcenie identyczno±ciowe, dla binarnej odwrotno±¢ przeksztaªcenia logitowego).
DATA
Sie¢ neuronowa
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Ogólny zapis sieci z jedn¡ warstw¡ ukryt¡ zawieraj¡c¡ n neuronów.
DATA MINING G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Dodatkowym rozszerzeniem tak zdenioweanego modelu mo»e by¢ wprowadzenie bezpo±redniego poª¡czenia pomi¦dzy warstw¡ wej±ciow¡ i wyj±ciow¡. Takie podej±cie umo»liwi wª¡czenie do analizy równie» prostej kombinacji liniowej predyktorów, jednak rozbuduje rozpatrywane zagadnienie estymacji
DATA
Sie¢ neuronowa
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Sposobem na wyznaczenie niezb¦dnej liczby neuronów w warstwie ukrytej mo»e by¢ tzw. reguªa piramidy geometrycznej, która mówi, »e dla wielu praktycznych zastosowa« sieci liczba neuronów w warstwach tworzy ksztaªt piramidy, przy czym
dane
liczba neuronów maleje od wej±cia w kierunku wyj±cia. Neurony
Sample
poszczególnych warstw tworz¡ ci¡g geometryczny.
Importowanie danych Sampling Partycjonowanie
n=
√
xm
Explore Modify
Nale»y pami¦ta¢, »e powy»sz¡ zale»no±¢ mo»na traktowa¢ jak
Model
wzór okre±laj¡cy minimaln¡ liczb¦ neuronów przy, której sie¢ si¦
Drzewa Regresja logistyczna Sieci neuronowe Asses
uczy zadanego problemu.
DATA
Uczenie sieci
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Standardowo proces uczenia sieci odbywa si¦ w nast¦puj¡cy sposób:
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
•
ryzyka bª¦dnej estymacji parametrów i umo»liwia "sprawiedliwe" przydzielenie wag pocz¡tkowych,
•
dane
Ustalane s¡ parametry pocz¡tkowe - najcz¦±ciej przez losowanie,
Sample
Importowanie danych Sampling Partycjonowanie
Zmienne obja±niaj¡ce s¡ standaryzowane, co sªu»y redukcji
•
Ze zbioru treningowego wczytywane s¡ wszystkie obserwacje. Po przeliczeniu predykcji dla ka»dej z nich
Explore
uruchamiany jest algorytm optymalizacyjny, który koryguje
Modify
wagi w celu poprawienia stopnia dopasowania modelu,
Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
•
Poprzedni krok powtarzany jest do osi¡gni¦cia zbie»no±ci algorytmu optymalizacyjnego lub osi¡gni¦cia innego warunku stopu, którym mo»e by¢ np. przekroczenie okre±lonej liczby iteracji,
DATA
Uczenie sieci cd.
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
•
Dla wszystkich zestawów wag otrzymanych w kolejnych
dane
iteracjach oceniany jest stopie« dopasowania modelu na
Sample
próbie walidacyjnej. Na tej podstawie wybierany jest
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
ostateczny model.
DATA MINING G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
W aplikacji SAS Enterprise Miner istnieje kilka narz¦dzi wykorzystuj¡cych sieci neuronowe. U»yte zostanie jedno z nich -
Sie¢ neuronowa. Pozwala ono na budow¦ modelu sieci
neuronowej na podstawie architektury odpowiedaj¡cej m.in. modelom liniowym lub perceptronowi wielowarstwowemu.
DATA
Sie¢ neuronowa
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
SAS EM posiada kilka predeniowanych architektur sieci neuronowych.
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Sie¢ neuronowa Po podª¡czenu w¦zªa i "klikni¦ciu" go otrzymujemy:
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner
Sie¢ neuronowa Podª¡czenie w¦zªa i ustawienie kryterium wyboru modelu jako
bª¦dna klasykacja oraz architektury jako wielowarstwowy perceptron
Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore
powoduje otrzymanie raportu zawieraj¡ce m.in okno output, w
Modify
którym mo»na zobaczy¢ nast¦puj¡cy komunikat:
Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
DATA MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Sie¢ neuronowa Oznacza to, »e zastosowany algorytm optymalizacyjny (domy±lnie metoda quasi-Newtonowska) nie osi¡gn¡ª zbie»no±ci. Przeprowadzenie 20 iteracji na zbiorze treningowym nie pozwoliªo na znalezienie ostatecznego rozwi¡zania. Spojrzenie na wykres iteracyjny pozwala zauwa»y¢ tendencj¦ spadkow¡ bª¦du klasykacji, a zatem prawdopodobnie mo»liwe jest lepsze dopasowanie modelu, pod warunkiem zwi¦kszenia liczby iteracji.
DATA
Sie¢ neuronowa
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Zmiana opcji maksymalnie iteracji na wato±¢ równ¡ 200 powoduje wydªu»enie czasu uczenia modelu, ale algorytm osi¡ga zbie»no±¢.
DATA MINING G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Na wykresie wida¢, »e najlepszy model osi¡gni¦to w okoªo 42 iteracji, co jets oznaczone niebiesk¡ lini¡. Stopie« dopasowania otrzymanej sieci przedstawiony jest poni»ej:
DATA MINING G. Jaªocha
Sie¢ neuronowa
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner
Próbuj¡c poprawi¢ dopasowanie sieci stworzono now¡, w której wª¡czone zostaªy bezpo±rednie poª¡czenia, a tak»e zwi¦kszono liczb¦ jednostek ukrytych do 5 (domy±lnie 3).
Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Otrzymano sie¢ o nast¦puj¡cych parametrach dopasowania:
DATA
Ocena i wybór modelu
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Po wybudowaniu wielu konkurenyjnych modeli predykcyjnych pozostaje zagadnienie wyboru najlepszego z nich, który b¦dzie mógª by¢ zastosowany dla nowo napªywaj¡cych danych. Dopasowanie modelu mo»e by¢ ocenione przy u»yciu ró»nych statystyk. Przykªadowe z nich to:
•
dane
zaklasykowanych przypadków. Miara cz¦sto u»ywana do
Sample
oceny modeli klasykacyjnych wtedy, gdy ka»dy z
Importowanie danych Sampling Partycjonowanie
obserwowanych przypadków mo»na traktowa¢ z równ¡ wag¡.
Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Skuteczno±¢ klasykacji - odsetek poprawnie
•
Bª¡d ±redniokwadratowy - ±rednia warto±¢ kwadratu ró»nicy pomi¦dzy predykcj¡ a rzeczywist¡ warto±ci¡. W przypadku binarnych zagadnie« klasykacyjnych warto±ci¡ przewidywan¡ jest prawdopodobie«stwo, a warto±ci¡ rzeczywist¡ 0 lub 1.
DATA
Statystyki dopasowania
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
•
najwi¦kszej ró»nicy pomi¦dzy warto±ci¡ przewidywan¡ a
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Maksymalny bª¡d bezwzgl¦dny - warto±¢ bezwzgl¦dna rzeczywist¡. Miara oceniaj¡ca maksymalny spodziewany bª¡d predykcji.
•
Statystyka Koªmogorowa-Smirnowa - okre±la, jak dobrze dwie klasy zmiennej obja±nianej s¡ rozró»niane przez model. Jej warto±¢ obliczana jest jako:
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
maxt |F1 (t) − F0 (t)|, gdzie
F0 (t), F1 (t)
- warto±ci dystrybuanty empirycznej
predykcji dla grup obserwacji, w których zmienna obja±niana przyjmuje odpowiednio warto±ci 0 i 1. Im wi¦ksza warto±¢ tej statystyki, tym wi¦ksze ró»nice w prawdopodobie«stwach przydzielanych obu grupom, a wi¦c tym wi¦ksza moc dyskryminacyjna modelu.
DATA
Statystyki dopasowania
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
•
Wzrost (Lift) - miara dla okre±lonego odsetka populacji b¦d¡cej przedmiotem zagadnienia klasykacyjnego.
dane
Obliczana jest poprzez podzielenie odsetka
Sample
zaobserwowanych zdarze« w górnych
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
n%
populacji
posortowanej malej¡co wedªug przewidywanych prawdopodobie«stw przez procent tych samych zdarze« w caªej populacji.
DATA
Statystyki dopasowania
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
•
Indeks ROC - miara okre±laj¡ca skuteczno±¢ modelu w rozpoznawaniu ro»nic pomi¦dzy podpopulacjami o ró»nych warto±ciach zmiennej obja±nianej. Powstaje poprzez obliczenie pola pod krzyw¡ ROC, któa konstruowana jest w nast¦puj¡cy sposób:
• z populacji posortowanej malej¡co wedªug przydzielonych
prawdopodobie«stw wybierane jest górne k% obserwacji;
• przy zaªo»eniu, »e w wybranej podpopulacji znajduje si¦ x
jedynek i y zer oraz oznaczaj¡c przez n1 i n0 liczno±ci tych klas w caªej rozpatrywanej próbie, obliczane s¡ nast¦puj¡ce warto±ci: 1-specyczno±¢= ny0 wra»liwo±¢ = nx1 • tak opisane operacje powtarzane s¡ dla ró»nych warto±ci k , a otrzymane warto±ci ª¡czone s¡ w krzyw¡ W zwi¡zku z powy»szym im bardziej wykres krzywej skierowany jest w stron¦ lewego górnego rogu, tym lepsze wªasno±ci klasykacyjne badanego modelu.
DATA
Porównanie modeli
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Narz¦dziem umo»liwiaj¡cym porównanie dziaªania modeli predykcyjnych w SAS EM jest w¦zeª
Porównanie modeli.
Poª¡czenie z nim wybranych w¦zªów odpowiadaj¡cym wcze±niej wykorzystywanym metodom pozwoli na wybór najlepszego modelu.
DATA MINING G. Jaªocha
Porównanie modeli
A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
¡cz¡c wszystkie modele z w¦zªem
Porównanie modeli i
uruchamiaj¡c go otrzymujemy m.in.:
DATA
Porównanie modeli
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Wykresy ROC
DATA
Porównanie modeli
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane dane Sample
Importowanie danych Sampling Partycjonowanie Explore Modify Model
Drzewa Regresja logistyczna Sieci neuronowe Asses
Wykresy klasykacji
DATA
Scoring
MINING G. Jaªocha A. Pomykaªa B. Szymecki K. Zera
Data Mining
Denicja Metodologie CRISP-DM SEMMA Enterprise Miner Analizowane
Zanim wybrany model b¦dzie mógª zosta¢ wdro»ony i zastosowany do nowo napªywaj¡cych przypadków, nale»y dokona¢ jego ostatecznej oceny na kolejnej niezale»nej próbie danych. T¦ rol¦ odgrywa zbiór testowy, który w przypadku
dane
zastosowa« komercyjnych jest najcz¦±ciej wycinkiem danych z
Sample
najnowszego okresu.
Importowanie danych Sampling Partycjonowanie
Nale»y pami¦ta¢, »e ka»dy model w przypadku danych komercyjnych po pewnym czasie zacznie traci¢ na jako±ci,
Explore
dlatego niezb¦dnym jest monitorowanie jego skuteczno±ci.
Modify
Zatem poj¦cie DATA MINING powinno by¢ rozumiane jako
Model
proces cykliczny - wraz z napªywem nowych danych pojawia si¦
Drzewa Regresja logistyczna Sieci neuronowe Asses
potrzeba zmiany zaªo»e« lub poprawy jako±ci analizy.