CRISP-DM označava međuindustrijski standardni proces za rudarenje podataka. Metodologija CRISP-DM pruža strukturirani pristup planiranju projekta rudarenja podataka. To je robusna i dobro dokazana metodologija. Ne polažemo pravo na vlasništvo nad njim. Nismo mi to izmislili. Mi smo pretvarač njegove snažne praktičnosti, fleksibilnosti i korisnosti pri korištenju analitike za rješavanje poslovnih problema. To je zlatna nit koja se provlači kroz gotovo svaki sastanak s klijentom.
Ovaj model je idealizirani slijed događaja. U praksi se mnogi zadaci mogu izvoditi drugačijim redoslijedom i često će biti potrebno vratiti se na prethodne zadatke i ponoviti određene radnje. Model ne pokušava obuhvatiti sve moguće rute kroz proces rudarenja podataka.
Kako CRISP pomaže?
CRISP DM pruža mapu puta, daje vam najbolje prakse i pruža strukture za bolje i brže rezultate korištenja rudarenja podataka, pa tako pomaže poslovanju da prati tijekom planiranja i provedbe projekta rudarenja podataka.
Faze CRISP-DM
CRISP-DM daje pregled životnog ciklusa rudarenja podataka kao model procesa. Model životnog ciklusa sastoji se od šest faza, sa strelicama koje označavaju najvažnije i najčešće ovisnosti između faza. Redoslijed faza nije striktan. I većina projekata se po potrebi kreće naprijed-natrag između faza. Model CRISP-DM je fleksibilan i može se lako prilagoditi.
Na primjer, ako vaša organizacija ima za cilj otkrivanje pranja novca, vjerojatno ćete prosijati velike količine podataka bez specifičnog cilja modeliranja. Umjesto modeliranja, vaš će se rad usredotočiti na istraživanje podataka i vizualizaciju kako biste otkrili sumnjive obrasce u financijskim podacima. CRISP-DM vam omogućuje stvaranje modela rudarenja podataka koji odgovara vašim potrebama.
Uključuje opise tipičnih faza projekta, zadatke uključene u svaku fazu i objašnjenje odnosa između tih zadataka.
Faza 1: Poslovno razumijevanje
Prva faza procesa CRISP-DM je razumijevanje onoga što želite postići iz poslovne perspektive. Vaša organizacija može imati konkurentske ciljeve i ograničenja koja moraju biti ispravno uravnotežena. Ova faza procesa ima za cilj otkriti važne čimbenike koji utječu na ishod projekta. Zanemarivanje ovog koraka može značiti ulaganje puno truda u dobivanje pravih odgovora na pogrešna pitanja.
Koji su željeni rezultati projekta?
Procijenite trenutnu situaciju
javascript poduka
To uključuje detaljnije utvrđivanje činjenica o resursima, ograničenjima, pretpostavkama i drugim čimbenicima koje ćete morati uzeti u obzir prilikom određivanja cilja analize podataka i plana projekta.
- Osoblje (poslovni stručnjaci, stručnjaci za podatke, tehnička podrška, stručnjaci za rudarenje podataka)
- Podaci (fiksni izvaci, pristup živim, pohranjenim ili operativnim podacima)
- Računalni resursi (hardverske platforme)
- Softver (alati za rudarenje podataka, drugi relevantni softver)
- Rječnik relevantne poslovne terminologije čini dio poslovnog razumijevanja dostupnog projektu. Izrada ovog pojmovnika korisna je vježba za 'izvlačenje znanja' i obrazovanje.
- Rječnik terminologije rudarenja podataka ilustriran je primjerima relevantnim za poslovni problem.
Odredite ciljeve rudarenja podataka
Poslovni cilj navodi ciljeve u poslovnoj terminologiji. Cilj rudarenja podataka navodi ciljeve projekta u tehničkom smislu. Na primjer, poslovni cilj može biti povećanje kataloške prodaje postojećim kupcima. Cilj rudarenja podataka može biti predviđanje koliko će widgeta kupac kupiti, s obzirom na njihove kupnje u posljednje tri godine, demografske podatke (dob, plaća, grad itd.) i cijenu artikla.
Izradite plan projekta
Opišite planirani plan za postizanje ciljeva rudarenja podataka i poslovnih ciljeva. Vaš plan bi trebao specificirati korake koje treba izvesti tijekom ostatka projekta, uključujući početni odabir alata i tehnika.
1. Plan projekta: Navedite faze koje treba izvršiti u projektu, s njihovim trajanjem, potrebnim resursima, ulazima, izlazima i ovisnostima. Gdje je to moguće, pokušajte eksplicitno navesti iteracije velikih razmjera u procesu rudarenja podataka, na primjer, ponavljanje faza modeliranja i evaluacije.
Kao dio projektnog plana, važno je analizirati ovisnosti između vremenskih rasporeda i rizika. Označite rezultate ovih analiza eksplicitno u planu projekta, idealno s radnjama i preporukama ako se rizici očituju. Odlučite koja će se strategija evaluacije koristiti u fazi evaluacije.
Vaš projektni plan bit će dinamičan dokument. Na kraju svake faze pregledat ćete napredak i postignuća te u skladu s tim ažurirati plan projekta. Specifične točke pregleda za ova ažuriranja trebaju biti dio plana projekta.
2. Početna procjena alata i tehnika: Na kraju prve faze trebali biste izvršiti početnu procjenu alata i tehnika. Na primjer, odaberete alat za rudarenje podataka koji podržava različite metode za različite faze procesa. Važno je procijeniti alate i tehnike rano u procesu budući da odabir alata i tehnika može utjecati na cijeli projekt.
preimenovanje imenika u linuxu
Faza 2: Razumijevanje podataka
Druga faza procesa CRISP-DM zahtijeva prikupljanje podataka navedenih u resursima projekta. Ovo početno prikupljanje uključuje učitavanje podataka ako je to potrebno za razumijevanje podataka. Na primjer, ako koristite određeni alat za razumijevanje podataka, savršeno je logično učitati svoje podatke u ovaj alat. Ako nabavite više izvora podataka, morate razmotriti kako i kada ćete ih integrirati.
Opišite podatke
Ispitajte 'bruto' ili 'površinska' svojstva prikupljenih podataka i izvijestite o rezultatima.
Istražite podatke
Tijekom ove faze bavit ćete se pitanjima rudarenja podataka korištenjem upita, vizualizacije podataka i tehnika izvješćivanja. To može uključivati:
- Distribucija ključnih atributa
- Odnosi između parova ili malog broja atributa
- Rezultati jednostavnih agregacija
- Svojstva značajnih sub-populacija
- Jednostavne statističke analize
Ove analize mogu se izravno odnositi na vaše ciljeve rudarenja podataka. Oni mogu doprinijeti opisu podataka i izvješćima o kvaliteti ili ih poboljšati te se mogu uključiti u transformaciju i druge korake pripreme podataka potrebnih za daljnju analizu.
Provjerite kvalitetu podataka
Ispitajte kvalitetu podataka, baveći se pitanjima kao što su:
- Jesu li podaci potpuni ili pokrivaju sve tražene slučajeve?
- Je li ispravan ili sadrži pogreške, a ako postoje, koliko su česte?
- Nedostaju li vrijednosti u podacima? Ako jesu, kako su zastupljeni, gdje se javljaju i koliko su česti?
Izvješće o kvaliteti podataka
Navedite rezultate provjere kvalitete podataka. Ako postoje problemi s kvalitetom, predložite moguća rješenja. Rješenja problema s kvalitetom podataka općenito uvelike ovise o podacima i poslovnom znanju.
Faza 3: Priprema podataka
U ovoj fazi projekta odlučujete o podacima koje ćete koristiti za analizu. Kriteriji koje biste mogli koristiti za donošenje ove odluke uključuju relevantnost podataka za vaše ciljeve rudarenja podataka, kvalitetu podataka i tehnička ograničenja kao što su ograničenja količine podataka ili vrsta podataka.
Očistite svoje podatke
Ovaj zadatak uključuje podizanje kvalitete podataka na razinu koju zahtijevaju tehnike analize koje ste odabrali. To može uključivati odabir čistih podskupova podataka, umetanje odgovarajućih zadanih vrijednosti ili ambicioznije tehnike kao što je procjena podataka koji nedostaju modeliranjem.
slušaj luku
Konstruirajte potrebne podatke
Ovaj zadatak uključuje konstruktivne operacije pripreme podataka kao što je proizvodnja izvedenih atributa, cijelih novih zapisa ili transformiranih vrijednosti za postojeće atribute.
Integrirajte podatke
upravitelj zadataka u linuxu
Ove metode kombiniraju informacije iz više baza podataka, tablica ili zapisa za stvaranje novih zapisa ili vrijednosti.
Faza 4: Modeliranje
Odaberite tehniku modeliranja: Kao prvi korak, odabrat ćete osnovnu tehniku modeliranja koju ćete koristiti. Iako ste možda već odabrali alat tijekom faze poslovnog razumijevanja, u ovoj fazi ćete odabrati specifičnu tehniku modeliranja, npr. izgradnja stabla odlučivanja s C5.0 ili generiranje neuronske mreže s povratnom propagacijom. Ako se primjenjuje više tehnika, izvršite ovaj zadatak zasebno za svaku tehniku.
Generirajte dizajn testa
Prije nego što izgradite model, morate generirati proceduru ili mehanizam za testiranje kvalitete i valjanosti modela. Na primjer, u nadziranim zadacima rudarenja podataka kao što je klasifikacija, uobičajeno je koristiti stope pogrešaka kao mjere kvalitete za modele rudarenja podataka. Stoga obično odvojite skup podataka u niz i testne skupove, izgradite model na nizu i procijenite njegovu kvalitetu na zasebnom testnom skupu.
Izradi model
Pokrenite alat za modeliranje na pripremljenom skupu podataka za izradu jednog ili više modela.
Procijenite model
Interpretirajte modele u skladu sa svojim znanjem o domeni, kriterijima uspješnosti rudarenja podataka i željenim dizajnom testa. Procijenite uspješnost primjene tehnika modeliranja i otkrivanja, a zatim kasnije kontaktirajte poslovne analitičare i stručnjake za domenu kako biste raspravili rezultate rudarenja podataka u poslovnom kontekstu. Ovaj zadatak razmatra samo modele, dok faza evaluacije također uzima u obzir sve druge rezultate proizvedene tijekom projekta.
U ovoj fazi trebate rangirati modele i ocijeniti ih prema kriterijima ocjenjivanja. Ovdje biste trebali razmotriti poslovne ciljeve i kriterije uspjeha koliko god možete. U većini projekata rudarenja podataka jedna se tehnika primjenjuje više puta, a rezultati rudarenja podataka generiraju se pomoću nekoliko različitih tehnika.
Faza 5: Evaluacija
Ocijenite svoje rezultate: Prethodni koraci ocjenjivanja bavili su se faktorima kao što su točnost i općenitost modela. Tijekom ovog koraka procijenit ćete stupanj do kojeg model ispunjava vaše poslovne ciljeve i nastojati utvrditi postoji li neki poslovni razlog zašto je ovaj model manjkav. Druga je mogućnost testirati model na testnim aplikacijama u stvarnoj aplikaciji ako vremenska i proračunska ograničenja to dopuštaju. Faza evaluacije također uključuje procjenu svih drugih rezultata rudarenja podataka koje ste generirali. Rezultati rudarenja podataka uključuju modele koji su nužno povezani s izvornim poslovnim ciljevima i sve druge nalaze koji nisu nužno povezani s izvornim poslovnim ciljevima, ali također mogu otkriti dodatne izazove, informacije ili savjete za buduće smjerove.
Postupak pregleda
U ovom trenutku se čini da su dobiveni modeli zadovoljavajući i da zadovoljavaju poslovne potrebe. Sada je prikladno da izvršite temeljitiji pregled angažmana rudarenja podataka kako biste utvrdili postoji li važan čimbenik ili zadatak koji je na neki način previđen. Ovaj pregled također pokriva pitanja osiguranja kvalitete. Na primjer: jesmo li ispravno izradili model? Jesmo li koristili samo atribute koje smijemo koristiti i koji su dostupni za buduće analize?
Odredite sljedeće korake
Sada odlučujete kako ćete nastaviti ovisno o rezultatima procjene i pregledu procesa. Hoćete li završiti ovaj projekt i prijeći na implementaciju, pokrenuti daljnja ponavljanja ili postaviti nove projekte rudarenja podataka? Također biste trebali procijeniti svoje preostale resurse i proračun, što može utjecati na vaše odluke.
Faza 6: Uvođenje
Planirajte implementaciju: U fazi implementacije, uzet ćete svoje rezultate procjene i odrediti strategiju za njihovu implementaciju. Ako je identificiran opći postupak za stvaranje relevantnog(ih) modela(a), ovaj postupak je ovdje dokumentiran za kasniju implementaciju. Ima smisla razmotriti načine i sredstva implementacije tijekom faze poslovnog razumijevanja jer je implementacija ključna za uspjeh projekta. Ovo je mjesto gdje prediktivna analitika pomaže poboljšati operativnu stranu vašeg poslovanja.
Planirajte praćenje i održavanje
Praćenje i održavanje važna su pitanja ako rezultat rudarenja podataka postane dio svakodnevnog poslovanja i njegovog okruženja. Pažljiva priprema strategije održavanja pomaže u izbjegavanju nepotrebno dugih razdoblja netočnog korištenja rezultata rudarenja podataka. Projektu je potreban detaljan plan procesa praćenja kako bi se pratila implementacija rezultata rudarenja podataka. Ovaj plan uzima u obzir specifičnu vrstu postavljanja.
Izraditi konačno izvješće
Na kraju projekta ćete napisati završni izvještaj. Ovisno o planu implementacije, ovo izvješće može biti samo sažetak projekta i njegovih iskustava (ako već nisu dokumentirana kao tekuća aktivnost) ili može biti konačna i sveobuhvatna prezentacija rezultata rudarenja podataka.
Pregledajte projekt
skraćivanje i brisanje razlike
Procijenite što je bilo dobro, a što nije, što je učinjeno dobro, a što treba poboljšati.