logo

Što je CRISP u rudarenju podataka?

CRISP-DM označava međuindustrijski standardni proces za rudarenje podataka. Metodologija CRISP-DM pruža strukturirani pristup planiranju projekta rudarenja podataka. To je robusna i dobro dokazana metodologija. Ne polažemo pravo na vlasništvo nad njim. Nismo mi to izmislili. Mi smo pretvarač njegove snažne praktičnosti, fleksibilnosti i korisnosti pri korištenju analitike za rješavanje poslovnih problema. To je zlatna nit koja se provlači kroz gotovo svaki sastanak s klijentom.

Ovaj model je idealizirani slijed događaja. U praksi se mnogi zadaci mogu izvoditi drugačijim redoslijedom i često će biti potrebno vratiti se na prethodne zadatke i ponoviti određene radnje. Model ne pokušava obuhvatiti sve moguće rute kroz proces rudarenja podataka.

Kako CRISP pomaže?

CRISP DM pruža mapu puta, daje vam najbolje prakse i pruža strukture za bolje i brže rezultate korištenja rudarenja podataka, pa tako pomaže poslovanju da prati tijekom planiranja i provedbe projekta rudarenja podataka.

Faze CRISP-DM

CRISP-DM daje pregled životnog ciklusa rudarenja podataka kao model procesa. Model životnog ciklusa sastoji se od šest faza, sa strelicama koje označavaju najvažnije i najčešće ovisnosti između faza. Redoslijed faza nije striktan. I većina projekata se po potrebi kreće naprijed-natrag između faza. Model CRISP-DM je fleksibilan i može se lako prilagoditi.

Na primjer, ako vaša organizacija ima za cilj otkrivanje pranja novca, vjerojatno ćete prosijati velike količine podataka bez specifičnog cilja modeliranja. Umjesto modeliranja, vaš će se rad usredotočiti na istraživanje podataka i vizualizaciju kako biste otkrili sumnjive obrasce u financijskim podacima. CRISP-DM vam omogućuje stvaranje modela rudarenja podataka koji odgovara vašim potrebama.

Uključuje opise tipičnih faza projekta, zadatke uključene u svaku fazu i objašnjenje odnosa između tih zadataka.

Što je CRISP u rudarenju podataka

Faza 1: Poslovno razumijevanje

Prva faza procesa CRISP-DM je razumijevanje onoga što želite postići iz poslovne perspektive. Vaša organizacija može imati konkurentske ciljeve i ograničenja koja moraju biti ispravno uravnotežena. Ova faza procesa ima za cilj otkriti važne čimbenike koji utječu na ishod projekta. Zanemarivanje ovog koraka može značiti ulaganje puno truda u dobivanje pravih odgovora na pogrešna pitanja.

Koji su željeni rezultati projekta?

    Postavite ciljeve:Opišite svoj primarni cilj iz poslovne perspektive. Možda postoje i druga povezana pitanja koja biste željeli spomenuti. Na primjer, vaš bi primarni cilj mogao biti zadržati trenutne klijente predviđanjem kada će biti skloni prijeći kod konkurencije.Izrada plana projekta:Opišite plan za postizanje data mininga i poslovnih ciljeva. Plan bi trebao specificirati korake koje treba izvesti tijekom ostatka projekta, uključujući početni odabir alata i tehnika.Kriteriji poslovnog uspjeha:Ovdje ćete postaviti kriterije koje ćete koristiti da odredite je li projekt bio uspješan s poslovne točke gledišta. U idealnom slučaju, oni bi trebali biti specifični i mjerljivi, na primjer, smanjivanje nadmašivanja kupaca na određenu razinu. Međutim, ponekad bi moglo biti potrebno imati subjektivnije kriterije, kao što je davanje korisnih uvida u odnose.

Procijenite trenutnu situaciju

javascript poduka

To uključuje detaljnije utvrđivanje činjenica o resursima, ograničenjima, pretpostavkama i drugim čimbenicima koje ćete morati uzeti u obzir prilikom određivanja cilja analize podataka i plana projekta.

    Inventar resursa:Navedite resurse dostupne projektu, uključujući:
    • Osoblje (poslovni stručnjaci, stručnjaci za podatke, tehnička podrška, stručnjaci za rudarenje podataka)
    • Podaci (fiksni izvaci, pristup živim, pohranjenim ili operativnim podacima)
    • Računalni resursi (hardverske platforme)
    • Softver (alati za rudarenje podataka, drugi relevantni softver)
    Zahtjevi, pretpostavke i ograničenja:Navedite sve zahtjeve projekta, uključujući raspored završetka, potrebnu razumljivost i kvalitetu rezultata te sva pitanja vezana uz sigurnost podataka i pravna pitanja. Provjerite imate li dopuštenje za korištenje podataka. Navedite pretpostavke napravljene projektom. To mogu biti pretpostavke o podacima koje je moguće provjeriti tijekom rudarenja podataka, ali mogu uključivati ​​i neprovjerljive pretpostavke o poslovanju povezanom s projektom. Potonje je važno navesti ako utječu na valjanost rezultata. Navedite ograničenja na projektu. To mogu biti ograničenja dostupnosti resursa, ali također mogu uključivati ​​tehnološka ograničenja kao što je veličina skupa podataka koji je praktično koristiti za modeliranje.Rizici i nepredviđene situacije:Navedite rizike ili događaje koji bi mogli odgoditi projekt ili uzrokovati njegov neuspjeh. Navedite odgovarajuće planove za nepredviđene situacije, poput radnji koje ćete poduzeti ako se ti rizici ili događaji dogode?Terminologija:Sastavite rječnik terminologije relevantne za projekt. To će općenito imati dvije komponente:
    • Rječnik relevantne poslovne terminologije čini dio poslovnog razumijevanja dostupnog projektu. Izrada ovog pojmovnika korisna je vježba za 'izvlačenje znanja' i obrazovanje.
    • Rječnik terminologije rudarenja podataka ilustriran je primjerima relevantnim za poslovni problem.
    Troškovi i koristi:Izradite analizu troškova i koristi za projekt, koja uspoređuje troškove projekta s potencijalnim koristima za poslovanje ako bude uspješan. Ova usporedba treba biti što konkretnija. Na primjer, trebali biste koristiti financijske mjere u komercijalnoj situaciji.

Odredite ciljeve rudarenja podataka

Poslovni cilj navodi ciljeve u poslovnoj terminologiji. Cilj rudarenja podataka navodi ciljeve projekta u tehničkom smislu. Na primjer, poslovni cilj može biti povećanje kataloške prodaje postojećim kupcima. Cilj rudarenja podataka može biti predviđanje koliko će widgeta kupac kupiti, s obzirom na njihove kupnje u posljednje tri godine, demografske podatke (dob, plaća, grad itd.) i cijenu artikla.

    Kriteriji poslovnog uspjeha:Opisuje predviđene rezultate projekta koji omogućuju postizanje poslovnih ciljeva.Kriteriji uspjeha rudarenja podataka:Definira kriterije za uspješan ishod projekta. Na primjer, određena razina točnosti predviđanja ili profil sklonosti kupnji s danim stupnjem 'pojačanja'. Kao i kod kriterija poslovnog uspjeha, možda će biti potrebno opisati ih subjektivnim terminima, u kojem slučaju treba identificirati osobu ili osobe koje donose subjektivnu prosudbu.

Izradite plan projekta

Opišite planirani plan za postizanje ciljeva rudarenja podataka i poslovnih ciljeva. Vaš plan bi trebao specificirati korake koje treba izvesti tijekom ostatka projekta, uključujući početni odabir alata i tehnika.

1. Plan projekta: Navedite faze koje treba izvršiti u projektu, s njihovim trajanjem, potrebnim resursima, ulazima, izlazima i ovisnostima. Gdje je to moguće, pokušajte eksplicitno navesti iteracije velikih razmjera u procesu rudarenja podataka, na primjer, ponavljanje faza modeliranja i evaluacije.

Kao dio projektnog plana, važno je analizirati ovisnosti između vremenskih rasporeda i rizika. Označite rezultate ovih analiza eksplicitno u planu projekta, idealno s radnjama i preporukama ako se rizici očituju. Odlučite koja će se strategija evaluacije koristiti u fazi evaluacije.

Vaš projektni plan bit će dinamičan dokument. Na kraju svake faze pregledat ćete napredak i postignuća te u skladu s tim ažurirati plan projekta. Specifične točke pregleda za ova ažuriranja trebaju biti dio plana projekta.

2. Početna procjena alata i tehnika: Na kraju prve faze trebali biste izvršiti početnu procjenu alata i tehnika. Na primjer, odaberete alat za rudarenje podataka koji podržava različite metode za različite faze procesa. Važno je procijeniti alate i tehnike rano u procesu budući da odabir alata i tehnika može utjecati na cijeli projekt.

preimenovanje imenika u linuxu

Faza 2: Razumijevanje podataka

Druga faza procesa CRISP-DM zahtijeva prikupljanje podataka navedenih u resursima projekta. Ovo početno prikupljanje uključuje učitavanje podataka ako je to potrebno za razumijevanje podataka. Na primjer, ako koristite određeni alat za razumijevanje podataka, savršeno je logično učitati svoje podatke u ovaj alat. Ako nabavite više izvora podataka, morate razmotriti kako i kada ćete ih integrirati.

    Početno izvješće o prikupljanju podataka:Navedite prikupljene izvore podataka, njihove lokacije, metode korištene za njihovo prikupljanje i sve probleme na koje ste naišli. Zabilježite probleme na koje ste naišli i sva postignuta rješenja. To će pomoći u budućem ponavljanju ovog projekta i izvršenju sličnih budućih projekata.

Opišite podatke

Ispitajte 'bruto' ili 'površinska' svojstva prikupljenih podataka i izvijestite o rezultatima.

    Izvješće o opisu podataka:Opišite podatke koji su prikupljeni, uključujući njihov format, njihovu količinu, identitete polja i sve druge površinske značajke koje su otkrivene. Ocijenite zadovoljavaju li prikupljeni podaci vaše zahtjeve.

Istražite podatke

Tijekom ove faze bavit ćete se pitanjima rudarenja podataka korištenjem upita, vizualizacije podataka i tehnika izvješćivanja. To može uključivati:

  • Distribucija ključnih atributa
  • Odnosi između parova ili malog broja atributa
  • Rezultati jednostavnih agregacija
  • Svojstva značajnih sub-populacija
  • Jednostavne statističke analize

Ove analize mogu se izravno odnositi na vaše ciljeve rudarenja podataka. Oni mogu doprinijeti opisu podataka i izvješćima o kvaliteti ili ih poboljšati te se mogu uključiti u transformaciju i druge korake pripreme podataka potrebnih za daljnju analizu.

    Izvješće o istraživanju podataka:Opišite rezultate vašeg istraživanja podataka, uključujući prve nalaze ili početnu hipotezu i njihov utjecaj na ostatak projekta. Ako je prikladno, ovdje možete uključiti grafikone i dijagrame kako biste naznačili karakteristike podataka koje sugeriraju daljnje ispitivanje zanimljivih podskupova podataka.

Provjerite kvalitetu podataka

Ispitajte kvalitetu podataka, baveći se pitanjima kao što su:

  • Jesu li podaci potpuni ili pokrivaju sve tražene slučajeve?
  • Je li ispravan ili sadrži pogreške, a ako postoje, koliko su česte?
  • Nedostaju li vrijednosti u podacima? Ako jesu, kako su zastupljeni, gdje se javljaju i koliko su česti?

Izvješće o kvaliteti podataka

Navedite rezultate provjere kvalitete podataka. Ako postoje problemi s kvalitetom, predložite moguća rješenja. Rješenja problema s kvalitetom podataka općenito uvelike ovise o podacima i poslovnom znanju.

Faza 3: Priprema podataka

U ovoj fazi projekta odlučujete o podacima koje ćete koristiti za analizu. Kriteriji koje biste mogli koristiti za donošenje ove odluke uključuju relevantnost podataka za vaše ciljeve rudarenja podataka, kvalitetu podataka i tehnička ograničenja kao što su ograničenja količine podataka ili vrsta podataka.

    Obrazloženje za uključivanje/isključivanje:Navedite podatke koje treba uključiti/isključiti i razloge za te odluke.

Očistite svoje podatke

Ovaj zadatak uključuje podizanje kvalitete podataka na razinu koju zahtijevaju tehnike analize koje ste odabrali. To može uključivati ​​odabir čistih podskupova podataka, umetanje odgovarajućih zadanih vrijednosti ili ambicioznije tehnike kao što je procjena podataka koji nedostaju modeliranjem.

slušaj luku
    Izvješće o čišćenju podataka:Opišite koje ste odluke i radnje poduzeli za rješavanje problema s kvalitetom podataka. Razmotrite sve transformacije podataka napravljene u svrhu čišćenja i njihov mogući utjecaj na rezultate analize.

Konstruirajte potrebne podatke

Ovaj zadatak uključuje konstruktivne operacije pripreme podataka kao što je proizvodnja izvedenih atributa, cijelih novih zapisa ili transformiranih vrijednosti za postojeće atribute.

    Izvedeni atributi:To su novi atributi konstruirani od jednog ili više postojećih atributa u istom zapisu. Na primjer, možete koristiti varijable duljine i širine za izračun nove varijable površine.Generirani zapisi:Ovdje opisujete stvaranje potpuno novih zapisa. Na primjer, možda ćete morati stvoriti zapise za kupce koji nisu kupovali tijekom prošle godine. Nije bilo razloga za takve zapise u neobrađenim podacima. Ipak, moglo bi imati smisla predstaviti da su određeni kupci eksplicitno izvršili nultu kupnju u svrhu modeliranja.

Integrirajte podatke

upravitelj zadataka u linuxu

Ove metode kombiniraju informacije iz više baza podataka, tablica ili zapisa za stvaranje novih zapisa ili vrijednosti.

    Spojeni podaci:Spajanje tablica odnosi se na spajanje dviju ili više tablica s različitim informacijama o istim objektima. Na primjer, trgovački lanac može imati jednu tablicu s informacijama o općim karakteristikama svake trgovine (npr. površina, vrsta trgovačkog centra), drugu tablicu sa sažetim podacima o prodaji (npr. dobit, postotna promjena u prodaji iz prethodne godine) i drugi s podacima o demografiji okolnog područja. Svaka od ovih tablica sadrži jedan zapis za svaku trgovinu. Ove se tablice mogu spojiti u novu tablicu s jednim zapisom za svaku trgovinu, kombinirajući polja iz izvornih tablica.Agregacije:Agregacije su operacije u kojima se nove vrijednosti izračunavaju sažimanjem informacija iz više zapisa ili tablica. Na primjer, pretvaranje tablice kupnji kupaca u kojoj je jedan zapis za svaku kupnju u novu tablicu i jedan zapis za svakog kupca, s poljima kao što su broj kupnji, prosječni iznos kupnje, postotak narudžbi naplaćenih s kreditne kartice, postotak stavki pod promocijom itd.

Faza 4: Modeliranje

Odaberite tehniku ​​modeliranja: Kao prvi korak, odabrat ćete osnovnu tehniku ​​modeliranja koju ćete koristiti. Iako ste možda već odabrali alat tijekom faze poslovnog razumijevanja, u ovoj fazi ćete odabrati specifičnu tehniku ​​modeliranja, npr. izgradnja stabla odlučivanja s C5.0 ili generiranje neuronske mreže s povratnom propagacijom. Ako se primjenjuje više tehnika, izvršite ovaj zadatak zasebno za svaku tehniku.

    Tehnika modeliranja:Dokumentirajte osnovnu tehniku ​​modeliranja koja će se koristiti.Pretpostavke modeliranja:Mnoge tehnike modeliranja donose specifične pretpostavke o podacima, na primjer da svi atributi imaju jednoliku distribuciju, da nisu dopuštene vrijednosti koje nedostaju, atribut klase mora biti simboličan itd. Zabilježite sve napravljene pretpostavke.

Generirajte dizajn testa

Prije nego što izgradite model, morate generirati proceduru ili mehanizam za testiranje kvalitete i valjanosti modela. Na primjer, u nadziranim zadacima rudarenja podataka kao što je klasifikacija, uobičajeno je koristiti stope pogrešaka kao mjere kvalitete za modele rudarenja podataka. Stoga obično odvojite skup podataka u niz i testne skupove, izgradite model na nizu i procijenite njegovu kvalitetu na zasebnom testnom skupu.

    Dizajn testa:Opišite predviđeni plan za obuku, testiranje i procjenu modela. Primarna komponenta plana je određivanje kako podijeliti dostupni skup podataka na skupove podataka za obuku, testiranje i validaciju.

Izradi model

Pokrenite alat za modeliranje na pripremljenom skupu podataka za izradu jednog ili više modela.

    Postavke parametara:S bilo kojim alatom za modeliranje često postoji veliki broj parametara koji se mogu prilagoditi. Navedite parametre, njihove vrijednosti i razloge za odabir postavki parametara.Modeli:Ovo su modeli koje proizvodi alat za modeliranje, a ne izvješće o modelima.Opis modela:Opišite dobivene modele, izvijestite o interpretaciji modela i dokumentirajte sve poteškoće s njihovim značenjima.

Procijenite model

Interpretirajte modele u skladu sa svojim znanjem o domeni, kriterijima uspješnosti rudarenja podataka i željenim dizajnom testa. Procijenite uspješnost primjene tehnika modeliranja i otkrivanja, a zatim kasnije kontaktirajte poslovne analitičare i stručnjake za domenu kako biste raspravili rezultate rudarenja podataka u poslovnom kontekstu. Ovaj zadatak razmatra samo modele, dok faza evaluacije također uzima u obzir sve druge rezultate proizvedene tijekom projekta.

U ovoj fazi trebate rangirati modele i ocijeniti ih prema kriterijima ocjenjivanja. Ovdje biste trebali razmotriti poslovne ciljeve i kriterije uspjeha koliko god možete. U većini projekata rudarenja podataka jedna se tehnika primjenjuje više puta, a rezultati rudarenja podataka generiraju se pomoću nekoliko različitih tehnika.

    Procjena modela:Sažetak rezultata ovog zadatka, popis kvaliteta vaših generiranih modela (npr. u smislu točnosti) i rangiranje njihove kvalitete međusobno.Revidirane postavke parametara:Prema procjeni modela, revidirajte ih i prilagodite za sljedeće modeliranje. Ponavljajte izradu modela i procjenu dok ne budete čvrsto uvjereni da ste pronašli najbolji model(e). Dokumentirajte sve takve revizije i procjene.

Faza 5: Evaluacija

Ocijenite svoje rezultate: Prethodni koraci ocjenjivanja bavili su se faktorima kao što su točnost i općenitost modela. Tijekom ovog koraka procijenit ćete stupanj do kojeg model ispunjava vaše poslovne ciljeve i nastojati utvrditi postoji li neki poslovni razlog zašto je ovaj model manjkav. Druga je mogućnost testirati model na testnim aplikacijama u stvarnoj aplikaciji ako vremenska i proračunska ograničenja to dopuštaju. Faza evaluacije također uključuje procjenu svih drugih rezultata rudarenja podataka koje ste generirali. Rezultati rudarenja podataka uključuju modele koji su nužno povezani s izvornim poslovnim ciljevima i sve druge nalaze koji nisu nužno povezani s izvornim poslovnim ciljevima, ali također mogu otkriti dodatne izazove, informacije ili savjete za buduće smjerove.

    Procjena rezultata rudarenja podataka:Sažmite rezultate procjene u kriterijima poslovnog uspjeha, uključujući konačnu izjavu o tome ispunjava li projekt već početne poslovne ciljeve.Odobreni modeli:Nakon procjene modela prema kriterijima uspješnosti poslovanja, generirani modeli koji zadovoljavaju odabrane kriterije postaju odobreni modeli.

Postupak pregleda

U ovom trenutku se čini da su dobiveni modeli zadovoljavajući i da zadovoljavaju poslovne potrebe. Sada je prikladno da izvršite temeljitiji pregled angažmana rudarenja podataka kako biste utvrdili postoji li važan čimbenik ili zadatak koji je na neki način previđen. Ovaj pregled također pokriva pitanja osiguranja kvalitete. Na primjer: jesmo li ispravno izradili model? Jesmo li koristili samo atribute koje smijemo koristiti i koji su dostupni za buduće analize?

    Pregled procesa:Sažeti pregled procesa i istaknuti aktivnosti koje su propuštene i one koje bi trebalo ponoviti.

Odredite sljedeće korake

Sada odlučujete kako ćete nastaviti ovisno o rezultatima procjene i pregledu procesa. Hoćete li završiti ovaj projekt i prijeći na implementaciju, pokrenuti daljnja ponavljanja ili postaviti nove projekte rudarenja podataka? Također biste trebali procijeniti svoje preostale resurse i proračun, što može utjecati na vaše odluke.

    Popis mogućih radnji:Navedite moguće daljnje radnje i razloge za i protiv svake opcije.Odluka:Opišite odluku o tome kako postupiti, zajedno s obrazloženjem.

Faza 6: Uvođenje

Planirajte implementaciju: U fazi implementacije, uzet ćete svoje rezultate procjene i odrediti strategiju za njihovu implementaciju. Ako je identificiran opći postupak za stvaranje relevantnog(ih) modela(a), ovaj postupak je ovdje dokumentiran za kasniju implementaciju. Ima smisla razmotriti načine i sredstva implementacije tijekom faze poslovnog razumijevanja jer je implementacija ključna za uspjeh projekta. Ovo je mjesto gdje prediktivna analitika pomaže poboljšati operativnu stranu vašeg poslovanja.

    Plan implementacije:Sažmite svoju strategiju postavljanja, uključujući potrebne korake i kako ih izvesti.

Planirajte praćenje i održavanje

Praćenje i održavanje važna su pitanja ako rezultat rudarenja podataka postane dio svakodnevnog poslovanja i njegovog okruženja. Pažljiva priprema strategije održavanja pomaže u izbjegavanju nepotrebno dugih razdoblja netočnog korištenja rezultata rudarenja podataka. Projektu je potreban detaljan plan procesa praćenja kako bi se pratila implementacija rezultata rudarenja podataka. Ovaj plan uzima u obzir specifičnu vrstu postavljanja.

    Plan praćenja i održavanja:Sažeti strategiju praćenja i održavanja, uključujući potrebne korake i kako ih izvesti.

Izraditi konačno izvješće

Na kraju projekta ćete napisati završni izvještaj. Ovisno o planu implementacije, ovo izvješće može biti samo sažetak projekta i njegovih iskustava (ako već nisu dokumentirana kao tekuća aktivnost) ili može biti konačna i sveobuhvatna prezentacija rezultata rudarenja podataka.

    Završno izvješće:Ovo je konačno pisano izvješće o angažmanu rudarenja podataka. Uključuje sve prethodne rezultate, sažimanje i organiziranje rezultata.Završna prezentacija:Nakon projekta često će se održati sastanak na kojem se klijentu prezentiraju rezultati.

Pregledajte projekt

skraćivanje i brisanje razlike

Procijenite što je bilo dobro, a što nije, što je učinjeno dobro, a što treba poboljšati.

    Dokumentacija o iskustvu:Sažeti važno iskustvo stečeno tijekom projekta. Na primjer, ova dokumentacija može uključivati ​​sve zamke na koje ste naišli, pogrešne pristupe ili savjete za odabir najprikladnijih tehnika rudarenja podataka u sličnim situacijama. U idealnim projektima, dokumentacija o iskustvima također pokriva sva izvješća koja su pojedinačni članovi projekta napisali tijekom prethodnih faza projekta.