Kao što znamo, algoritam nadziranog strojnog učenja može se općenito klasificirati u regresijske i klasifikacijske algoritme. U regresijskim algoritmima predvidjeli smo izlaz za kontinuirane vrijednosti, ali za predviđanje kategoričkih vrijednosti potrebni su nam algoritmi klasifikacije.
Što je algoritam klasifikacije?
Klasifikacijski algoritam je tehnika nadziranog učenja koja se koristi za identifikaciju kategorije novih opažanja na temelju podataka o obuci. U Klasifikaciji, program uči iz zadanog skupa podataka ili opažanja, a zatim razvrstava nova opažanja u nekoliko klasa ili grupa. kao npr. Da ili Ne, 0 ili 1, Spam ili Ne Spam, mačka ili pas, itd. Klase se mogu zvati kao ciljevi/oznake ili kategorije.
jednako java
Za razliku od regresije, izlazna varijabla klasifikacije je kategorija, a ne vrijednost, kao što je 'zeleno ili plavo', 'voće ili životinja', itd. Budući da je algoritam klasifikacije tehnika nadziranog učenja, stoga uzima označene ulazne podatke, koji znači da sadrži ulaz s odgovarajućim izlazom.
U algoritmu klasifikacije diskretna izlazna funkcija (y) preslikava se na ulaznu varijablu (x).
y=f(x), where y = categorical output
Najbolji primjer ML klasifikacijskog algoritma je Detektor neželjene e-pošte .
Glavni cilj algoritma klasifikacije je identificirati kategoriju danog skupa podataka, a ti se algoritmi uglavnom koriste za predviđanje rezultata za kategoričke podatke.
Klasifikacijski algoritmi mogu se bolje razumjeti korištenjem donjeg dijagrama. U donjem dijagramu postoje dvije klase, klasa A i klasa B. Ove klase imaju značajke koje su slične jedna drugoj i različite od drugih klasa.
Algoritam koji implementira klasifikaciju na skup podataka poznat je kao klasifikator. Postoje dvije vrste klasifikacija:
Primjeri: DA ili NE, MUŠKO ili ŽENSKO, SPAM ili NE SPAM, MAČKA ili PAS, itd.
Primjer: Klasifikacije vrsta usjeva, Klasifikacija vrsta glazbe.
Učenici u problemima klasifikacije:
U problemima klasifikacije postoje dvije vrste učenika:
Primjer: K-NN algoritam, zaključivanje na temelju slučaja
Vrste algoritama ML klasifikacije:
Algoritmi klasifikacije mogu se dalje podijeliti u uglavnom dvije kategorije:
- Logistička regresija
- Potporni vektorski strojevi
- K-najbliži susjedi
- Kernel SVM
- Naive Bayes
- Klasifikacija stabla odlučivanja
- Slučajna klasifikacija šuma
Napomena: Gore navedene algoritme ćemo naučiti u kasnijim poglavljima.
Ocjenjivanje modela klasifikacije:
Nakon što je naš model dovršen, potrebno je procijeniti njegovu izvedbu; ili je to klasifikacijski ili regresijski model. Dakle, za procjenu modela klasifikacije imamo sljedeće načine:
1. Log gubitak ili gubitak unakrsne entropije:
- Koristi se za procjenu izvedbe klasifikatora, čiji je izlaz vrijednost vjerojatnosti između 0 i 1.
- Za dobar model binarne klasifikacije, vrijednost gubitka dnevnika trebala bi biti blizu 0.
- Vrijednost log gubitaka raste ako predviđena vrijednost odstupa od stvarne vrijednosti.
- Manji log gubitak predstavlja veću točnost modela.
- Za binarnu klasifikaciju, unakrsna entropija se može izračunati kao:
?(ylog(p)+(1?y)log(1?p))
Gdje je y= stvarni izlaz, p= predviđeni izlaz.
ponovno pokrenite mysql ubuntu
2. Matrica zabune:
- Matrica zabune daje nam matricu/tablicu kao izlaz i opisuje performanse modela.
- Također je poznata kao matrica grešaka.
- Matrica se sastoji od rezultata predviđanja u sažetom obliku, koji ima ukupan broj točnih predviđanja i netočnih predviđanja. Matrica izgleda kao u tabeli ispod:
Stvarno pozitivno | Stvarno negativno | |
---|---|---|
Predviđeno pozitivno | True Positive | Lažno pozitivno |
Predviđeno negativno | Lažno negativno | Istinski negativan |
3. Krivulja AUC-ROC:
- ROC krivulja označava Krivulja radnih karakteristika prijemnika a AUC označava Područje ispod krivulje .
- To je grafikon koji prikazuje izvedbu modela klasifikacije na različitim pragovima.
- Za vizualizaciju izvedbe modela klasifikacije s više klasa koristimo krivulju AUC-ROC.
- ROC krivulja se iscrtava s TPR i FPR, gdje je TPR (stvarna pozitivna stopa) na Y-osi, a FPR (lažno pozitivna stopa) na X-osi.
Slučajevi uporabe algoritama klasifikacije
Klasifikacijski algoritmi mogu se koristiti na različitim mjestima. Ispod su neki popularni slučajevi upotrebe algoritama klasifikacije:
- Otkrivanje neželjene e-pošte
- Prepoznavanje govora
- Identifikacije tumorskih stanica raka.
- Klasifikacija lijekova
- Biometrijska identifikacija itd.