logo

Algoritam klasifikacije u strojnom učenju

Kao što znamo, algoritam nadziranog strojnog učenja može se općenito klasificirati u regresijske i klasifikacijske algoritme. U regresijskim algoritmima predvidjeli smo izlaz za kontinuirane vrijednosti, ali za predviđanje kategoričkih vrijednosti potrebni su nam algoritmi klasifikacije.

Što je algoritam klasifikacije?

Klasifikacijski algoritam je tehnika nadziranog učenja koja se koristi za identifikaciju kategorije novih opažanja na temelju podataka o obuci. U Klasifikaciji, program uči iz zadanog skupa podataka ili opažanja, a zatim razvrstava nova opažanja u nekoliko klasa ili grupa. kao npr. Da ili Ne, 0 ili 1, Spam ili Ne Spam, mačka ili pas, itd. Klase se mogu zvati kao ciljevi/oznake ili kategorije.

jednako java

Za razliku od regresije, izlazna varijabla klasifikacije je kategorija, a ne vrijednost, kao što je 'zeleno ili plavo', 'voće ili životinja', itd. Budući da je algoritam klasifikacije tehnika nadziranog učenja, stoga uzima označene ulazne podatke, koji znači da sadrži ulaz s odgovarajućim izlazom.

U algoritmu klasifikacije diskretna izlazna funkcija (y) preslikava se na ulaznu varijablu (x).

 y=f(x), where y = categorical output 

Najbolji primjer ML klasifikacijskog algoritma je Detektor neželjene e-pošte .

Glavni cilj algoritma klasifikacije je identificirati kategoriju danog skupa podataka, a ti se algoritmi uglavnom koriste za predviđanje rezultata za kategoričke podatke.

Klasifikacijski algoritmi mogu se bolje razumjeti korištenjem donjeg dijagrama. U donjem dijagramu postoje dvije klase, klasa A i klasa B. Ove klase imaju značajke koje su slične jedna drugoj i različite od drugih klasa.

Algoritam klasifikacije u strojnom učenju

Algoritam koji implementira klasifikaciju na skup podataka poznat je kao klasifikator. Postoje dvije vrste klasifikacija:

    Binarni klasifikator:Ako problem klasifikacije ima samo dva moguća ishoda, tada se naziva binarni klasifikator.
    Primjeri: DA ili NE, MUŠKO ili ŽENSKO, SPAM ili NE SPAM, MAČKA ili PAS, itd.Klasifikator više klasa:Ako problem klasifikacije ima više od dva ishoda, tada se naziva višeklasni klasifikator.
    Primjer: Klasifikacije vrsta usjeva, Klasifikacija vrsta glazbe.

Učenici u problemima klasifikacije:

U problemima klasifikacije postoje dvije vrste učenika:

    Lijeni učenici:Lazy Learner prvo pohranjuje skup podataka o obuci i čeka dok ne primi testni skup podataka. U slučaju lijenog učenika, klasifikacija se vrši na temelju najsrodnijih podataka pohranjenih u skupu podataka za obuku. Potrebno je manje vremena za trening, ali više za prognoze.
    Primjer: K-NN algoritam, zaključivanje na temelju slučajaŽeljni učenici:Eager Learners razvijaju model klasifikacije temeljen na skupu podataka za obuku prije nego što prime testni skup podataka. Za razliku od Lijenih učenika, Eager Learner oduzima više vremena za učenje, a manje za predviđanje. Primjer: Stabla odlučivanja, Na�ve Bayes, ANN.

Vrste algoritama ML klasifikacije:

Algoritmi klasifikacije mogu se dalje podijeliti u uglavnom dvije kategorije:

    Linearni modeli
    • Logistička regresija
    • Potporni vektorski strojevi
    Nelinearni modeli
    • K-najbliži susjedi
    • Kernel SVM
    • Naive Bayes
    • Klasifikacija stabla odlučivanja
    • Slučajna klasifikacija šuma

Napomena: Gore navedene algoritme ćemo naučiti u kasnijim poglavljima.

Ocjenjivanje modela klasifikacije:

Nakon što je naš model dovršen, potrebno je procijeniti njegovu izvedbu; ili je to klasifikacijski ili regresijski model. Dakle, za procjenu modela klasifikacije imamo sljedeće načine:

1. Log gubitak ili gubitak unakrsne entropije:

  • Koristi se za procjenu izvedbe klasifikatora, čiji je izlaz vrijednost vjerojatnosti između 0 i 1.
  • Za dobar model binarne klasifikacije, vrijednost gubitka dnevnika trebala bi biti blizu 0.
  • Vrijednost log gubitaka raste ako predviđena vrijednost odstupa od stvarne vrijednosti.
  • Manji log gubitak predstavlja veću točnost modela.
  • Za binarnu klasifikaciju, unakrsna entropija se može izračunati kao:
 ?(ylog(p)+(1?y)log(1?p)) 

Gdje je y= stvarni izlaz, p= predviđeni izlaz.

ponovno pokrenite mysql ubuntu

2. Matrica zabune:

  • Matrica zabune daje nam matricu/tablicu kao izlaz i opisuje performanse modela.
  • Također je poznata kao matrica grešaka.
  • Matrica se sastoji od rezultata predviđanja u sažetom obliku, koji ima ukupan broj točnih predviđanja i netočnih predviđanja. Matrica izgleda kao u tabeli ispod:
Stvarno pozitivno Stvarno negativno
Predviđeno pozitivno True Positive Lažno pozitivno
Predviđeno negativno Lažno negativno Istinski negativan
Algoritam klasifikacije u strojnom učenju

3. Krivulja AUC-ROC:

  • ROC krivulja označava Krivulja radnih karakteristika prijemnika a AUC označava Područje ispod krivulje .
  • To je grafikon koji prikazuje izvedbu modela klasifikacije na različitim pragovima.
  • Za vizualizaciju izvedbe modela klasifikacije s više klasa koristimo krivulju AUC-ROC.
  • ROC krivulja se iscrtava s TPR i FPR, gdje je TPR (stvarna pozitivna stopa) na Y-osi, a FPR (lažno pozitivna stopa) na X-osi.

Slučajevi uporabe algoritama klasifikacije

Klasifikacijski algoritmi mogu se koristiti na različitim mjestima. Ispod su neki popularni slučajevi upotrebe algoritama klasifikacije:

  • Otkrivanje neželjene e-pošte
  • Prepoznavanje govora
  • Identifikacije tumorskih stanica raka.
  • Klasifikacija lijekova
  • Biometrijska identifikacija itd.