Uvod
Strojno učenje je reformiralo način na koji obrađujemo i ispitujemo podatke, a algoritmi stabla odlučivanja poznata su odluka za zadatke klasifikacije i regresije. Ginijev indeks, inače nazvan Ginijeva nečistoća ili Ginijev koeficijent, značajna je mjera nečistoće koja se koristi u algoritmima stabla odlučivanja. U ovom članku iscrpno ćemo istražiti ideju Gini indeksa, njegovu numeričku formulu i njegove primjene u strojnom učenju. Isto tako ćemo usporediti Ginijev indeks i druge mjere nečistoće, govoriti o njegovim ograničenjima i prednostima, te pregledati kontekstualne analize njegovih primjena u stvarnom svijetu. Napokon, ovdje ćemo predstaviti buduće ležajeve za istraživanje.
Što je Gini indeks?
Ginijev indeks je udio nečistoće ili nejednakosti u statističkim i monetarnim postavkama. U strojnom učenju koristi se kao mjera nečistoće u algoritmima stabla odlučivanja za zadatke klasifikacije. Ginijev indeks mjeri vjerojatnost da slučajno odabrani test bude pogrešno klasificiran algoritmom stabla odlučivanja, a njegova vrijednost ide od 0 (savršeno čisto) do 1 (savršeno nečisto).
Formula Gini indeksa
Ginijev indeks je udio nečistoće ili nejednakosti cirkulacije, redovito se koristi kao mjera nečistoće u algoritmima stabla odlučivanja. Što se tiče stabla odlučivanja, Ginijev indeks koristi se za određivanje najbolje značajke za dijeljenje podataka na svakom čvoru stabla.
Formula za Gini indeks je sljedeća:
gdje je pi vjerojatnost da stvar ima mjesto u određenoj klasi.
Na primjer, trebali bismo razmotriti problem binarne klasifikacije s dvije klase An i B. U slučaju da je vjerojatnost klase An p, a vjerojatnost klase B (1-p), tada se Ginijev indeks može izračunati kao :
Vrijednost Ginijevog indeksa kreće se od 0,0 do 0,5 za probleme binarne klasifikacije, gdje 0,0 pokazuje savršeno čist čvor (svi primjeri imaju mjesto u sličnoj klasi), a 0,5 pokazuje savršeno nečist čvor (testovi su jednako raspoređeni u dvije klase ).
Korištenje Ginijevog indeksa u problemima klasifikacije
Ginijev indeks općenito se koristi kao mjera nečistoće u algoritmima stabla odlučivanja za probleme klasifikacije. U stablima odlučivanja, svaki čvor se obraća elementu, a cilj je podijeliti podatke u podskupove koji su u biti onoliko čisti koliko se može očekivati. Mjera nečistoće (poput Gini indeksa) koristi se za odlučivanje o najboljoj podjeli u svakom čvoru.
Da bismo to ilustrirali, trebali bismo razmotriti primjer stabla odlučivanja za problem binarne klasifikacije. Stablo ima dva elementa: dob i prihod, a cilj je predvidjeti bez obzira na to hoće li pojedinac vjerojatno kupiti predmet. Stablo je konstruirano korištenjem Gini indeksa kao mjere nečistoće.
U korijenskom čvoru Ginijev indeks izračunava se s obzirom na vjerojatnost da primjeri imaju mjesto u klasi 0 ili klasi 1. Čvor se dijeli s obzirom na komponentu koja rezultira najvećim smanjenjem Ginijevog indeksa. Ovaj se ciklus rekurzivno ponavlja za svaki podskup dok se ne postigne mjera zaustavljanja.
Stabla odlučivanja
Stablo odlučivanja dobro je poznati algoritam strojnog učenja koji se koristi za zadatke klasifikacije i regresije. Model se radi rekurzivnim dijeljenjem skupa podataka u skromnije podskupove u svjetlu vrijednosti istaknutih informacija, utvrđenih da ograniče nečistoću sljedećih podskupova.
U svakom čvoru stabla donosi se odluka u pogledu vrijednosti jednog od istaknutih informacija, s krajnjim ciljem da naredni podskupovi budu u osnovi onoliko čisti koliko se doista moglo očekivati. Čistoća podskupa redovito se procjenjuje mjerom nečistoće, na primjer, Ginijevim indeksom ili entropijom.
Algoritam stabla odlučivanja može se koristiti i za zadatke binarne i višeklasne klasifikacije, kao i za zadatke regresije. U zadacima binarne klasifikacije, stablo odlučivanja dijeli skup podataka u dva podskupa u svjetlu vrijednosti binarne značajke, poput da ili ne. U zadacima klasifikacije s više klasa, stablo odlučivanja dijeli skup podataka u brojne podskupove u svjetlu vrijednosti izravnog obilježja, poput crvene, zelene ili plave.
Ginijev indeks u odnosu na druge mjere nečistoće
Osim Ginijevog indeksa, postoje i druge mjere nečistoće koje se obično koriste u algoritmima stabla odlučivanja, na primjer, entropija i dobitak informacija.
Entropija:
U strojnom učenju, entropija je udio nepravilnosti ili ranjivosti u hrpi podataka. Općenito se koristi kao mjera nečistoće u algoritmima stabla odlučivanja, uz Ginijev indeks.
U algoritmima stabla odlučivanja, entropija se koristi za odlučivanje o najboljoj komponenti na koju će se podijeliti podaci u svakom čvoru stabla. Cilj je pronaći element koji rezultira najvećim smanjenjem entropije, što se odnosi na komponentu koja daje najviše informacija o problemu klasifikacije.
Dok se entropija i Ginijev indeks normalno koriste kao mjere nečistoće u algoritmima stabla odlučivanja, oni imaju različita svojstva. Entropija je delikatnija za kruženje naziva klasa i općenito će dati više prilagođenih stabala, dok je Ginijev indeks manje osjetljiv na prisvajanje oznaka klasa i općenito će stvoriti ograničenija stabla s manje podjela. Odluka o mjeri nečistoće oslanja se na određeni problem i atribute podataka.
Dobitak informacija:
Dobivanje informacija je radnja koja se koristi za procjenu prirode podjele tijekom izgradnje stabla odlučivanja. Cilj stabla odlučivanja je podijeliti podatke u podskupove koji su u osnovi onoliko homogeni koliko je to moguće zamislivo kao što se tiče varijable cilja, tako da se naknadno stablo može koristiti za točna očekivanja novih podataka. Dobitak informacija mjeri smanjenje entropije ili nečistoće postignuto razdvajanjem. Značajka s najvećim prirastom informacija odabire se kao najbolja značajka za raspodjelu na svakom čvoru stabla odlučivanja.
Dobitak informacija obično je uključena mjera za procjenu prirode podjela u stablima odlučivanja, ali nije mjera na koju se treba usredotočiti. Različite mjere, na primjer, Ginijev indeks ili stopa pogrešne klasifikacije, također se mogu koristiti. Odluka o osnovi podjele oslanja se na glavno pitanje i atribute skupa podataka koji se koristi.
Primjer Gini indeksa
Trebali bismo razmotriti problem binarne klasifikacije gdje imamo skup podataka od 10 primjera s dvije klase: 'Pozitivno' i 'Negativno'. Od 10 primjera, 6 ima mjesto u klasi 'Pozitivno', a 4 ima mjesto u klasi 'Negativno'.
Kako bismo izračunali Ginijev indeks skupa podataka, prvo izračunavamo vjerojatnost svake klase:
p_1 = 6/10 = 0,6 (Pozitivno)
p_2 = 4/10 = 0,4 (negativno)
Tada, u tom trenutku, koristimo formulu Gini indeksa za izračunavanje nečistoće skupa podataka:
Gini(S) = 1 - (p_1^2 + p_2^2)
= 1 - (0,6^2 + 0,4^2)
= 0,48
Dakle, Gini indeks skupa podataka je 0,48.
Pretpostavimo da trebamo podijeliti skup podataka na element 'X' koji ima dvije potencijalne vrijednosti: 'A' i 'B'. Podijelili smo skup podataka u dva podskupa s obzirom na komponentu:
Podskup 1 (X = A): 4 pozitivna, 1 negativan
Podskup 2 (X = B): 2 pozitivna, 3 negativna
Kako bismo izračunali smanjenje Ginijevog indeksa za ovu podjelu, prvo izračunavamo Ginijev indeks svakog podskupa:
Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32
Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48
Zatim koristimo formulu za dobivanje informacija kako bismo izračunali smanjenje Ginijevog indeksa:
IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))
= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))
= 0,08
Dakle, dobitak informacija (tj. smanjenje Ginijevog indeksa) za dijeljenje skupa podataka na istaknuti 'X' je 0,08.
Za ovu situaciju, u slučaju da izračunamo informacijski dobitak za sve elemente i odaberemo onaj s najzapaženijim informacijskim dobitkom, ta bi komponenta bila odabrana kao najbolja komponenta za dijeljenje u korijenskom čvoru stabla odlučivanja.
Prednosti:
Ginijev indeks široko je uključena mjera za procjenu prirode podjela u stablima odlučivanja i ima nekoliko prednosti u odnosu na različite mjere, na primjer, entropiju ili stopu pogrešne klasifikacije. Evo dijela glavnih prednosti korištenja Gini indeksa:
podebljajte tekst u cssu
Računalno učinkovito: Ginijev indeks je manje složena i računski brža mjera za razliku od različitih mjera, na primjer, entropije, koja uključuje izračunavanje logaritama.
Intuitivno tumačenje: Ginijev indeks je jednostavan za tumačenje. Mjeri vjerojatnost da slučajno odabrani primjer iz skupa bude netočno klasificiran u slučaju da je slučajno označen prema načinu prijenosa klase u skupu.
Dobro za binarnu klasifikaciju: Ginijev indeks posebno je moćan za probleme binarne klasifikacije, gdje varijabla cilja ima samo dvije klase. U takvim slučajevima poznato je da je Ginijev indeks stabilniji od različitih mjera.
Neravnoteža otpornosti na klasu: Ginijev indeks manje je osjetljiv na klasnu neravnotežu u usporedbi s različitim mjerama, na primjer, stopom preciznosti ili pogrešne klasifikacije. To je na temelju toga što Ginijev indeks ovisi o općem opsegu primjera u svakoj klasi za razliku od izravnih brojeva.
Manje skloni prekomjernom opremanju: Ginijev indeks općenito će napraviti skromnija stabla odlučivanja u kontrastu s različitim mjerama, što ga čini manje sklonim prekomjernom prilagođavanju. To je na temelju činjenice da će Ginijev indeks općenito favorizirati značajke koje čine skromnije pakete podataka, što umanjuje mogućnosti prekomjernog opremanja.
Nedostaci:
Iako Ginijev indeks ima nekoliko prednosti kao mjera razdvajanja za stabla odlučivanja, on isto tako ima nekoliko nedostataka. Evo dijela glavnih nedostataka korištenja Gini indeksa:
Pristranost prema značajkama s mnogo kategorija: Ginijev indeks općenito će se oslanjati na značajke s mnogo kategorija ili vrijednosti, jer mogu napraviti više podjela i paketa podataka. To može potaknuti prekomjerno opremanje i kompliciranije stablo odlučivanja.
Nije dobro za kontinuirane varijable: Ginijev indeks nije prikladan za kontinuirane varijable, budući da zahtijeva diskretizaciju varijable u kategorije ili spremnike, što može dovesti do gubitka informacija i smanjene točnosti.
Zanemaruje interakcije značajki: Ginijev indeks samo razmišlja o individualnoj snazi predviđanja svake značajke i zanemaruje interakcije između značajki. To može potaknuti loše podjele i manje točne prognoze.
Nije idealno za neke skupove podataka: ponekad Ginijev indeks možda nije idealna mjera za procjenu prirode podjela u stablu odlučivanja. Na primjer, u slučaju da je objektivna varijabla iznimno nagnuta ili neuravnotežena, različite mjere, na primjer, dobitak informacija ili udio dobitka mogu biti prikladniji.
Sklon pristranosti u prisutnosti nedostajućih vrijednosti: Ginijev indeks može biti pristran u prisutnosti nedostajućih vrijednosti, budući da će općenito težiti značajkama s manje nedostajućih vrijednosti, bez obzira na to nisu li najinformativnije.
Primjena Gini indeksa u stvarnom svijetu
Ginijev indeks korišten je u različitim aplikacijama u strojnom učenju, na primjer, lokacija iznude, kreditno bodovanje i podjela klijenata. Na primjer, u otkrivanju iznude, Gini Index se može koristiti za razlikovanje dizajna u razmjeni podataka i prepoznavanje bizarnih načina ponašanja. U kreditnom bodovanju, Ginijev indeks može se koristiti za predviđanje vjerojatnosti neispunjavanja obveza s obzirom na varijable kao što su prihod, odnos nepodmirenog duga i plaće i evidenciju otplate kredita. U podjeli klijenata, Gini indeks se može koristiti za grupiranje klijenata s obzirom na njihov način ponašanja i sklonosti.
Buduća istraživanja
Bez obzira na njegovu bezgraničnu upotrebu u algoritmima stabla odlučivanja, još uvijek postoji stupanj za istraživanje Ginijevog indeksa. Jedno područje istraživanja je napredak novih mjera nečistoća koje se mogu pozabaviti ograničenjima Ginijevog indeksa, poput njegove sklonosti čimbenicima s više razina. Još jedno područje istraživanja je pojednostavljenje algoritama stabla odlučivanja korištenjem Gini indeksa, na primjer, korištenje tehnika opreme za rad na preciznosti stabla odlučivanja.
Zaključak
Ginijev indeks značajna je mjera nečistoće koja se koristi u algoritmima stabla odlučivanja za zadatke klasifikacije. Mjeri vjerojatnost da slučajno odabrani test bude pogrešno klasificiran algoritmom stabla odlučivanja, a njegova vrijednost ide od 0 (savršeno čisto) do 1 (savršeno nečisto). Gini Index je jednostavan i izvediv, računalno produktivan i moćan za iznimke. Korišten je u različitim primjenama u strojnom učenju, na primjer, otkrivanje lažnog predstavljanja, kreditno bodovanje i podjela klijenata. Iako Ginijev indeks ima nekoliko ograničenja, još uvijek postoji stupanj za istraživanje o njegovom poboljšanju i poboljšanju novih mjera nečistoća.