Hijerarhijsko klasteriranje odnosi se na nenadzirani postupak učenja koji određuje uzastopne klastere na temelju prethodno definiranih klastera. Djeluje putem grupiranja podataka u stablo klastera. Statistika hijerarhijskog klasteriranja tretiranjem svake podatkovne točke kao pojedinačnog klastera. Krajnja točka odnosi se na različiti skup klastera, gdje se svaki klaster razlikuje od drugog klastera, a objekti unutar svakog klastera su isti jedan drugome.
.04 kao razlomak
Postoje dvije vrste hijerarhijskog klasteriranja
- Aglomerativno hijerarhijsko grupiranje
- Razdjelno grupiranje
Aglomerativno hijerarhijsko grupiranje
Aglomerativno grupiranje jedan je od najčešćih tipova hijerarhijskog klasteriranja koje se koristi za grupiranje sličnih objekata u klastere. Aglomerativno grupiranje također je poznato kao AGNES (Agglomerative Nesting). U aglomerativnom klasteriranju, svaka podatkovna točka djeluje kao pojedinačni klaster i u svakom koraku, podatkovni objekti se grupiraju metodom odozdo prema gore. U početku je svaki podatkovni objekt u svom klasteru. U svakoj iteraciji klasteri se kombiniraju s različitim klasterima dok se ne formira jedan klaster.
Algoritam aglomerativnog hijerarhijskog klasteriranja
- Odredite sličnost između jedinki i svih ostalih skupina. (Pronađi matricu blizine).
- Razmotrite svaku podatkovnu točku kao pojedinačni klaster.
- Kombinirajte slične klastere.
- Ponovno izračunajte matricu blizine za svaki klaster.
- Ponovite korak 3 i korak 4 dok ne dobijete jedan klaster.
Razumimo ovaj koncept uz pomoć grafičkog prikaza pomoću dendrograma.
Uz pomoć prikazane demonstracije možemo razumjeti kako stvarni algoritam radi. Ovdje nije napravljen nikakav izračun, a ispod se pretpostavlja sva blizina među klasterima.
Pretpostavimo da imamo šest različitih podatkovnih točaka P, Q, R, S, T, V.
c program za dvodimenzionalni niz
Korak 1:
Razmotrite svaku abecedu (P, Q, R, S, T, V) kao pojedinačnu skupinu i pronađite udaljenost između pojedine skupine od svih ostalih skupina.
brojevi za abecedu
Korak 2:
Sada spojite usporedive klastere u jedan klaster. Recimo da su klaster Q i klaster R slični jedan drugome tako da ih možemo spojiti u drugom koraku. Konačno, dobivamo klastere [ (P), (QR), (ST), (V)]
Korak 3:
Ovdje ponovno izračunavamo blizinu prema algoritmu i kombiniramo dva najbliža klastera [(ST), (V)] zajedno da formiramo nove klastere kao [(P), (QR), (STV)]
Korak 4:
c kod abs
Ponovite isti postupak. Klasteri STV i PQ su usporedivi i kombinirani u novi klaster. Sada imamo [(P), (QQRSTV)].
Korak 5:
Na kraju, preostala dva klastera se spajaju u jedan klaster [(PQRSTV)]
Hijerarhijsko klasteriranje koje razdvaja
Hijerarhijsko klasteriranje koje dijeli je upravo suprotno od aglomerativnog hijerarhijskog klasteriranja. U divizivnom hijerarhijskom klasteriranju, sve podatkovne točke smatraju se pojedinačnim klasterom, au svakoj se iteraciji podatkovne točke koje nisu slične odvajaju od klastera. Odvojene podatkovne točke tretiraju se kao pojedinačni klaster. Na kraju, ostaje nam N klastera.
Prednosti hijerarhijskog klasteriranja
- Jednostavan je za implementaciju i daje najbolje rezultate u nekim slučajevima.
- Lako je i rezultira hijerarhijom, strukturom koja sadrži više informacija.
- Ne treba unaprijed specificirati broj klastera.
Nedostaci hijerarhijskog klasteriranja
- Lomi velike grozdove.
- Teško je rukovati grozdovima različitih veličina i konveksnim oblicima.
- Osjetljiv je na buku i vanjske zvukove.
- Algoritam se nikada ne može promijeniti ili izbrisati nakon što je već učinjeno.