logo

Hijerarhijsko grupiranje u data miningu

Hijerarhijsko klasteriranje odnosi se na nenadzirani postupak učenja koji određuje uzastopne klastere na temelju prethodno definiranih klastera. Djeluje putem grupiranja podataka u stablo klastera. Statistika hijerarhijskog klasteriranja tretiranjem svake podatkovne točke kao pojedinačnog klastera. Krajnja točka odnosi se na različiti skup klastera, gdje se svaki klaster razlikuje od drugog klastera, a objekti unutar svakog klastera su isti jedan drugome.

.04 kao razlomak

Postoje dvije vrste hijerarhijskog klasteriranja

  • Aglomerativno hijerarhijsko grupiranje
  • Razdjelno grupiranje

Aglomerativno hijerarhijsko grupiranje

Aglomerativno grupiranje jedan je od najčešćih tipova hijerarhijskog klasteriranja koje se koristi za grupiranje sličnih objekata u klastere. Aglomerativno grupiranje također je poznato kao AGNES (Agglomerative Nesting). U aglomerativnom klasteriranju, svaka podatkovna točka djeluje kao pojedinačni klaster i u svakom koraku, podatkovni objekti se grupiraju metodom odozdo prema gore. U početku je svaki podatkovni objekt u svom klasteru. U svakoj iteraciji klasteri se kombiniraju s različitim klasterima dok se ne formira jedan klaster.

Algoritam aglomerativnog hijerarhijskog klasteriranja

  1. Odredite sličnost između jedinki i svih ostalih skupina. (Pronađi matricu blizine).
  2. Razmotrite svaku podatkovnu točku kao pojedinačni klaster.
  3. Kombinirajte slične klastere.
  4. Ponovno izračunajte matricu blizine za svaki klaster.
  5. Ponovite korak 3 i korak 4 dok ne dobijete jedan klaster.

Razumimo ovaj koncept uz pomoć grafičkog prikaza pomoću dendrograma.

Uz pomoć prikazane demonstracije možemo razumjeti kako stvarni algoritam radi. Ovdje nije napravljen nikakav izračun, a ispod se pretpostavlja sva blizina među klasterima.

Pretpostavimo da imamo šest različitih podatkovnih točaka P, Q, R, S, T, V.

c program za dvodimenzionalni niz
Hijerarhijsko grupiranje u data miningu

Korak 1:

Razmotrite svaku abecedu (P, Q, R, S, T, V) kao pojedinačnu skupinu i pronađite udaljenost između pojedine skupine od svih ostalih skupina.

brojevi za abecedu

Korak 2:

Sada spojite usporedive klastere u jedan klaster. Recimo da su klaster Q i klaster R slični jedan drugome tako da ih možemo spojiti u drugom koraku. Konačno, dobivamo klastere [ (P), (QR), (ST), (V)]

Korak 3:

Ovdje ponovno izračunavamo blizinu prema algoritmu i kombiniramo dva najbliža klastera [(ST), (V)] zajedno da formiramo nove klastere kao [(P), (QR), (STV)]

Korak 4:

c kod abs

Ponovite isti postupak. Klasteri STV i PQ su usporedivi i kombinirani u novi klaster. Sada imamo [(P), (QQRSTV)].

Korak 5:

Na kraju, preostala dva klastera se spajaju u jedan klaster [(PQRSTV)]

Hijerarhijsko klasteriranje koje razdvaja

Hijerarhijsko klasteriranje koje dijeli je upravo suprotno od aglomerativnog hijerarhijskog klasteriranja. U divizivnom hijerarhijskom klasteriranju, sve podatkovne točke smatraju se pojedinačnim klasterom, au svakoj se iteraciji podatkovne točke koje nisu slične odvajaju od klastera. Odvojene podatkovne točke tretiraju se kao pojedinačni klaster. Na kraju, ostaje nam N klastera.

Hijerarhijsko grupiranje u data miningu

Prednosti hijerarhijskog klasteriranja

  • Jednostavan je za implementaciju i daje najbolje rezultate u nekim slučajevima.
  • Lako je i rezultira hijerarhijom, strukturom koja sadrži više informacija.
  • Ne treba unaprijed specificirati broj klastera.

Nedostaci hijerarhijskog klasteriranja

  • Lomi velike grozdove.
  • Teško je rukovati grozdovima različitih veličina i konveksnim oblicima.
  • Osjetljiv je na buku i vanjske zvukove.
  • Algoritam se nikada ne može promijeniti ili izbrisati nakon što je već učinjeno.