logo

Hierarkkinen klusterointi tiedon louhinnassa

Hierarkkinen klusterointi viittaa valvomattomaan oppimismenettelyyn, joka määrittää peräkkäiset klusterit aiemmin määritettyjen klustereiden perusteella. Se toimii ryhmittelemällä tiedot klusteripuuksi. Hierarkkiset klusterointitilastot käsittelemällä jokaista datapistettä yksittäisenä klusterina. Päätepiste viittaa eri joukkoon klustereita, joissa jokainen klusteri on erilainen kuin toinen klusteri ja objektit kussakin klusterissa ovat samat kuin toistensa.

Hierarkkista klusterointia on kahdenlaisia

vikas divyakirti
  • Agglomeratiivinen hierarkkinen klusterointi
  • Divisive Clustering

Agglomeratiivinen hierarkkinen klusterointi

Agglomeratiivinen klusterointi on yksi yleisimmistä hierarkkisen klusteroinnin tyypeistä, joita käytetään samanlaisten objektien ryhmittelyyn klustereiksi. Agglomeratiivinen klusterointi tunnetaan myös nimellä AGNES (agglomerative Nesting). Agglomeratiivisessa klusteroinnissa jokainen tietopiste toimii erillisenä klusterina ja jokaisessa vaiheessa tietoobjektit ryhmitellään alhaalta ylös -menetelmällä. Aluksi jokainen tietoobjekti on klusterissaan. Jokaisessa iteraatiossa klusterit yhdistetään eri klustereihin, kunnes muodostuu yksi klusteri.

Agglomeratiivinen hierarkkinen klusterointialgoritmi

  1. Määritä samankaltaisuus yksilöiden ja kaikkien muiden klustereiden välillä. (Etsi läheisyysmatriisi).
  2. Harkitse jokaista datapistettä yksittäisenä klusterina.
  3. Yhdistä samanlaiset klusterit.
  4. Laske jokaisen klusterin läheisyysmatriisi uudelleen.
  5. Toista vaiheita 3 ja 4, kunnes saat yhden klusterin.

Ymmärretään tämä käsite dendrogrammin graafisen esityksen avulla.

yhdistä java-tietokanta

Annetun esityksen avulla voimme ymmärtää, kuinka varsinainen algoritmi toimii. Tässä ei ole tehty laskelmia, jos kaikki klusterien väliset läheisyydet oletetaan.

Oletetaan, että meillä on kuusi erilaista datapistettä P, Q, R, S, T, V.

Hierarkkinen klusterointi tiedon louhinnassa

Vaihe 1:

Tarkastellaan jokaista aakkostoa (P, Q, R, S, T, V) yksittäisenä klusterina ja laske yksittäisen klusterin välinen etäisyys kaikista muista klustereista.

merkkijono java sisältää

Vaihe 2:

Yhdistä nyt vertailukelpoiset klusterit yhdeksi klusteriksi. Oletetaan, että klusteri Q ja R ovat samankaltaisia ​​toistensa kanssa, jotta voimme yhdistää ne toisessa vaiheessa. Lopuksi saadaan klusterit [ (P), (QR), (ST), (V)]

Vaihe 3:

Tässä lasketaan läheisyys uudelleen algoritmin mukaan ja yhdistetään kaksi lähintä klusteria [(ST), (V)] yhteen muodostamaan uusia klustereita muodossa [(P), (QR), (STV)]

Vaihe 4:

Toista sama prosessi. Klusterit STV ja PQ ovat vertailukelpoisia ja yhdistetään toisiinsa uudeksi klusteriksi. Nyt meillä on [(P), (QQRSTV)].

alkuluku java

Vaihe 5:

Lopuksi loput kaksi klusteria yhdistetään yhdeksi klusteriksi [(PQRSTV)]

Divisive Hierarchical Clustering

Divisive hierarkkinen klusterointi on täsmälleen agglomeratiivisen hierarkkisen klusteroinnin vastakohta. Divivisive Hierarchical klusteroinnissa kaikki datapisteet katsotaan yksittäisiksi klusteriksi, ja jokaisessa iteraatiossa tietopisteet, jotka eivät ole samankaltaisia, erotetaan klusterista. Erotettuja tietopisteitä käsitellään yksittäisenä klusterina. Lopuksi jää N klusteria.

Hierarkkinen klusterointi tiedon louhinnassa

Hierarkkisen klusteroinnin edut

  • Se on helppo toteuttaa ja antaa joissakin tapauksissa parhaan tuloksen.
  • Se on helppoa ja johtaa hierarkiaan, rakenteeseen, joka sisältää enemmän tietoa.
  • Sen ei tarvitse määrittää etukäteen klusterien määrää.

Hierarkkisen klusteroinnin haitat

  • Se rikkoo suuret klusterit.
  • Erikokoisia klustereita ja kuperia muotoja on vaikea käsitellä.
  • Se on herkkä melulle ja poikkeaville vaikutuksille.
  • Algoritmia ei voi koskaan muuttaa tai poistaa, kun se on tehty aiemmin.