logo

Gini-indeksi koneoppimisessa

Johdanto

Koneoppiminen on uudistanut tapaa, jolla käsittelemme ja tutkimme dataa, ja päätöspuualgoritmit ovat kuuluisa päätös luokitus- ja regressiotehtävissä. Gini-indeksi, jota kutsutaan myös Gini-epäpuhtaudeksi tai Gini-kertoimeksi, on merkittävä epäpuhtausmitta, jota käytetään päätöspuualgoritmeissa. Tässä artikkelissa tutkimme Gini Indexin ideaa perusteellisesti, sen numeerista kaavaa ja sen sovelluksia koneoppimisessa. Vertailemme myös Gini-indeksiä ja muita epäpuhtausmittauksia, puhumme sen rajoituksista ja eduista sekä tarkastelemme sen todellisten sovellusten kontekstuaalisia analyysejä. Viimeinkin esittelemme tulevaisuuden laakerit tutkimusta varten täällä.

Mikä on Gini-indeksi?

Gini-indeksi on epäpuhtauksien tai epätasa-arvon osuus tilastollisissa ja raha-asetuksissa. Koneoppimisessa sitä hyödynnetään epäpuhtausmittana luokitustehtävien päätöspuualgoritmeissa. Gini-indeksi mittaa todennäköisyyttä, että päätöspuualgoritmi luokittelee sattumanvaraisesti valitun testin väärin, ja sen arvo muuttuu 0:sta (täysin puhdas) 1:een (täysin epäpuhdas).

Gini-indeksikaava

Gini-indeksi on osa kierron epäpuhtaudesta tai epätasa-arvosta, jota käytetään säännöllisesti epäpuhtausmittana päätöspuualgoritmeissa. Mitä tulee päätöspuihin, Gini-indeksiä käytetään määrittämään paras ominaisuus tietojen jakamiseen puun jokaisessa solmussa.

Gini-indeksin kaava on seuraava:

Gini-indeksi koneoppimisessa

missä pi on todennäköisyys sille, että esineellä on paikka tietyllä luokalla.

Esimerkiksi, meidän pitäisi harkita binääristä luokitteluongelmaa kahdella luokalla An ja B. Jos luokan An todennäköisyys on p ja luokan B todennäköisyys on (1-p), Gini-indeksi voidaan laskea seuraavasti: :

Gini-indeksin arvo vaihtelee 0,0:sta 0,5:een binääriluokitteluongelmissa, joissa 0,0 osoittaa täydellisen puhtaan solmun (kaikilla esimerkeillä on paikka, jolla on samanlainen luokka) ja 0,5 ilmaisee täydellisen epäpuhdasta solmua (testit jakautuvat tasaisesti molempiin luokkiin ).

Gini-indeksin käyttö luokitusongelmissa

Gini-indeksiä käytetään yleensä epäpuhtausmittana luokitusongelmien päätöspuualgoritmeissa. Päätöspuissa jokainen solmu osoittaa jotakin elementtiä, ja tavoitteena on jakaa tiedot osajoukkoihin, jotka ovat olennaisesti niin puhtaita kuin voidaan odottaa. Epäpuhtausmitta (kuten Gini-indeksi) käytetään parhaan jaon päättämiseen jokaisessa solmussa.

Tämän havainnollistamiseksi meidän tulisi harkita esimerkkiä binääriluokitteluongelman päätöspuusta. Puussa on kaksi elementtiä: ikä ja tulot, ja tavoitteena on ennakoida riippumatta siitä, aikooko henkilö todennäköisesti ostaa tuotteen. Puu on rakennettu käyttämällä epäpuhtausmittana Gini-indeksiä.

Juurisolmussa Gini-indeksi lasketaan ottaen huomioon todennäköisyys, että esimerkeillä on paikka luokkaan 0 tai luokkaan 1. Solmu on jaettu sen komponentin perusteella, joka johtaa korkeimpaan Gini-indeksin laskuun. Tämä sykli tiivistetään uudelleen rekursiivisesti jokaiselle osajoukolle, kunnes pysäytysmitta saavutetaan.

Päätöspuut

Päätöspuu on hyvin tunnettu koneoppimisalgoritmi, jota käytetään sekä luokittelu- että regressiotehtäviin. Mallia työstetään jakamalla tietojoukko rekursiivisesti vaatimattomampiin osajoukkoihin tietokohokohtien arvojen valossa, jotka on määritetty rajoittamaan seuraavien osajoukkojen epäpuhtautta.

Puun jokaisessa solmussa tehdään päätös yhden infokohokohdan arvojen perusteella, ja lopullisena tavoitteena on, että seuraavat osajoukot ovat periaatteessa niin puhtaita kuin todella voidaan odottaa. Osajoukon puhtaus arvioidaan säännöllisesti epäpuhtausmittauksella, esimerkiksi Gini-indeksillä tai entropialla.

Päätöspuualgoritmia voidaan käyttää sekä binääri- että moniluokkaluokittelutehtäviin sekä regressiotehtäviin. Binääriluokittelutehtävissä päätöspuu jakaa tietojoukon kahdeksi osajoukoksi binääriominaisuuden, kuten kyllä ​​tai ei, arvon valossa. Moniluokkaisissa luokitustehtävissä päätöspuu jakaa tietojoukon useisiin osajoukkoihin suoran ominaisuuden, kuten punaisen, vihreän tai sinisen, arvojen valossa.

Gini-indeksi vs. muut epäpuhtausmitat

Gini-indeksin lisäksi päätöspuualgoritmeissa käytetään normaalisti muita epäpuhtausmittareita, kuten entropia ja tiedon vahvistus.

Haje:

Koneoppimisessa entropia on osa datajoukon epäsäännöllisyydestä tai haavoittuvuudesta. Sitä käytetään yleensä epäpuhtausmittana päätöspuualgoritmeissa Gini-indeksin rinnalla.

Päätöspuualgoritmeissa entropiaa käytetään päättämään paras komponentti datan jakamiseen puun jokaisessa solmussa. Tavoitteena on löytää se elementti, joka johtaa suurimman entropian laskuun, mikä liittyy siihen komponenttiin, joka antaa eniten tietoa luokitteluongelmasta.

Gini-indeksi koneoppimisessa

Vaikka entropiaa ja Gini-indeksiä käytetään tavallisesti epäpuhtausmittaina päätöspuualgoritmeissa, niillä on erilaisia ​​ominaisuuksia. Entropia on herkempi luokkanimien leviämiselle ja tuottaa yleensä enemmän mukautettuja puita, kun taas Gini-indeksi on vähemmän herkkä luokkamerkkien omaksumiselle ja yleensä luo rajoitetumpia puita, joissa on vähemmän halkeamia. Päätös epäpuhtaustoimenpiteestä riippuu tietystä asiasta ja tietojen ominaisuuksista.

Tiedon saaminen:

Tiedon saanti on toimenpide, jota käytetään jaon luonteen arvioimiseen päätöspuuta rakennettaessa. Päätöspuun tavoitteena on jakaa data osajoukkoihin, jotka ovat periaatteessa yhtä homogeenisia kuin tavoitemuuttujalla, jotta seuraavaa puuta voidaan hyödyntää tarkkojen odotusten tekemiseen uudesta tiedosta. Informaatiohyöty mittaa jaon aiheuttamaa entropian tai epäpuhtauksien vähenemistä. Ominaisuus, jolla on merkittävin tiedonsaanti, valitaan parhaaksi ominaisuudeksi jaettavaksi jokaisessa päätöspuun solmussa.

Tiedon saanti on normaalisti mukana oleva mittari päätöspuiden jakojen luonteen arvioimiseksi, mutta siihen ei kuitenkaan voi keskittyä. Myös erilaisia ​​mittareita, esimerkiksi Gini-indeksiä tai virheluokitusta voidaan käyttää. Päätös jakamisesta perustuu pääasiaan ja käytettävän tietojoukon ominaisuuksiin.

Esimerkki Gini-indeksistä

Meidän pitäisi harkita binääriluokitteluongelmaa, jossa meillä on 10 esimerkin tietojoukko kahdella luokalla: 'positiivinen' ja 'negatiivinen'. Kymmenestä esimerkistä 6:lla on paikka 'positiivinen'-luokassa ja 4:llä on paikka 'Negatiivinen'-luokassa.

Tietojoukon Gini-indeksin laskemiseksi laskemme aluksi kunkin luokan todennäköisyyden:

p_1 = 6/10 = 0,6 (positiivinen)

p_2 = 4/10 = 0,4 (negatiivinen)

Sitten siinä vaiheessa käytämme Gini-indeksin kaavaa laskeaksemme tietojoukon epäpuhtauden:

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0,6^2 + 0,4^2)

= 0,48

Tietojoukon Gini-indeksi on siis 0,48.

Oletetaan tällä hetkellä, että meidän täytyy jakaa tietojoukko elementillä 'X', jolla on kaksi potentiaalista arvoa: 'A' ja 'B'. Jaoimme tietojoukon kahteen osajoukkoon komponentin huomioon ottaen:

Osajoukko 1 (X = A): 4 positiivista, 1 negatiivista

Osajoukko 2 (X = B): 2 positiivista, 3 negatiivista

Gini-indeksin laskun laskemiseksi tälle jaotukselle laskemme aluksi jokaisen osajoukon Gini-indeksin:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Sitten laskemme Gini-indeksin laskun tiedon vahvistuskaavan avulla:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Joten tiedon vahvistus (eli Gini-indeksin lasku) datajoukon jakamisessa korostuskohdassa 'X' on 0,08.

Tässä tilanteessa, jos laskemme kaikkien elementtien tiedonvahvistuksen ja valitsemme sen, jolla on merkittävin informaatiovahvistus, tämä komponentti valitaan parhaaksi komponentiksi jaettavaksi päätöspuun juurisolmussa.

Edut:

Gini-indeksi on laajalti käytetty mittari päätöspuiden splittien luonteen arvioimiseksi, ja sillä on muutama ylivoima eri mittareista, kuten entropiasta tai luokitteluvirheestä. Tässä on osa Gini-indeksin käytön tärkeimmistä eduista:

Näyttelijä Sai Pallavi

Laskennallisesti tehokas: Gini-indeksi on vähemmän monimutkainen ja laskennallisesti nopeampi mitta verrattuna erilaisiin mittauksiin, esimerkiksi entropiaan, joka sisältää logaritmien laskemisen.

Intuitiivinen tulkinta: Gini-indeksi on suoraviivainen ja tulkittava. Se mittaa todennäköisyyttä, että joukosta sattumanvaraisesti valittu esimerkki luokitellaan väärin siinä tapauksessa, että se on satunnaisesti merkitty joukossa olevan luokan mukaan.

Hyvä binääriluokitukseen: Gini-indeksi on erityisen tehokas binääriluokitteluongelmissa, joissa tavoitemuuttujalla on vain kaksi luokkaa. Tällaisissa tapauksissa Gini-indeksin tiedetään olevan vakaampi kuin erilaiset mittaukset.

Kestävä luokkaan nähden epätasapaino: Gini-indeksi on vähemmän herkkä luokkaepätasapainolle verrattuna erilaisiin mittareihin, kuten tarkkuuteen tai luokitteluvirheeseen. Tämä johtuu siitä, että Gini-indeksi riippuu kunkin luokan esimerkkien yleisestä laajuudesta eikä suorista numeroista.

Vähemmän alttiita ylisovitukselle: Gini-indeksi tekee yleensä vaatimattomampia päätöspuita eri mittareiden vastakohtana, mikä tekee siitä vähemmän altis ylisovitukselle. Tämä johtuu siitä, että Gini-indeksi suosii yleensä ominaisuuksia, jotka tekevät datasta vaatimattomampia, mikä vähentää ylisovitusmahdollisuuksia.

Haitat:

Vaikka Gini-indeksillä on joitain etuja päätöspuiden jakomittana, sillä on myös muutamia haittoja. Tässä on osa Gini-indeksin käytön tärkeimmistä haitoista:

Puolueet ominaisuuksiin, joissa on useita luokkia: Gini-indeksi nojaa yleensä kohti ominaisuuksia, joilla on monia luokkia tai arvoja, koska ne voivat tehdä enemmän jakoja ja paketteja tiedosta. Tämä voi aiheuttaa yliasennusta ja monimutkaisempaa päätöspuuta.

Ei hyvä jatkuville muuttujille: Gini-indeksi ei sovellu jatkuville muuttujille, koska se edellyttää muuttujan diskretointia luokkiin tai laatikoihin, mikä voi aiheuttaa tiedon menetystä ja tarkkuuden heikkenemistä.

Ohitetaan toimintojen vuorovaikutus: Gini-indeksi vain ajattelee kunkin ominaisuuden yksilöllistä ennakoivaa voimaa ja jättää huomioimatta piirteiden väliset vuorovaikutukset. Tämä voi aiheuttaa huonoja jakoja ja vähemmän tarkkoja ennusteita.

Ei ihanteellinen joillekin tietojoukoille: toisinaan Gini-indeksi ei ehkä ole ihanteellinen mittari päätöspuun splittien luonteen arvioimiseen. Esimerkiksi siinä tapauksessa, että tavoitemuuttuja on poikkeuksellisen vino tai epätasapainoinen, erilaiset mittarit, esimerkiksi tiedon saanti tai hyötysuhde, voivat olla sopivampia.

Altis harhaan puuttuvien arvojen esiintyessä: Gini-indeksi voi olla vääristynyt puuttuvien arvojen läsnä ollessa, koska se yleensä kallistuu kohti ominaisuuksia, joista puuttuu vähemmän arvoja, riippumatta siitä, eivätkö ne ole kaikkein informatiivisimpia.

Gini-indeksin reaalimaailman sovellukset

Gini-indeksiä on hyödynnetty erilaisissa koneoppimisen sovelluksissa, kuten kiristyspaikannus, luottopisteytys ja asiakasjako. Esimerkiksi kiristyslöydössä Gini-indeksiä voidaan käyttää erottamaan mallit vaihtotiedoissa ja tunnistamaan omituiset käyttäytymistavat. Luottoluokitusta varten Gini-indeksiä voidaan käyttää ennakoimaan maksukyvyttömyyden todennäköisyyttä, kun otetaan huomioon muuttujat, kuten tulot, velan suhde kotipalkkaan ja lainan takaisinmaksutiedot. Asiakasdivisioonassa Gini-indeksiä voidaan käyttää ryhmittelemään asiakkaita heidän käyttäytymistään ja taipumuksiaan silmällä pitäen.

Tulevaisuuden tutkimus

Huolimatta sen rajattomasta käytöstä päätöspuualgoritmeissa, Gini-indeksin tutkimukselle on edelleen tutkintoa. Yksi tutkimusalue on sellaisten uusien epäpuhtausmittausten kehittäminen, joilla voidaan korjata Gini-indeksin rajoituksia, kuten sen taipumusta monitasoisiin tekijöihin. Toinen tutkimusalue on Gini-indeksiä hyödyntävien päätöspuualgoritmien virtaviivaistaminen, esimerkiksi asutekniikoiden hyödyntäminen päätöspuiden tarkkuuden parissa.

Johtopäätös

Gini-indeksi on merkittävä epäpuhtausmitta, jota käytetään luokitustehtävien päätöspuualgoritmeissa. Se mittaa todennäköisyyttä, että päätöspuun algoritmi luokittelee satunnaisesti valitun testin väärin, ja sen arvo muuttuu 0:sta (täysin puhdas) 1:een (täysin epäpuhdas). Gini-indeksi on suoraviivainen ja tehokas, laskennallisesti tuottava ja tehokas poikkeuksiin nähden. Sitä on hyödynnetty erilaisissa koneoppimisen sovelluksissa, esimerkiksi väärien tietojen löytämisessä, luottopisteydessä ja asiakasjaossa. Vaikka Gini-indeksillä on joitain rajoituksia, sen parantamiseksi ja uusien epäpuhtausmittausten parantamiseksi on edelleen tutkimusta.