logo

Luokittelualgoritmi koneoppimisessa

Kuten tiedämme, valvottu koneoppimisalgoritmi voidaan luokitella laajasti regressio- ja luokittelualgoritmeihin. Regressioalgoritmeissa olemme ennustaneet jatkuvien arvojen ulostulon, mutta kategoristen arvojen ennustamiseksi tarvitsemme luokittelualgoritmeja.

Mikä on luokittelualgoritmi?

Luokittelualgoritmi on valvotun oppimisen tekniikka, jolla tunnistetaan uusien havaintojen luokka harjoitustietojen perusteella. Luokittelussa ohjelma oppii annetusta aineistosta tai havainnoista ja luokittelee sitten uuden havainnon useisiin luokkiin tai ryhmiin. Kuten, Kyllä tai ei, 0 tai 1, roskaposti tai ei roskaposti, kissa tai koira, jne. Luokkia voidaan kutsua kohteiksi/tunnisteiksi tai luokiksi.

kasa ja kasa lajitella

Toisin kuin regressio, luokituksen lähtömuuttuja on luokka, ei arvo, kuten 'vihreä tai sininen', 'hedelmä tai eläin' jne. Koska luokittelualgoritmi on valvottu oppimistekniikka, se ottaa merkityt syöttötiedot, jotka tarkoittaa, että se sisältää syötteen vastaavan lähdön kanssa.

Luokittelualgoritmissa diskreetti tulosfunktio(y) on kartoitettu syöttömuuttujaan(x).

 y=f(x), where y = categorical output 

Paras esimerkki ML-luokitusalgoritmista on Sähköpostin roskapostin tunnistus .

Luokittelualgoritmin päätavoite on tunnistaa tietyn tietojoukon luokka, ja näitä algoritmeja käytetään pääasiassa kategorisen datan ulostulon ennustamiseen.

Luokittelualgoritmit voidaan ymmärtää paremmin alla olevan kaavion avulla. Alla olevassa kaaviossa on kaksi luokkaa, luokka A ja luokka B. Näillä luokilla on ominaisuuksia, jotka ovat samankaltaisia ​​keskenään ja poikkeavat muista luokista.

Luokittelualgoritmi koneoppimisessa

Algoritmi, joka toteuttaa luokituksen tietojoukossa, tunnetaan luokittelijana. Luokituksia on kahdenlaisia:

    Binääriluokitus:Jos luokitteluongelmalla on vain kaksi mahdollista lopputulosta, sitä kutsutaan binääriluokittajaksi.
    Esimerkkejä: KYLLÄ tai EI, UROS tai NARINEN, ROSKAPOSTI vai EI roskapostia, KISSA tai KOIRA jne.Moniluokkainen luokitin:Jos luokitusongelmalla on enemmän kuin kaksi lopputulosta, sitä kutsutaan moniluokkaiseksi luokittelijaksi.
    Esimerkki: Kasvien lajikkeiden luokitukset, musiikkityyppien luokittelu.

Oppijat luokitteluongelmissa:

Luokitteluongelmissa on kahdenlaisia ​​oppijoita:

    Laiskot oppijat:Lazy Learner tallentaa ensin harjoitustietojoukon ja odottaa, kunnes se vastaanottaa testitietojoukon. Laiska oppija -tapauksessa luokitus tehdään harjoitustietoaineistoon tallennetun niihin liittyvien tietojen perusteella. Harjoittelussa kuluu vähemmän aikaa, mutta enemmän aikaa ennustamiseen.
    Esimerkki: K-NN-algoritmi, tapauspohjainen päättelyInnokkaat oppijat:Innokkaat oppijat kehittävät koulutustietoaineistoon perustuvan luokitusmallin ennen testitietojoukon vastaanottamista. Toisin kuin Lazy-oppijat, Eager Learner vie enemmän aikaa oppimiseen ja vähemmän aikaa ennustamiseen. Esimerkki: Decision Trees, Na�ve Bayes, ANN.

ML-luokitusalgoritmien tyypit:

Luokittelualgoritmit voidaan edelleen jakaa Pääasiassa kahteen luokkaan:

    Lineaariset mallit
    • Logistinen regressio
    • Tuki Vector-koneita
    Epälineaariset mallit
    • K-Lähimmät naapurit
    • Ytimen SVM
    • Ei Bayes
    • Päätöspuun luokitus
    • Satunnainen metsäluokitus

Huomautus: Opimme yllä olevat algoritmit myöhemmissä luvuissa.

Luokittelumallin arviointi:

Kun mallimme on valmis, on tarpeen arvioida sen suorituskyky; joko se on luokitus- tai regressiomalli. Luokitusmallin arvioimiseksi meillä on siis seuraavat keinot:

jäsentää merkkijono int

1. Lokihäviö tai ristientropiahäviö:

  • Sitä käytetään luokittelijan suorituskyvyn arvioimiseen, jonka ulostulo on todennäköisyysarvo välillä 0 ja 1.
  • Hyvässä binääriluokittelumallissa logaritmihäviön arvon tulee olla lähellä nollaa.
  • Lokihäviön arvo kasvaa, jos ennustettu arvo poikkeaa todellisesta arvosta.
  • Pienempi loghäviö edustaa mallin suurempaa tarkkuutta.
  • Binääriluokituksessa ristientropia voidaan laskea seuraavasti:
 ?(ylog(p)+(1?y)log(1?p)) 

Missä y = todellinen teho, p = ennustettu teho.

2. Sekaannusmatriisi:

  • Sekaannusmatriisi tarjoaa meille matriisin/taulukon lähtönä ja kuvaa mallin suorituskykyä.
  • Se tunnetaan myös virhematriisina.
  • Matriisi koostuu ennustetuloksista tiivistetyssä muodossa, jossa on kokonaismäärä oikeita ja vääriä ennusteita. Matriisi näyttää tältä alla olevasta taulukosta:
Todellinen positiivinen Todellinen negatiivinen
Ennustettu positiivinen Tosi positiivista Väärä positiivinen
Ennustettu negatiivinen Väärä negatiivinen Todellinen negatiivinen
Luokittelualgoritmi koneoppimisessa

3. AUC-ROC-käyrä:

  • ROC-käyrä tarkoittaa Vastaanottimen toiminta-ominaisuuskäyrä ja AUC tarkoittaa Käyrän alla oleva alue .
  • Se on kaavio, joka näyttää luokitusmallin suorituskyvyn eri kynnyksillä.
  • Käytämme AUC-ROC-käyrää visualisoidaksemme moniluokkaisen luokitusmallin suorituskykyä.
  • ROC-käyrä piirretään TPR:llä ja FPR:llä, jossa TPR (tosi positiivinen nopeus) Y-akselilla ja FPR (false positiivinen nopeus) X-akselilla.

Luokittelualgoritmien käyttötapaukset

Luokittelualgoritmeja voidaan käyttää eri paikoissa. Alla on joitain suosittuja luokitusalgoritmien käyttötapauksia:

  • Sähköpostin roskapostin tunnistus
  • Puheentunnistus
  • Syöpäkasvainsolujen tunnisteet.
  • Huumeiden luokitus
  • Biometrinen tunnistus jne.