Kuten tiedämme, valvottu koneoppimisalgoritmi voidaan luokitella laajasti regressio- ja luokittelualgoritmeihin. Regressioalgoritmeissa olemme ennustaneet jatkuvien arvojen ulostulon, mutta kategoristen arvojen ennustamiseksi tarvitsemme luokittelualgoritmeja.
Mikä on luokittelualgoritmi?
Luokittelualgoritmi on valvotun oppimisen tekniikka, jolla tunnistetaan uusien havaintojen luokka harjoitustietojen perusteella. Luokittelussa ohjelma oppii annetusta aineistosta tai havainnoista ja luokittelee sitten uuden havainnon useisiin luokkiin tai ryhmiin. Kuten, Kyllä tai ei, 0 tai 1, roskaposti tai ei roskaposti, kissa tai koira, jne. Luokkia voidaan kutsua kohteiksi/tunnisteiksi tai luokiksi.
kasa ja kasa lajitella
Toisin kuin regressio, luokituksen lähtömuuttuja on luokka, ei arvo, kuten 'vihreä tai sininen', 'hedelmä tai eläin' jne. Koska luokittelualgoritmi on valvottu oppimistekniikka, se ottaa merkityt syöttötiedot, jotka tarkoittaa, että se sisältää syötteen vastaavan lähdön kanssa.
Luokittelualgoritmissa diskreetti tulosfunktio(y) on kartoitettu syöttömuuttujaan(x).
y=f(x), where y = categorical output
Paras esimerkki ML-luokitusalgoritmista on Sähköpostin roskapostin tunnistus .
Luokittelualgoritmin päätavoite on tunnistaa tietyn tietojoukon luokka, ja näitä algoritmeja käytetään pääasiassa kategorisen datan ulostulon ennustamiseen.
Luokittelualgoritmit voidaan ymmärtää paremmin alla olevan kaavion avulla. Alla olevassa kaaviossa on kaksi luokkaa, luokka A ja luokka B. Näillä luokilla on ominaisuuksia, jotka ovat samankaltaisia keskenään ja poikkeavat muista luokista.
Algoritmi, joka toteuttaa luokituksen tietojoukossa, tunnetaan luokittelijana. Luokituksia on kahdenlaisia:
Esimerkkejä: KYLLÄ tai EI, UROS tai NARINEN, ROSKAPOSTI vai EI roskapostia, KISSA tai KOIRA jne.
Esimerkki: Kasvien lajikkeiden luokitukset, musiikkityyppien luokittelu.
Oppijat luokitteluongelmissa:
Luokitteluongelmissa on kahdenlaisia oppijoita:
Esimerkki: K-NN-algoritmi, tapauspohjainen päättely
ML-luokitusalgoritmien tyypit:
Luokittelualgoritmit voidaan edelleen jakaa Pääasiassa kahteen luokkaan:
- Logistinen regressio
- Tuki Vector-koneita
- K-Lähimmät naapurit
- Ytimen SVM
- Ei Bayes
- Päätöspuun luokitus
- Satunnainen metsäluokitus
Huomautus: Opimme yllä olevat algoritmit myöhemmissä luvuissa.
Luokittelumallin arviointi:
Kun mallimme on valmis, on tarpeen arvioida sen suorituskyky; joko se on luokitus- tai regressiomalli. Luokitusmallin arvioimiseksi meillä on siis seuraavat keinot:
jäsentää merkkijono int
1. Lokihäviö tai ristientropiahäviö:
- Sitä käytetään luokittelijan suorituskyvyn arvioimiseen, jonka ulostulo on todennäköisyysarvo välillä 0 ja 1.
- Hyvässä binääriluokittelumallissa logaritmihäviön arvon tulee olla lähellä nollaa.
- Lokihäviön arvo kasvaa, jos ennustettu arvo poikkeaa todellisesta arvosta.
- Pienempi loghäviö edustaa mallin suurempaa tarkkuutta.
- Binääriluokituksessa ristientropia voidaan laskea seuraavasti:
?(ylog(p)+(1?y)log(1?p))
Missä y = todellinen teho, p = ennustettu teho.
2. Sekaannusmatriisi:
- Sekaannusmatriisi tarjoaa meille matriisin/taulukon lähtönä ja kuvaa mallin suorituskykyä.
- Se tunnetaan myös virhematriisina.
- Matriisi koostuu ennustetuloksista tiivistetyssä muodossa, jossa on kokonaismäärä oikeita ja vääriä ennusteita. Matriisi näyttää tältä alla olevasta taulukosta:
Todellinen positiivinen | Todellinen negatiivinen | |
---|---|---|
Ennustettu positiivinen | Tosi positiivista | Väärä positiivinen |
Ennustettu negatiivinen | Väärä negatiivinen | Todellinen negatiivinen |
3. AUC-ROC-käyrä:
- ROC-käyrä tarkoittaa Vastaanottimen toiminta-ominaisuuskäyrä ja AUC tarkoittaa Käyrän alla oleva alue .
- Se on kaavio, joka näyttää luokitusmallin suorituskyvyn eri kynnyksillä.
- Käytämme AUC-ROC-käyrää visualisoidaksemme moniluokkaisen luokitusmallin suorituskykyä.
- ROC-käyrä piirretään TPR:llä ja FPR:llä, jossa TPR (tosi positiivinen nopeus) Y-akselilla ja FPR (false positiivinen nopeus) X-akselilla.
Luokittelualgoritmien käyttötapaukset
Luokittelualgoritmeja voidaan käyttää eri paikoissa. Alla on joitain suosittuja luokitusalgoritmien käyttötapauksia:
- Sähköpostin roskapostin tunnistus
- Puheentunnistus
- Syöpäkasvainsolujen tunnisteet.
- Huumeiden luokitus
- Biometrinen tunnistus jne.