logo

Koneoppimisen harha ja varianssi

Koneoppiminen on tekoälyn haara, jonka avulla koneet voivat analysoida dataa ja tehdä ennusteita. Jos koneoppimismalli ei kuitenkaan ole tarkka, se voi tehdä ennustevirheitä, ja nämä ennustevirheet tunnetaan yleensä nimellä Bias ja Variance. Koneoppimisessa nämä virheet ovat aina läsnä, koska malliennusteiden ja todellisten ennusteiden välillä on aina pieni ero. ML/datatieteen analyytikoiden päätavoitteena on vähentää näitä virheitä tarkempien tulosten saamiseksi. Tässä aiheessa aiomme keskustella harhasta ja varianssista, bias-varianssin kompromissista, alasovituksesta ja ylisovituksesta. Mutta ennen kuin aloitamme, ymmärrämme ensin, mitä koneoppimisen virheet ovat?

Koneoppimisen harha ja varianssi

Virheitä koneoppimisessa?

Koneoppimisessa virhe on mitta siitä, kuinka tarkasti algoritmi voi tehdä ennusteita aiemmin tuntemattomalle tietojoukolle. Näiden virheiden perusteella valitaan koneoppimismalli, joka pystyy parhaiten toimimaan tietyssä tietojoukossa. Koneoppimisessa on pääasiassa kahdenlaisia ​​virheitä, jotka ovat:

    Vähennettävät virheet:Näitä virheitä voidaan vähentää mallin tarkkuuden parantamiseksi. Tällaiset virheet voidaan edelleen luokitella harhaan ja varianssiin.
    Koneoppimisen harha ja varianssi Peruuttamattomat virheet:Nämä virheet tulevat aina olemaan mallissa

riippumatta siitä, mitä algoritmia on käytetty. Näiden virheiden syynä ovat tuntemattomat muuttujat, joiden arvoa ei voida pienentää.

Mikä on Bias?

Yleensä koneoppimismalli analysoi dataa, etsii siitä malleja ja tekee ennusteita. Harjoittelun aikana malli oppii nämä mallit tietojoukossa ja soveltaa niitä testausdataan ennustamista varten. Ennusteita tehtäessä esiintyy ero mallin tekemien ennustearvojen ja todellisten arvojen/odotettujen arvojen välillä , ja tätä eroa kutsutaan harhavirheiksi tai harhavirheiksi . Se voidaan määritellä koneoppimisalgoritmien, kuten lineaarisen regression, kyvyttömyyteen siepata datapisteiden välistä todellista suhdetta. Jokainen algoritmi alkaa tietyllä määrällä harhaa, koska harha johtuu mallin oletuksista, mikä tekee kohdefunktiosta helppo oppia. Mallissa on joko:

java-objekti
    Matala bias:Pienen biasin malli tekee vähemmän oletuksia kohdefunktion muodosta.Suuri poikkeama:Malli, jossa on suuri harha, tekee enemmän oletuksia, eikä malli pysty sieppaamaan tietojoukkomme tärkeitä ominaisuuksia. Korkean biasin malli ei myöskään voi toimia hyvin uusilla tiedoilla.

Yleensä lineaarisella algoritmilla on suuri harha, koska se saa ne oppimaan nopeasti. Mitä yksinkertaisempi algoritmi, sitä suurempi bias se todennäköisesti otetaan käyttöön. Epälineaarisella algoritmilla on usein pieni bias.

Esimerkkejä koneoppimisalgoritmeista, joissa on alhainen harha ovat päätöspuut, k-lähimmät naapurit ja tukivektorikoneet . Samaan aikaan algoritmi, jolla on suuri bias Lineaarinen regressio, lineaarinen erotteluanalyysi ja logistinen regressio.

Tapoja vähentää suurta harhaa:

Suuri bias johtuu pääasiassa paljon yksinkertaisesta mallista. Alla on joitain tapoja vähentää suurta harhaa:

  • Lisää tuloominaisuuksia, koska malli on aliasennettu.
  • Pienennä säännöstelyaikaa.
  • Käytä monimutkaisempia malleja, kuten sisältäen joitakin polynomiominaisuuksia.

Mikä on varianssivirhe?

Varianssi määrittäisi ennusteen vaihtelun määrän, jos eri koulutusdataa käytettäisiin. Yksinkertaisin sanoin, varianssi kertoo, kuinka paljon satunnaismuuttuja eroaa sen odotusarvosta. Ihannetapauksessa mallin ei pitäisi vaihdella liikaa opetustietojoukosta toiseen, mikä tarkoittaa, että algoritmin tulisi ymmärtää hyvin tulo- ja lähtömuuttujien välinen piilotettu kartoitus. Varianssivirheet ovat jompi kumpi pieni tai suuri varianssi.

Pieni varianssi tarkoittaa, että tavoitefunktion ennusteessa on pientä vaihtelua koulutusdatajoukon muutosten myötä. Samaan aikaan, Korkea varianssi osoittaa suurta vaihtelua kohdefunktion ennustuksessa koulutustietojoukon muutoksilla.

Malli, joka osoittaa suurta varianssia, oppii paljon ja toimii hyvin harjoitustietojoukon kanssa, eikä se yleisty hyvin näkymättömän tietojoukon kanssa. Tämän seurauksena tällainen malli antaa hyviä tuloksia harjoitustietojoukon kanssa, mutta näyttää korkeat virhesuhteet testitietojoukossa.

apple emojit Androidissa

Koska suurella varianssilla malli oppii liikaa tietojoukosta, se johtaa mallin ylisovitukseen. Mallissa, jossa on suuri varianssi, on seuraavat ongelmat:

  • Suuren varianssin malli johtaa ylisovitukseen.
  • Lisää mallin monimutkaisuutta.

Yleensä epälineaarisilla algoritmeilla on paljon joustavuutta mallin sovittamiseksi, niillä on suuri varianssi.

Koneoppimisen harha ja varianssi

Joitakin esimerkkejä koneoppimisalgoritmeista, joilla on pieni varianssi: Lineaarinen regressio, logistinen regressio ja lineaarinen erotteluanalyysi . Samaan aikaan algoritmit, joilla on suuri varianssi, ovat päätöspuu, Support Vector Machine ja K-lähimmät naapurit.

Tapoja pienentää suurta varianssia:

  • Vähennä syöttöominaisuuksia tai parametrien määrää, kun mallia on liikaa.
  • Älä käytä kovin monimutkaista mallia.
  • Lisää harjoitustietoja.
  • Pidennä laillistamisaikaa.

Bias-varianssin eri yhdistelmät

On olemassa neljä mahdollista harhan ja varianssien yhdistelmää, jotka esitetään alla olevassa kaaviossa:

Koneoppimisen harha ja varianssi
    Low-Bias, Low-Variance:
    Pienen harhan ja pienen varianssin yhdistelmä näyttää ihanteellisen koneoppimismallin. Se ei kuitenkaan ole käytännössä mahdollista.Matala bias, suuri varianssi:Pienellä harhalla ja suurella varianssilla malliennusteet ovat epäjohdonmukaisia ​​ja keskimäärin tarkkoja. Tämä tapaus tapahtuu, kun malli oppii suurella määrällä parametreja ja johtaa siten an ylisovitus Korkea bias, pieni varianssi:Suurella harhalla ja pienellä varianssilla ennusteet ovat johdonmukaisia, mutta keskimäärin epätarkkoja. Tämä tapaus tapahtuu, kun malli ei opi hyvin harjoitustietojoukon kanssa tai käyttää muutamia parametrin numeroita. Se johtaa alasovitus ongelmia mallissa.Korkea bias, suuri varianssi:
    Suurella harhalla ja suurella varianssilla ennusteet ovat epäjohdonmukaisia ​​ja myös keskimäärin epätarkkoja.

Kuinka tunnistaa suuri varianssi tai korkea harha?

Suuri varianssi voidaan tunnistaa, jos mallissa on:

Koneoppimisen harha ja varianssi
  • Pieni harjoitusvirhe ja korkea testivirhe.

High Bias voidaan tunnistaa, jos mallissa on:

  • Suuri harjoitusvirhe ja testivirhe on melkein samanlainen kuin harjoitusvirhe.

Bias-Variance Trade-Off

Koneoppimismallia rakennettaessa on todella tärkeää ottaa huomioon harha ja varianssi, jotta vältetään mallin yli- ja alisovitus. Jos malli on hyvin yksinkertainen ja siinä on vähemmän parametreja, sillä voi olla pieni varianssi ja suuri bias. Sen sijaan, jos mallissa on suuri määrä parametreja, siinä on suuri varianssi ja pieni bias. Joten on tehtävä tasapaino harha- ja varianssivirheiden välillä, ja tämä tasapaino bias-virheen ja varianssivirheen välillä tunnetaan nimellä Bias-Variance-vaihtokauppa.

matriisi java-menetelmissä
Koneoppimisen harha ja varianssi

Mallin tarkkaa ennustamista varten algoritmit tarvitsevat pienen varianssin ja pienen biasin. Mutta tämä ei ole mahdollista, koska harha ja varianssi liittyvät toisiinsa:

  • Jos vähennämme varianssia, se lisää harhaa.
  • Jos vähennämme harhaa, se lisää varianssia.

Bias-Variance-vaihto on keskeinen asia ohjatussa oppimisessa. Ihannetapauksessa tarvitsemme mallin, joka vangitsee tarkasti harjoitustietojen säännönmukaisuudet ja samalla yleistyy hyvin näkymättömän tietojoukon kanssa. Valitettavasti tämä ei ole mahdollista samanaikaisesti. Koska suuren varianssin algoritmi voi toimia hyvin harjoitusdatan kanssa, mutta se voi johtaa ylisovitukseen meluisaan dataan. Sen sijaan korkea bias -algoritmi luo paljon yksinkertaisen mallin, joka ei välttämättä edes tallenna tärkeitä säännönmukaisuuksia tiedoissa. Joten, meidän on löydettävä makea kohta harhan ja varianssin välillä optimaalisen mallin tekemiseksi.

Siksi, Bias-Variance-kompromissi on söpön pisteen löytäminen tasapainon saavuttamiseksi harha- ja varianssivirheiden välillä.