LINEAARINEN REGRESSIO KONEOPPIMISESSA

Koneoppiminen on tekoälyn haara, joka keskittyy sellaisten algoritmien ja tilastollisten mallien kehittämiseen, jotka voivat oppia tiedosta ja tehdä ennusteita tiedoista. Lineaarinen regressio on myös eräänlainen koneoppimisalgoritmi tarkemmin a valvottu koneoppimisalgoritmi joka oppii nimetyistä tietojoukoista ja kartoittaa datapisteet optimoiduimpiin lineaarisiin funktioihin. joita voidaan käyttää uusien tietojoukkojen ennustamiseen.

Ensinnäkin meidän pitäisi tietää, mitä valvotut koneoppimisalgoritmit ovat. Se on eräänlainen koneoppiminen, jossa algoritmi oppii merkityistä tiedoista. Merkitty data tarkoittaa tietojoukkoa, jonka kohdearvo on jo tiedossa. Ohjattua oppimista on kahta tyyppiä:

Luokittelu : Se ennustaa tietojoukon luokan riippumattoman syöttömuuttujan perusteella. Luokka on kategorinen tai diskreetti arvo. kuin eläimen kuva on kissa vai koira?
Regressio : Se ennustaa jatkuvat lähtömuuttujat riippumattoman tulomuuttujan perusteella. kuten asuntojen hintojen ennustaminen eri parametrien perusteella, kuten talon ikä, etäisyys päätieltä, sijainti, alue jne.

Täällä keskustelemme yhdestä yksinkertaisimmista regressiotyypeistä, ts. Lineaarinen regressio.

Sisällysluettelo

Mikä on lineaarinen regressio?
Lineaarisen regression tyypit
Mikä on paras Fit Line?
Lineaarisen regression kustannusfunktio
Yksinkertaisen lineaarisen regression oletukset
Usean lineaarisen regression oletukset
Lineaarisen regression arviointimetrit
Lineaarisen regression Python-toteutus
Regularisointitekniikat lineaarisille malleille
Lineaarisen regression sovellukset
Lineaarisen regression edut ja haitat
Lineaarinen regressio – Usein kysytyt kysymykset (FAQ)

Mikä on lineaarinen regressio?

Lineaarinen regressio on eräänlainen valvottua koneoppimista Algoritmi, joka laskee riippuvan muuttujan ja yhden tai useamman riippumattoman ominaisuuden välisen lineaarisen suhteen sovittamalla lineaarisen yhtälön havaittuun tietoon.

Kun on vain yksi itsenäinen ominaisuus, se tunnetaan nimellä Yksinkertainen lineaarinen regressio , ja kun ominaisuuksia on enemmän kuin yksi, se tunnetaan nimellä Useita lineaarisia regressioita .

git-komennot pushille

Vastaavasti, kun on vain yksi riippuva muuttuja, se otetaan huomioon Yksimuuttuja lineaarinen regressio , kun taas kun riippuvaisia muuttujia on enemmän kuin yksi, se tunnetaan nimellä Monimuuttujaregressio .

Miksi lineaarinen regressio on tärkeä?

Lineaarisen regression tulkittavuus on huomattava vahvuus. Mallin yhtälö tarjoaa selkeät kertoimet, jotka selvittävät kunkin riippumattoman muuttujan vaikutuksen riippuvaan muuttujaan, mikä helpottaa taustalla olevan dynamiikan syvempää ymmärtämistä. Sen yksinkertaisuus on hyve, sillä lineaarinen regressio on läpinäkyvä, helppo toteuttaa ja toimii perustana monimutkaisemmille algoritmeille.

Lineaarinen regressio ei ole vain ennustava työkalu; se muodostaa perustan erilaisille edistyneille malleille. Tekniikat, kuten regularisointi ja tukivektorikoneet, saavat inspiraatiota lineaarisesta regressiosta ja laajentavat sen käyttökelpoisuutta. Lisäksi lineaarinen regressio on oletustestauksen kulmakivi, jonka avulla tutkijat voivat vahvistaa dataa koskevat keskeiset oletukset.

Lineaarisen regression tyypit

Lineaarista regressiota on kahta päätyyppiä:

Yksinkertainen lineaarinen regressio

Tämä on lineaarisen regression yksinkertaisin muoto, ja se sisältää vain yhden riippumattoman muuttujan ja yhden riippuvan muuttujan. Yksinkertaisen lineaarisen regression yhtälö on:
y=eta_{0}+eta_{1}X
missä:

Y on riippuvainen muuttuja
X on riippumaton muuttuja
β0 on leikkauspiste
β1 on kaltevuus

Useita lineaarisia regressioita

Tämä sisältää useamman kuin yhden riippumattoman muuttujan ja yhden riippuvan muuttujan. Moninkertaisen lineaarisen regression yhtälö on:
y=eta_{0}+eta_{1}X+eta_{2}X+………eta_{n}X
missä:

Y on riippuvainen muuttuja
X1, X2, …, Xp ovat riippumattomia muuttujia
β0 on leikkauspiste
β1, β2, …, βn ovat kaltevuudet

Algoritmin tavoitteena on löytää paras Fit Line yhtälö, joka voi ennustaa arvot riippumattomien muuttujien perusteella.

Regressiossa tietuejoukot ovat läsnä X- ja Y-arvoilla ja näitä arvoja käytetään funktion oppimiseen, joten jos haluat ennustaa Y:n tuntemattomasta X:stä, tätä opittua funktiota voidaan käyttää. Regressiossa on löydettävä Y:n arvo, joten tarvitaan funktio, joka ennustaa jatkuvan Y:n, jos regressio on annettu itsenäisenä ominaisuutena X.

Mikä on paras Fit Line?

Ensisijainen tavoitteemme käytettäessä lineaarista regressiota on löytää parhaiten sopiva viiva, mikä tarkoittaa, että ennustettujen ja todellisten arvojen välinen virhe tulisi pitää mahdollisimman pienenä. Parhaiten sopivalla rivillä on vähiten virheitä.

Paras Fit Line -yhtälö tarjoaa suoran viivan, joka edustaa riippuvien ja riippumattomien muuttujien välistä suhdetta. Viivan kaltevuus osoittaa, kuinka paljon riippuva muuttuja muuttuu riippumattoman muuttujan (riippumattomien muuttujien) yksikkömuutoksen vuoksi.

Lineaarinen regressio

Tässä Y:tä kutsutaan riippuvaiseksi tai kohdemuuttujaksi ja X:ää itsenäiseksi muuttujaksi, joka tunnetaan myös Y:n ennustajana. Regressioon voidaan käyttää monenlaisia funktioita tai moduuleja. Lineaarinen funktio on yksinkertaisin funktiotyyppi. Tässä X voi olla yksi ominaisuus tai useita ongelmaa edustavia ominaisuuksia.

Lineaarinen regressio suorittaa tehtävän ennustaa riippuvaisen muuttujan arvo (y) tietyn riippumattoman muuttujan (x) perusteella. Siksi nimi on Lineaarinen regressio. Yllä olevassa kuvassa X (input) on henkilön työkokemus ja Y (output) on henkilön palkka. Regressioviiva on mallillemme parhaiten sopiva suora.

Käytämme kustannusfunktiota parhaiden arvojen laskemiseen parhaan sovitusviivan saamiseksi, koska erilaiset painoarvot tai viivojen kertoimet johtavat erilaisiin regressiosuoraan.

Lineaarisen regression hypoteesifunktio

Kuten olemme aiemmin olettaneet, että riippumaton ominaisuutemme on kokemus eli X ja vastaava palkka Y on riippuvainen muuttuja. Oletetaan, että X:n ja Y:n välillä on lineaarinen suhde, jolloin palkka voidaan ennustaa käyttämällä:

hat{Y} = heta_1 + heta_2X

TAI

hat{y}_i = heta_1 + heta_2x_i

Tässä,

y_i epsilon Y ;; (i= 1,2, cdots , n) ovat datan tunnisteita (ohjattu oppiminen)
x_i epsilon X ;; (i= 1,2, cdots , n) ovat syötteestä riippumattomia harjoitustietoja (yksimuuttuja – yksi syötemuuttuja(parametri))
hat{y_i} epsilon hat{Y} ;; (i= 1,2, cdots , n) ovat ennustetut arvot.

Malli saa parhaan regression sovitusviivan etsimällä parhaan θ:n₁ja θ₂arvot.

i ₁ : siepata
i ₂ : kerroin x

Kun löydämme parhaan θ₁ja θ₂arvot, saamme parhaiten sopivan linjan. Joten kun lopulta käytämme malliamme ennustamiseen, se ennustaa y:n arvon x:n syöttöarvolle.

Kuinka päivittää θ ₁ ja θ ₂ arvot saadaksesi parhaiten sopivan linjan?

Parhaiten sopivan regressioviivan saavuttamiseksi malli pyrkii ennustamaan tavoitearvonhat{Y} niin, että virheero ennustetun arvon välillähat{Y} ja todellinen arvo Y on minimi. Joten on erittäin tärkeää päivittää θ₁ja θ₂arvot, saavuttaaksesi parhaan arvon, joka minimoi virheen ennustetun y-arvon (pred) ja todellisen y-arvon (y) välillä.

minimizefrac{1}{n}sum_{i=1}^{n}(hat{y_i}-y_i)^2

Lineaarisen regression kustannusfunktio

The kustannustoiminto tai häviötoiminto on vain virhe tai ero ennustetun arvon välillähat{Y} ja todellinen arvo Y.

osi referenssimalli verkottumisessa

Lineaarisessa regressiossa Keskimääräinen neliövirhe (MSE) käytetään kustannusfunktiota, joka laskee ennustettujen arvojen välisten neliövirheiden keskiarvonhat{y}_i ja todelliset arvot{y}_i . Tarkoituksena on määrittää leikkauspisteen optimaaliset arvot heta_1 ja syöttöominaisuuden kerroin heta_2 tarjoaa parhaiten sopivan viivan annetuille datapisteille. Tätä suhdetta ilmaiseva lineaarinen yhtälö onhat{y}_i = heta_1 + heta_2x_i .

MSE-funktio voidaan laskea seuraavasti:

ext{Cost function}(J) = frac{1}{n}sum_{n}^{i}(hat{y_i}-y_i)^2

MSE-funktiota käyttämällä iteratiivista gradientin laskeutumisprosessia käytetään arvojen päivittämiseen heta_1 & heta_2 . Tämä varmistaa, että MSE-arvo konvergoi globaaleihin minimiin, mikä tarkoittaa lineaarisen regressioviivan tarkinta sovitusta tietojoukkoon.

Tämä prosessi sisältää parametrien ( heta_1) ja ( heta_2) jatkuvan säätämisen MSE:stä laskettujen gradienttien perusteella. Lopputulos on lineaarinen regressioviiva, joka minimoi kokonaisneliöerot ennustettujen ja todellisten arvojen välillä ja tarjoaa optimaalisen esityksen datan taustalla olevasta suhteesta.

Lineaarisen regression gradienttilasku

Lineaarista regressiomallia voidaan harjoitella käyttämällä optimointialgoritmia gradienttilasku muokkaamalla mallin parametreja iteratiivisesti pienentämään keskimääräinen neliövirhe (MSE) mallista harjoitustietojoukossa. Päivittääksesi θ₁ja θ₂arvot kustannusfunktion alentamiseksi (RMSE-arvon minimoiminen) ja parhaiten sopivan linjan saavuttamiseksi, malli käyttää Gradient Descent -toimintoa. Ajatuksena on aloittaa satunnaisella θ:lla₁ja θ₂arvot ja päivittää sitten arvot iteratiivisesti saavuttaen vähimmäiskustannukset.

Gradientti ei ole muuta kuin johdannainen, joka määrittelee vaikutukset funktion ulostuloihin pienellä vaihtelulla tuloissa.

Erotetaan kustannusfunktio (J) suhteessa heta_1

egin {aligned} {J}’_{ heta_1} &=frac{partial J( heta_1, heta_2)}{partial heta_1} &= frac{partial}{partial heta_1} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_1}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(1+0-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2 ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) end {aligned}

Erotetaan kustannusfunktio (J) suhteessa heta_2

egin {aligned} {J}’_{ heta_2} &=frac{partial J( heta_1, heta_2)}{partial heta_2} &= frac{partial}{partial heta_2} left[frac{1}{n} left(sum_{i=1}^{n}(hat{y}_i-y_i)^2 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}(hat{y}_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(frac{partial}{partial heta_2}( heta_1 + heta_2x_i-y_i) ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}2(hat{y}_i-y_i) left(0+x_i-0 ight ) ight] &= frac{1}{n}left[sum_{i=1}^{n}(hat{y}_i-y_i) left(2x_i ight ) ight] &= frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i end {aligned}

Lineaarisen regression tavoitteena on löytää parhaiten koulutustietoihin sopivan lineaarisen yhtälön kertoimet. Kertoimia voidaan muuttaa siirtymällä Mean Squared Error negatiivisen gradientin suuntaan kertoimien suhteen. Ja vastaava leikkauspiste ja X:n kerroin on josalpha on oppimisnopeus.

Gradientti laskeutuminen

egin{aligned} heta_1 &= heta_1 – alpha left( {J}’_{ heta_1} ight) &= heta_1 -alpha left( frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i) ight) end{aligned} egin{aligned} heta_2 &= heta_2 – alpha left({J}’_{ heta_2} ight) &= heta_2 – alpha left(frac{2}{n}sum_{i=1}^{n}(hat{y}_i-y_i)cdot x_i ight) end{aligned}

Yksinkertaisen lineaarisen regression oletukset

Lineaarinen regressio on tehokas työkalu muuttujan käyttäytymisen ymmärtämiseen ja ennustamiseen, mutta sen on täytettävä muutama ehto ollakseen tarkkoja ja luotettavia ratkaisuja.

Lineaarisuus : Riippumattomalla ja riippuvaisella muuttujalla on lineaarinen suhde toisiinsa. Tämä tarkoittaa, että muutokset riippuvassa muuttujassa seuraavat riippumattomien muuttujien (riippumattomien muuttujien) muutoksia lineaarisesti. Tämä tarkoittaa, että datapisteiden läpi pitäisi olla suora viiva, joka voidaan vetää. Jos suhde ei ole lineaarinen, lineaarinen regressio ei ole tarkka malli.
Itsenäisyys : Tietojoukon havainnot ovat toisistaan riippumattomia. Tämä tarkoittaa, että yhden havainnon riippuvaisen muuttujan arvo ei riipu toisen havainnon riippuvan muuttujan arvosta. Jos havainnot eivät ole riippumattomia, lineaarinen regressio ei ole tarkka malli.
Homosedastisuus : Kaikilla riippumattomien muuttujien tasoilla virheiden varianssi on vakio. Tämä osoittaa, että riippumattomien muuttujien määrällä ei ole vaikutusta virheiden varianssiin. Jos residuaalien varianssi ei ole vakio, lineaarinen regressio ei ole tarkka malli.

Homoskedastisuus lineaarisessa regressiossa
unordered_map c++
Normaalisuus : Jäännösten tulee jakautua normaalisti. Tämä tarkoittaa, että jäännösten tulee seurata kellon muotoista käyrää. Jos residuaalit eivät ole normaalijakautuneita, lineaarinen regressio ei ole tarkka malli.

Usean lineaarisen regression oletukset

Multiple lineaarisessa regressiossa kaikki neljä yksinkertaisen lineaarisen regression oletusta pätevät. Tämän lisäksi alla muutamia muita:

Ei multikollineaarisuutta : Riippumattomien muuttujien välillä ei ole korkeaa korrelaatiota. Tämä osoittaa, että riippumattomien muuttujien välillä on vähän tai ei ollenkaan korrelaatiota. Multikollineaarisuus ilmenee, kun kaksi tai useampi riippumaton muuttuja korreloi voimakkaasti keskenään, mikä voi vaikeuttaa kunkin muuttujan yksittäisen vaikutuksen määrittämistä riippuvaan muuttujaan. Jos multikollineaarisuus on olemassa, moninkertainen lineaarinen regressio ei ole tarkka malli.
Additiivisuus: Malli olettaa, että ennustajamuuttujan muutosten vaikutus vastemuuttujaan on johdonmukainen muiden muuttujien arvoista riippumatta. Tämä oletus viittaa siihen, että muuttujien välillä ei ole vuorovaikutusta niiden vaikutuksissa riippuvaan muuttujaan.
Ominaisuuden valinta: Moninkertaisessa lineaarisessa regressiossa on tärkeää valita huolellisesti malliin sisällytettävät riippumattomat muuttujat. Epäolennaisten tai redundanttien muuttujien sisällyttäminen voi johtaa ylisovitukseen ja vaikeuttaa mallin tulkintaa.
Yliasennus: Ylisovitus tapahtuu, kun malli sopii harjoitusdataan liian tiiviisti ja sieppaa kohinaa tai satunnaisia vaihteluita, jotka eivät edusta muuttujien välistä todellista taustalla olevaa suhdetta. Tämä voi johtaa huonoon yleistyssuorituskykyyn uudella, näkymättömällä tiedolla.

Monikollineaarisuus

Monikollineaarisuus on tilastollinen ilmiö, joka ilmenee, kun kaksi tai useampi riippumaton muuttuja moniregressiomallissa korreloi voimakkaasti, mikä tekee vaikeaksi arvioida kunkin muuttujan yksittäisiä vaikutuksia riippuvaan muuttujaan.

Multikollineaarisuuden havaitseminen sisältää kaksi tekniikkaa:

Korrelaatiomatriisi: Korrelaatiomatriisin tutkiminen riippumattomien muuttujien kesken on yleinen tapa havaita multikollineaarisuus. Korkeat korrelaatiot (lähellä 1 tai -1) viittaavat mahdolliseen multikollineaarisuuteen.
VIF (varianssiinflaatiotekijä): VIF on mitta, joka määrittää, kuinka paljon arvioidun regressiokertoimen varianssi kasvaa, jos ennustajat korreloivat. Korkea VIF (tyypillisesti yli 10) viittaa monikollineaarisuuteen.

Lineaarisen regression arviointimetrit

Erilaisia arviointitoimenpiteitä voidaan käyttää minkä tahansa lineaarisen regressiomallin vahvuuden määrittämiseen. Nämä arviointimittarit antavat usein viitteitä siitä, kuinka hyvin malli tuottaa havaitut tulokset.

Yleisimmät mittaukset ovat:

Keskimääräinen neliövirhe (MSE)

Keskimääräinen neliövirhe (MSE) on arviointimetriikka, joka laskee kaikkien datapisteiden todellisten ja ennustettujen arvojen välisten neliöityjen erojen keskiarvon. Ero on neliöity sen varmistamiseksi, että negatiiviset ja positiiviset erot eivät kumoa toisiaan.

MSE = frac{1}{n}sum_{i=1}^{n}left ( y_i – widehat{y_{i}} ight )^2

Tässä,

n on datapisteiden lukumäärä.
ja_ion i:n todellinen tai havaittu arvo^thdatapiste.
widehat{y_{i}} on i:n ennustettu arvo^thdatapiste.

MSE on tapa kvantifioida mallin ennusteiden tarkkuus. MSE on herkkä poikkeaville arvoille, koska suuret virheet vaikuttavat merkittävästi kokonaispistemäärään.

Keskimääräinen absoluuttinen virhe (MAE)

Keskimääräinen absoluuttinen virhe on arviointimittari, jota käytetään laskemaan regressiomallin tarkkuus. MAE mittaa keskimääräistä absoluuttista eroa ennustettujen arvojen ja todellisten arvojen välillä.

Matemaattisesti MAE ilmaistaan seuraavasti:

MAE =frac{1}{n} sum_{i=1}^{n}|Y_i – widehat{Y_i}|

Tässä,

n on havaintojen lukumäärä
JA_iedustaa todellisia arvoja.
widehat{Y_i} edustaa ennustettuja arvoja

Alempi MAE-arvo osoittaa parempaa mallin suorituskykyä. Se ei ole herkkä poikkeaville arvoille, koska otamme huomioon absoluuttiset erot.

Root Mean Squared Error (RMSE)

Residuaalien varianssin neliöjuuri on Root Mean Squared Error . Se kuvaa kuinka hyvin havaitut datapisteet vastaavat odotettuja arvoja tai mallin absoluuttista sovitusta dataan.

Matemaattisessa merkinnässä se voidaan ilmaista seuraavasti:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{n}
Sen sijaan, että mallin datapisteiden koko määrä jaettaisiin vapausasteiden lukumäärällä, on jaettava neliöityjen jäännösten summa puolueettoman arvion saamiseksi. Sitten tähän lukuun viitataan nimellä Residual Standard Error (RSE).

Matemaattisessa merkinnässä se voidaan ilmaista seuraavasti:
RMSE=sqrt{frac{RSS}{n}}=sqrtfrac{{{sum_{i=2}^{n}(y^{actual}_{i}}- y_{i}^{predicted})^2}}{(n-2)}

RSME ei ole yhtä hyvä mittari kuin R-neliö. Root Mean Squared Error voi vaihdella, kun muuttujien yksiköt vaihtelevat, koska sen arvo on riippuvainen muuttujien yksiköistä (se ei ole normalisoitu mitta).

Determinaatiokerroin (R-neliö)

R-neliö on tilasto, joka osoittaa, kuinka paljon vaihtelua kehitetty malli voi selittää tai kaapata. Se on aina välillä 0 - 1. Yleensä mitä paremmin malli vastaa tietoja, sitä suurempi on R-neliö.
Matemaattisessa merkinnässä se voidaan ilmaista seuraavasti:
R^{2}=1-(^{frac{RSS}{TSS}})

java katkeaa silmukasta

Neliöiden jäännössumma (RSS): The jäännösneliöiden summa jokaiselle kaavion tai datan datapisteelle tunnetaan neliöiden jäännössummana tai RSS:nä. Se mittaa eroa havaitun ja odotetun tuotoksen välillä.
RSS=sum_{i=2}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2}
Neliöiden kokonaissumma (TSS): Datapisteiden virheiden summa vastausmuuttujan keskiarvosta tunnetaan neliöiden kokonaissummana eli TSS:nä.
TSS= sum_{}^{}(y-overline{y_{i}})^2

R-neliömetriikka on riippuvaisen muuttujan varianssin osuuden mitta, joka on selitetty riippumattomille muuttujille mallissa.

Muokattu R-neliövirhe

Muokattu R²mittaa riippuvaisen muuttujan varianssin osuutta, joka selittyy riippumattomilla muuttujilla regressiomallissa. Säädetty R-neliö ottaa huomioon mallin ennustajien määrän ja rankaisee mallia epäolennaisten ennustajien sisällyttämisestä, jotka eivät merkittävästi selitä riippuvien muuttujien varianssia.

Matemaattisesti säädetty R²ilmaistaan seuraavasti:

Adjusted , R^2 = 1 – (frac{(1-R^2).(n-1)}{n-k-1})

Tässä,

n on havaintojen lukumäärä
k on ennustajien lukumäärä mallissa
R²on päättäväisyyden kerroin

Säädetty R-neliö auttaa estämään liiallista sovitusta. Se rankaisee mallia lisäennusteilla, jotka eivät merkittävästi selitä riippuvan muuttujan varianssia.

Lineaarisen regression Python-toteutus

Tuo tarvittavat kirjastot:

Python 3

 import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib.axes as ax from matplotlib.animation import FuncAnimation>

Lataa tietojoukko ja erota syöte- ja kohdemuuttujat

Tässä linkki datajoukkoon: Tietojoukon linkki

Python 3

 url = 'https://media.techcodeview.com data = pd.read_csv(url) data # Drop the missing values data = data.dropna() # training dataset and labels train_input = np.array(data.x[0:500]).reshape(500, 1) train_output = np.array(data.y[0:500]).reshape(500, 1) # valid dataset and labels test_input = np.array(data.x[500:700]).reshape(199, 1) test_output = np.array(data.y[500:700]).reshape(199, 1)>

Rakenna lineaarinen regressiomalli ja piirrä regressioviiva

Askeleet:

Eteenpäin etenemisessä käytetään lineaarista regressiofunktiota Y=mx+c antamalla aluksi parametrin (m & c) satunnaisarvo.
Olemme kirjoittaneet funktion kustannusfunktion eli keskiarvon löytämiseen

Python 3Python3 #Esimerkki käyttö lineaarinen_reg = LinearRegression()-parametrit, häviö = lineaarinen_reg.train(train_input, train_output, 0,0001, 20) Tulos : Iteraatio = 1, Häviö = 9130.407560462196 Iteraatio = 911,9 Iteraatio = 9 8 ation = 1, tappio = 140,31580932842422 Iteraatio = 1, tappio = 23,795780526084116 iteraatio = 2, tappio = 9,753848205147605 iteraatio = 3, tappio = 8,061641745006835 iteraatio = 4, häviö = 7,86 = 7,847 = 79118. 8331350515579015 iteraatio = 6, häviö = 7,830172502503967 iteraatio = 7, häviö = 7,829814681591015 iteraatio = 8 , Tappio = 7,829770758846183 Iteraatio = 9, Häviö = 7,829764664327399 Iteraatio = 10, Häviö = 7,829763128602258 Iteraatio = 11, Tappio = 7,82 = 7,81 7 = 2218. 829761222379141 iteraatio = 13, häviö = 7,829760310486438 iteraatio = 14, häviö = 7,829759399646989 iteraatio = 15, Tappio = 7,829758489015161 Iteraatio = 16, Häviö = 7,829757578489033 Iterointi = 17, Häviö = 7,829756668056319 Iteraatio = 18, Tappio = 7,827 = 157,9 = 557 1,8 29754847466484 Iteraatio = 20, Häviö = 7,829753937309139 Lineaarinen regressioviiva Lineaarinen regressioviiva antaa arvokkaita näkemyksiä suhteesta kahden muuttujan välillä. Se edustaa parhaiten sopivaa linjaa, joka kuvaa yleisen trendin siitä, kuinka riippuva muuttuja (Y) muuttuu vastauksena riippumattoman muuttujan (X) vaihteluihin. Positiivinen lineaarinen regressioviiva: Positiivinen lineaarinen regressioviiva ilmaisee suoran suhteen riippumattoman muuttujan (X) ja riippuvan muuttujan (Y) välillä. Tämä tarkoittaa, että kun X:n arvo kasvaa, myös Y:n arvo kasvaa. Positiivisen lineaarisen regressioviivan kaltevuus on positiivinen, mikä tarkoittaa, että suora kallistuu ylöspäin vasemmalta oikealle. Negatiivinen lineaarinen regressioviiva: Negatiivinen lineaarinen regressioviiva ilmaisee käänteisen suhteen riippumattoman muuttujan (X) ja riippuvan muuttujan (Y) välillä. Tämä tarkoittaa, että kun X:n arvo kasvaa, Y:n arvo pienenee. Negatiivisen lineaarisen regressioviivan kaltevuus on negatiivinen, mikä tarkoittaa, että viiva kallistuu alaspäin vasemmalta oikealle. Lineaaristen mallien säännöstelytekniikat Lasso-regressio (L1-regulaatio) Lasso-regressio on tekniikka, jota käytetään lineaarisen regressiomallin säätämiseen, se lisää sakkoa termi lineaarisen regression tavoitefunktiolle ylisovituksen estämiseksi. Tavoitefunktio lassoregression soveltamisen jälkeen on: ensimmäinen termi on pienimmän neliösumman häviö, joka edustaa ennustetun ja todellisen arvojen välistä erotusta. toinen termi on L1-regulointitermi, se rankaisee regressiokertoimen θj absoluuttisten arvojen summaa. Ridge-regressio (L2-regulointi) Ridge-regressio on lineaarinen regressiotekniikka, joka lisää regularisointitermin vakiolineaariseen tavoitteeseen. Tavoitteena on jälleen estää ylisovitus rankaisemalla suuria kertoimia lineaarisen regression yhtälössä. Se on hyödyllinen, kun tietojoukossa on multikollineaarisuus, jossa ennustajamuuttujat korreloivat voimakkaasti. Tavoitefunktio harjaregression soveltamisen jälkeen on: ensimmäinen termi on pienimmän neliösumman häviö, joka edustaa ennustettujen ja todellisten arvojen erotusta. toinen termi on L1-regulointitermi, se rankaisee regressiokertoimen θj arvojen neliösummaa. Elastinen nettoregressio Elastinen nettoregressio on hybridiregulaatiotekniikka, joka yhdistää sekä L1- että L2-reguloinnin tehon lineaarisen regression tavoitteessa. ensimmäinen termi on pienimmän neliösumman tappio. toinen termi on L1-regulaatio ja kolmas on harjaregressio.???? on yleinen regularisoinnin vahvuus. α ohjaa L1- ja L2-regulaation välistä sekoitusta. Lineaarisen regression sovellukset Lineaarista regressiota käytetään monilla eri aloilla, mukaan lukien taloustiede, taloustiede ja psykologia, ymmärtämään ja ennustamaan tietyn muuttujan käyttäytymistä. Esimerkiksi rahoituksessa lineaarista regressiota voidaan käyttää ymmärtämään yrityksen osakekurssin ja sen tuloksen välistä suhdetta tai ennustamaan valuutan tulevaa arvoa sen aiemman kehityksen perusteella. Lineaarisen regression edut ja haitat Lineaarisen regression edutLineaarinen regressio on suhteellisen yksinkertainen algoritmi, joten se on helppo ymmärtää ja toteuttaa. Lineaarisen regressiomallin kertoimet voidaan tulkita riippuvan muuttujan muutokseksi riippumattoman muuttujan yhden yksikön muutokselle, mikä antaa näkemyksiä muuttujien välisistä suhteista. Lineaarinen regressio on laskennallisesti tehokas ja pystyy käsittelemään suuria tietojoukkoja tehokkaasti. Se voidaan kouluttaa nopeasti suurille tietojoukoille, mikä tekee siitä sopivan reaaliaikaisiin sovelluksiin. Lineaarinen regressio on suhteellisen vankka poikkeaville verrattuna muihin koneoppimisalgoritmeihin. Poikkeavilla arvoilla voi olla pienempi vaikutus mallin kokonaissuorituskykyyn.Lineaarinen regressio toimii usein hyvänä perusmallina verrattaessa monimutkaisempiin koneoppimisalgoritmeihin.Lineaarinen regressio on vakiintunut algoritmi, jolla on rikas historia ja se on laajalti saatavilla erilaisissa koneoppimisessa kirjastot ja ohjelmistopaketit. Lineaarisen regression haitatLineaarinen regressio olettaa lineaarisen suhteen riippuvaisten ja riippumattomien muuttujien välillä. Jos suhde ei ole lineaarinen, malli ei välttämättä toimi hyvin. Lineaarinen regressio on herkkä multikollineaariselle, joka ilmenee, kun riippumattomien muuttujien välillä on korkea korrelaatio. Multikollineaarisuus voi kasvattaa kertoimien varianssia ja johtaa epävakaisiin malliennusteisiin. Lineaarinen regressio olettaa, että piirteet ovat jo mallille sopivassa muodossa. Ominaisuussuunnittelua voidaan tarvita ominaisuuksien muuntamiseksi muotoon, jota malli voi käyttää tehokkaasti. Lineaarinen regressio on herkkä sekä yli- että alisovitukselle. Ylisovitus tapahtuu, kun malli oppii harjoitustiedot liian hyvin eikä pysty yleistämään näkymättömään dataan. Alisovitus tapahtuu, kun malli on liian yksinkertainen sieppaamaan datan taustalla olevia suhteita. Lineaarinen regressio tarjoaa rajallisen selitysvoiman monimutkaisille muuttujien välisille suhteille. Kehittyneemmät koneoppimistekniikat saattavat olla tarpeen syvempien oivallusten saamiseksi. PäätelmäLineaarinen regressio on peruskoneoppimisalgoritmi, jota on käytetty laajalti useiden vuosien ajan sen yksinkertaisuuden, tulkittavuuden ja tehokkuuden vuoksi. Se on arvokas työkalu muuttujien välisten suhteiden ymmärtämiseen ja ennusteiden tekemiseen erilaisissa sovelluksissa. On kuitenkin tärkeää olla tietoinen sen rajoituksista, kuten sen oletus lineaarisuudesta ja herkkyydestä multikollineaarisuudesta. Kun nämä rajoitukset harkitaan huolellisesti, lineaarinen regressio voi olla tehokas työkalu tietojen analysointiin ja ennustamiseen. Lineaarinen regressio – Usein kysytyt kysymykset (FAQ) Mitä lineaarinen regressio tarkoittaa yksinkertaisessa? Lineaarinen regressio on valvottu koneoppimisalgoritmi, joka ennustaa jatkuvan kohdemuuttujan yhden tai useamman riippumattoman muuttujan perusteella. Se olettaa lineaarisen suhteen riippuvien ja riippumattomien muuttujien välillä ja käyttää lineaarista yhtälöä tämän suhteen mallintamiseen. Miksi käytämme lineaarista regressiota? Lineaarista regressiota käytetään yleisesti: Numeeristen arvojen ennustamiseen syöttöominaisuuksien perusteella Tulevien trendien ennustamiseen historiatietoihin perustuen muuttujien välisten korrelaatioiden tunnistamiseen eri tekijöiden vaikutuksen ymmärtämiseen tiettyyn tulokseenKuinka käyttää lineaarista regressiota?Käytä lineaarista regressiota sovittamalla muuttujien välinen suhde ennustamaan suoraa. , kertoimien ymmärtäminen ja ennusteiden tekeminen syötearvojen perusteella tietoisen päätöksentekoa varten. Miksi sitä kutsutaan lineaariseksi regressioksi? Lineaarinen regressio on nimetty lineaarisen yhtälön käyttämisestä muuttujien välisen suhteen mallintamiseen, mikä edustaa datapisteisiin sopivaa suoraa viivaa. Mitä ovat lineaarisen regression esimerkit? Esimerkkejä lineaarisen regression sovelluksista ovat asuntojen hintojen ennustaminen neliömetrien perusteella, koetulosten arvioiminen opiskelutuntien perusteella ja myynnin ennustaminen mainoskulujen avulla.>>

TechCodeview