PAIKALLISESTI LINEAARINEN UPOTTAMINEN KONEOPPIMISEEN

LLE (Paikallinen lineaarinen upotus) on valvomaton lähestymistapa, joka on suunniteltu muuttamaan data sen alkuperäisestä korkeaulotteisesta avaruudesta alemman ulottuvuuden esitykseksi, samalla kun pyritään säilyttämään taustalla olevan epälineaarisen piirrerakenteen olennaiset geometriset ominaisuudet. LLE toimii useissa avainvaiheissa:

Ensinnäkin se rakentaa lähimpien naapureiden kaavion näiden paikallisten suhteiden kuvaamiseksi. Sitten se optimoi painoarvot kullekin datapisteelle pyrkien minimoimaan rekonstruktiovirheen, kun piste ilmaistaan naapureidensa lineaarisena yhdistelmänä. Tämä painomatriisi heijastaa pisteiden välisten yhteyksien vahvuutta.
Seuraavaksi LLE laskee datan alemman ulottuvuuden esityksen etsimällä ominaisvektorit matriisista, joka on johdettu painomatriisista. Nämä ominaisvektorit edustavat supistetun tilan merkityksellisimpiä suuntia. Käyttäjät voivat määrittää halutun mittasuhteen lähtöavaruudelle, ja LLE valitsee tärkeimmät ominaisvektorit sen mukaisesti.

Esimerkkinä harkitse a Sveitsin rullan tietojoukko , joka on luonnostaan epälineaarinen korkeaulotteisessa avaruudessaan. Tässä tapauksessa LLE projisoi tämän monimutkaisen rakenteen alemman ulottuvuuden tasolle, säilyttäen sen erottuva geometrinen ominaisuus koko muunnosprosessin ajan.

Sisällysluettelo

LLE-algoritmin matemaattinen toteutus
Paikallisesti lineaarinen upotusalgoritmi
Parametrit LLE-algoritmissa
Paikallisesti lineaarisen upotuksen käyttöönotto
LLE:n edut
LLE:n haitat

LLE-algoritmin matemaattinen toteutus

LLE:n perusideana on, että paikallisesti, kunkin datapisteen läheisyydessä, data on suunnilleen lineaarisessa aliavaruudessa. LLE yrittää avata tai purkaa tiedot säilyttäen samalla nämä paikalliset lineaariset suhteet.

Tässä on matemaattinen katsaus LLE-algoritmiin:

Minimoida: $sum _{i} | x{_i} - sum _{j} w _{ij} x{_j}|^2$

Aihe: $sum {_j} w _{ij} = 1$

Missä:

x_iedustaa i:ttä datapistettä.
Sisään_ijovat painot, jotka minimoivat datapisteen x rekonstruktiovirheen_ikäyttää naapureitaan.

Sen tavoitteena on löytää tiedoista alemman ulottuvuuden esitys ja samalla säilyttää paikalliset suhteet. LLE:n matemaattinen lauseke sisältää kunkin datapisteen rekonstruktiovirheen minimoimisen ilmaisemalla se sen arvojen painotettuna summana. k lähimmät naapurit 'maksut. Tätä optimointia koskevat rajoitukset, jotka varmistavat, että painojen summa on 1 jokaiselle datapisteelle. Locally Linear Embedding (LLE) on mittasuhteiden vähentämistekniikka, jota käytetään koneoppimisessa ja data-analyysissä. Se keskittyy paikallisten suhteiden säilyttämiseen tietopisteiden välillä, kun suurulotteista dataa kartoitetaan pienempiulotteiseen tilaan. Tässä selitämme LLE-algoritmin ja sen parametrit.

Paikallisesti lineaarinen upotusalgoritmi

LLE-algoritmi voidaan jakaa useisiin vaiheisiin:

Alueen valinta: Jokaiselle korkeaulotteisen avaruuden datapisteelle LLE tunnistaa k-lähimmät naapurit. Tämä vaihe on ratkaiseva, koska LLE olettaa, että jokainen datapiste voidaan hyvin approksimoida sen naapureiden lineaarisella yhdistelmällä.
Painomatriisin rakenne: LLE laskee painojoukon jokaiselle datapisteelle ilmaistakseen sen naapureidensa lineaarisena yhdistelmänä. Nämä painot määritetään siten, että rekonstruktiovirhe minimoidaan. Lineaarista regressiota käytetään usein näiden painojen löytämiseen.
Globaali rakenteen säilyttäminen: Painomatriisin muodostamisen jälkeen LLE pyrkii löytämään tiedoista alemman ulottuvuuden esityksen, joka säilyttää parhaiten paikalliset lineaariset suhteet. Se tekee tämän etsimällä joukon koordinaatteja alemman ulottuvuuden avaruudesta jokaiselle datapisteelle, joka minimoi kustannusfunktion. Tämä kustannustoiminto arvioi, kuinka hyvin kunkin datapisteen naapurit voivat edustaa.
Ulostulon upottaminen: Kun optimointiprosessi on valmis, LLE tarjoaa lopullisen alemman ulottuvuuden esityksen tiedoista. Tämä esitys kaappaa tiedon olennaisen rakenteen ja vähentää sen ulottuvuutta.

Parametrit LLE-algoritmissa

LLE:llä on muutama parametri, jotka vaikuttavat sen toimintaan:

k (naapureiden määrä): Tämä parametri määrittää, kuinka monta lähintä naapuria otetaan huomioon painomatriisia muodostettaessa. Suurempi k kaappaa enemmän globaaleja suhteita, mutta voi aiheuttaa kohinaa. Pienempi k keskittyy paikallisiin suhteisiin, mutta voi olla herkkä poikkeaville. Sopivan arvon valitseminen k:lle on olennaista algoritmin onnistumisen kannalta.
Tuotostilan ulottuvuus: Voit määrittää alemman ulottuvuuden tilan, johon tiedot kartoitetaan, ulottuvuuden. Tämä valitaan usein ongelman vaatimusten ja laskennallisen monimutkaisuuden ja tiedon säilyttämisen välisen kompromissin perusteella.
Etäisyysmittari: LLE luottaa etäisyysmetriikkaan määrittääkseen datapisteiden välisen läheisyyden. Yleisiä valintoja ovat euklidinen etäisyys, Manhattanin etäisyys tai mukautetut etäisyysfunktiot. Etäisyysmittarin valinta voi vaikuttaa tuloksiin.
Laillistaminen (valinnainen): Joissakin tapauksissa kustannusfunktioon lisätään säännöstelytermejä ylisovituksen estämiseksi. Säännöllistäminen voi olla hyödyllistä, kun käsitellään meluisaa dataa tai kun naapureita on paljon.
Optimointialgoritmi (valinnainen): LLE käyttää usein optimointitekniikoita, kuten Singular Value Decomposition (SVD) tai ominaisvektorimenetelmiä alemman ulottuvuuden esityksen löytämiseksi. Näillä optimointimenetelmillä voi olla omat parametrinsa, joita voidaan säätää.

LLE (paikallinen lineaarinen upottaminen) edustaa merkittävää edistystä rakenneanalyysissä, ylittäen perinteiset tiheysmallinnustekniikat, kuten paikallisen PCA tai tekijäanalysaattoreiden sekoituksia. Tiheysmallien rajoitus johtuu niiden kyvyttömyydestä muodostaa johdonmukaisesti joukko globaaleja koordinaatteja, jotka pystyvät upottamaan havaintoja koko rakenteelliseen monimuotoisuuteen. Näin ollen ne osoittautuvat riittämättömiksi sellaisiin tehtäviin kuin alkuperäisen tietojoukon pieniulotteisten projektioiden luomiseen. Nämä mallit ovat loistavia vain lineaaristen piirteiden tunnistamisessa, kuten alla olevassa kuvassa näkyy. Ne eivät kuitenkaan pysty sieppaamaan monimutkaisia kaarevia kuvioita, mikä on LLE:lle ominaista kykyä.

Parannettu laskennallinen tehokkuus LLE:n avulla. LLE tarjoaa erinomaisen laskentatehokkuuden harvan matriisinkäsittelynsä ansiosta, mikä on muita algoritmeja parempi.
milloin q1 loppuu

Paikallisesti lineaarisen upotuksen käyttöönotto

Kirjastojen tuonti

Python 3

#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding>

Koodi alkaa tuomalla tarvittavat kirjastot, mukaan lukien numpy, matplotlib.pyplot , make_swiss_roll osoitteesta sklearn.datasets ja LocallyLinearEmbedding osoitteesta sklearn.manifold .

Synteettisen tietojoukon luominen (Swiss Roll)

Python 3

# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)>

Se luo synteettisen tietojoukon, joka muistuttaa Swiss Rollia käyttämällä scikit-learnin make_swiss_roll-funktiota.

n_samples määrittää luotavien tietopisteiden määrän.
n_neighbors määrittää LLE-algoritmissa käytettyjen naapureiden määrän.

Paikallisesti lineaarisen upotuksen (LLE) käyttäminen

Python 3

# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)>

LLE-algoritmin esiintymä luodaan LocallyLinearEmbeddingillä. Parametri n_neighbors määrittää upotusprosessin aikana huomioon otettavien naapureiden määrän.

LLE-algoritmi sovitetaan sitten alkuperäiseen dataan X käyttämällä sovi_muunnos menetelmä. Tämä vaihe pienentää tietojoukon kahteen ulottuvuuteen (n_komponentit=2).

Alkuperäisen ja supistetun datan visualisointi

Python 3

# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()>

Lähtö:

ohjelmistotestauksen tyypit

Paikallisesti lineaarinen upottaminen

Toisessa alikaaviossa LLE:stä saatu pelkistetty data (X_reduced) visualisoidaan samalla tavalla kuin alkuperäinen data. Datapisteiden väri määräytyy edelleen alkuperäisen datan kolmannen ominaisuuden mukaan (X[:, 2]). plt.tight_layout() -toimintoa käytetään varmistamaan oikea väli alikuvausten välillä.

LLE:n edut

Ulottuvuuden vähentämismenetelmällä, joka tunnetaan nimellä Locally linear embedding (LLE), on monia etuja tietojen käsittelyssä ja visualisoinnissa. Seuraavat ovat LLE:n tärkeimmät edut:

Paikallisten rakenteiden säilyttäminen : LLE on erinomainen ylläpitämään datassa olevia paikallisia suhteita tai rakenteita. Se vangitsee onnistuneesti epälineaaristen jakoputkien luontaisen geometrian ylläpitämällä parittaisia etäisyyksiä lähellä olevien datapisteiden välillä.
Epälineaarisuuden käsittely : LLE pystyy kaappaamaan epälineaarisia kuvioita ja rakenteita dataan toisin kuin lineaarisissa tekniikoissa, kuten Pääkomponenttianalyysi (PCA). Työskenneltäessä monimutkaisten, kaarevien tai kierrettyjen tietojoukkojen kanssa se on erityisen hyödyllinen.
Mittasuhteiden vähentäminen : LLE alentaa datan ulottuvuutta säilyttäen samalla sen perusominaisuudet. Tämä vähennys tekee tietojen esittämisestä, tutkimisesta ja analysoinnista yksinkertaisempaa erityisesti työskenneltäessä korkeadimensionaalisten tietojoukkojen kanssa.

LLE:n haitat

Ulottuvuuden kirous : LLE voi kokea ulottuvuuden kirous käytettäessä erittäin suuriulotteisten tietojen kanssa, kuten monet muutkin ulottuvuuden vähentämismenetelmät. Paikallisten vuorovaikutusten sieppaamiseen tarvittavien naapureiden määrä kasvaa ulottuvuuksien mukaan, mikä saattaa lisätä lähestymistavan laskentakustannuksia.
Muisti- ja laskentavaatimukset : Suurille tietojoukoille painotetun viereisyysmatriisin luominen osana LLE:tä saattaa olla muistiintensiivistä. Ominaisarvojen hajotteluvaihe voi olla myös laskennallisesti rasittava suurille tietojoukoille.
Outliers ja Noisy data : LLE on alttiina poikkeavuuksille ja täriseville datapisteille. Upotuksen laatu voi vaikuttaa ja paikalliset lineaariset suhteet voivat vääristyä poikkeavien tekijöiden vuoksi.

TechCodeview

Sisällysluettelo

LLE-algoritmin matemaattinen toteutus

Paikallisesti lineaarinen upotusalgoritmi

Parametrit LLE-algoritmissa

Paikallisesti lineaarisen upotuksen käyttöönotto

Kirjastojen tuonti

Python 3

Synteettisen tietojoukon luominen (Swiss Roll)

Python 3

Paikallisesti lineaarisen upotuksen (LLE) käyttäminen

Python 3

Alkuperäisen ja supistetun datan visualisointi

Python 3

LLE:n edut

LLE:n haitat