Viime vuosina syväoppiminen on muuttanut tietokonenäkökenttää, jolloin tietokoneet voivat havaita ja selvittää visuaalista tietoa harvinaisilla tasoilla. Convolutional Neural Networks (CNN) -pelillä oli ratkaiseva vaikutus tähän muutokseen, ja muutama uraauurtava malli johdatti tietä. Kaksi vaikutusvaltaisimmista CNN-rakenteista ovat AlexNet ja GoogleNet (InceptionNet). Nämä kaksi mallia ovat yhteensä lisänneet kuvien luokittelutehtävien etenemistä, mutta ne eroavat rakenteiltaan ja suunnitteluperiaatteiltaan. Tässä artikkelissa sukeltaamme AlexNetin ja GoogleNetin kriittisiin eroihin tutkimalla niiden rakenteita, suunnittelupäätöksiä ja toteutusta.
Tärkeimmät erot AlexNetin ja GoogleNetin välillä
Ominaisuus | AlexNet | GoogleNet (InceptionV3) |
---|---|---|
Julkaisuvuosi / Käyttöönotto | 2012 | 2014 |
Kerrosten lukumäärä mallissa | 8 (5 Convolution, 3 FC) | 159 (mukaan lukien apulaitteet) |
Arkkitehtuuri | Peräkkäinen | Monihaarainen (alkuvaihe) |
Convolution koko | Suuremmat suodattimet (11x11, 5x5) | Pienemmät suodattimet (1x1, 3x3, 5x5) |
Kerrosten yhdistäminen | Max Pooling | Suurin ja keskimääräinen yhdistäminen |
Aktivointitoiminto | jatkaa | ReLU ja muut muunnelmat |
Local Response Normalisation (LRN) | Käytetty | Ei käytetty |
Aloitusmoduulit | Ei käytetty | Käytetään useiden useiden oksien kanssa |
Laskennallinen tehokkuus | Kohtalainen | Korkeampi |
Mallin monimutkaisuus | Matala | Korkea |
Suosituin tarkkuus (ImageNet) | 0,571 | 0,739 |
Mikä on AlexNet?
AlexNet on huomionarvoinen konvoluutiohermoverkkoarkkitehtuuri (CNN), jonka ovat luoneet Alex Krizhevsky, Ilya Sutskever ja Geoffrey Hinton. Se esiteltiin vuonna 2012, ja se saavutti kriittistä edistystä ImageNet Large Scope Visual Recognition Challenge -haasteessa (ILSVRC) päihittämällä olennaisesti erilaisia menetelmiä. AlexNet oli pääasiallinen CNN, joka osoitti syvän oppimisen elinkelpoisuuden kuvien järjestystehtävissä, mikä merkitsi ratkaisevaa hetkeä tietokonenäön alalla.
1. Arkkitehtuuri
Vuonna 2012 julkaistu AlexNet oli CNN:n kärjessä, joka voitti ImageNet Large Scope Visual Recognition Challengen (ILSVRC) -kilpailun, jossa oli kriittistä virhevaraa. Se käsittää viisi konvoluutiokerrosta, joita seuraa kolme täysin liittyvää kerrosta. ReLU:n (Redressed Direct Unit) käyttö ja naapurireaktiostandardointi (LRN) lisäsivät sen vaurautta. AlexNet esitteli lisäksi idean GPU:iden ottamisesta mukaan valmisteluun, mikä vauhditti kasvavaa kokemusta kokonaan.
2. Verkon syvällisyys:
Kahdeksalla kerroksella (viisi konvoluutiota ja kolme täysin liittyvää kerrosta) AlexNetin katsottiin olevan syvä sen esityshetkellä. Siitä huolimatta, toisin kuin nykyiset mallit, se on yleensä matala, mikä rajoittaa sen kykyä siepata hämmästyttäviä elementtejä ja esimerkkejä erittäin monimutkaisista tietojoukoista.
3. Laskennallinen tuottavuus:
Vaikka AlexNetin esitys GPU:n valmistelusta vauhditti koulutuskokemusta, se oli silti laskennallisesti kallista sen syvempien täysin liittyvien kerrosten ja rajoitetun rinnakkaiskäytön vuoksi.
4. Yliasennus:
Kohtalaisen matalan rakenteensa ja valtavan rajojen määrän vuoksi AlexNet oli taipuvaisempia ylisovituksiin, etenkin vaatimattomimmissa tietojoukoissa. Strategiat, kuten keskeyttäminen, tutustuttiin myöhemmin tämän ongelman ratkaisemiseksi.
5. Koulutus:
AlexNetin kouluttamiseen luojat käyttivät ImageNet-tietoaineistoa, joka sisältää yli 1 000 000 nimettyä kuvaa 1 000 luokittelusta. He käyttivät stokastista kulmapudotusta (SGD) energialla parannuslaskelmana. Harjoittelun aikana käytettiin tiedonlaajennusmenetelmiä, kuten mielivaltaista muokkausta ja kääntämistä, laajentamaan harjoitustietojoukon kokoa ja kehittämään yleistystä.
Koulutusjärjestelmää pyydettiin laskennallisesti, ja AlexNetin GPU-käyttö tasapuoliseen käsittelyyn päätyi olennaiseksi. AlexNetin kouluttaminen kaksoisgrafiikkasuorittimella kesti noin seitsemän päivää, mikä oli kriittinen parannus verrattuna tavanomaisiin tietokoneprosessoripohjaisiin harjoitusaikoihin.
6. Tulokset:
ImageNet 2012 -kilpailussa AlexNet saavutti huomionarvoisen viiden parhaan virhevauhdin, joka oli noin 15,3 %, päihitti erilaiset menetelmät ylivoimaisesti.
AlexNetin tulos sai aikaan kiinnostuksen tulvan syvään oppimiseen ja CNN-verkkoihin, mikä sai aikaan muutoksen tietokonenäön paikallisessa keskittymisessä kohti muita monimutkaisia ja syvempiä hermoverkkoja.
7. Konvoluutiotason asetukset:
AlexNetin konvoluutiokerrokset on järjestetty perusperäkkäin, ja jaksoittaiset max-pooling-kerrokset alennusnäytteistystä varten. Tämä selkeä suunnittelu oli tärkeä tuolloin, mutta se rajoitti organisaation kykyä saada kiinni monimutkaisia edistyksellisiä elementtejä.
8. Mittasuhteiden lasku:
AlexNet sisältää max-pooling-kerrokset alasnäytteistystä varten, mikä vähentää elementtikarttojen spatiaalisia komponentteja. Tämä auttaa vähentämään laskennallista painoa ja hallitsemaan ylisovitusta.
9. Mallin koko ja monimutkaisuus:
Vaikka AlexNetiä pidettiin tuolloin syvällisenä, se on hieman vaatimattomampi ja vähemmän monimutkaisempi vastakohtana myöhemmille malleille. Tämä suoraviivaisuus teki siitä ilmeisemmän ja toteutettavuuden.
10. Avustajien luokittimien käyttö:
Ratkaistakseen haihtumiskulmien ongelman valmistelun aikana, AlexNet esitteli idean auttajista luokittelijoista. Nämä ylimääräiset luokittelijat liitettiin kohtalaisiin kerroksiin ja antoivat kulmamerkkejä edeltäville kerroksille takaisin leviämisen aikana.
11. Vaikutus tutkimuksen suuntaan:
AlexNetin tulos merkitsi valtavaa muutosta PC-näön alalla. Se innosti tutkijoita tutkimaan syvällisen oppimisen kykyä erilaisissa kuviin liittyvissä tehtävissä, mikä sai aikaan nopean parannuksia edelleen kehitettyihin CNN-suunnitelmiin.
Mikä on GoogleNet?
GoogleNet, muuten nimeltään Inception v1, on Google Brain -ryhmän, erityisesti Christian Szegedyn, Wei Liun ja muiden luoma CNN-arkkitehtuuri. Se esiteltiin vuonna 2014, ja se voitti ILSVRC:n tarkkuudella ja laskennallisella tuottavuudellaan. GoogleNetin arkkitehtuuria kuvaa sen syvä muotoilu, joka koostuu 22 kerroksesta, mikä tekee siitä yhden ensimmäisistä 'poikkeuksellisen syvistä' CNN:istä.
1. Arkkitehtuuri
GoogleNet (Inception v1): Vuonna 2014 esitelty GoogleNet on välttämätön CNN-verkkojen Inception-ryhmälle. Se tunnetaan syvästä suunnittelustaan, jossa on 22 kerrosta (aloitusmoduulit). GoogleNetin elintärkeä kehitysvaihe on aloitusmoduuli, joka ottaa huomioon erikokoisten kanavien yhtäläiset konvoluutit samanlaisen kerroksen sisällä. Tämä vähensi laskennan monimutkaisuutta ja pysyi tarkkuudessa, mikä teki GoogleNetistä tehokkaamman kuin AlexNet.
gimp suorakulmio piirtää
2. Verkon syvällisyys:
GoogleNetin aloitusmoduuleja pidetään olennaisesti syvempänä suunnitteluna ilman, että laskentakustannukset kasvavat. 22 kerroksen GoogleNet oli yksi tärkeimmistä CNN-verkoista, joka esitti laajennetun verkon syvyyden edut, mikä kannusti edelleen kehittämään tarkkuutta ja tehoa.
3. Laskennallinen tuottavuus:
GoogleNetin aloitusmoduuleita pidetään laskennallisten resurssien tuottavampana käyttönä. Hyödyntämällä yhtäläisiä konvoluutioita jokaisessa aloituslohkossa GoogleNet vähensi rajojen ja laskelmien määrää, mikä teki siitä helpommin saavutettavissa jatkuvissa sovelluksissa ja resursseihin perustuvissa gadgeteissa.
4. Yliasennus:
GoogleNetin syvä, mutta tehokas suunnittelu vähensi olennaisesti ylisovitusta, mikä mahdollisti sen suorituskyvyn paremmin vaatimattommissa tietojoukoissa ja liikkuvien oppimistilanteiden kanssa.
5. Koulutus:
GoogleNetin koulutuksessa kehitetään lisäksi ImageNet-tietojoukon hyödyntämistä, ja vertailukelpoisia tiedonlisäysmenetelmiä käytettiin yleistyksen parantamiseen. Oli miten oli, syvemmän arkkitehtuurinsa vuoksi GoogleNet vaati enemmän laskentaresursseja kuin AlexNet koulutuksen aikana.
Aloitusmoduulien kehitys antoi GoogleNetin löytää jonkinlaisen harmonian syvällisyyden ja laskennallisen tehokkuuden välillä. Jokaisen aloituslohkon sisällä olevat yhtäläiset konvoluutiot vähensivät laskelmien ja rajojen määrää kokonaan tehden harjoittelusta saavutettavissa olevaa ja tehokkaampaa.
6. Tulokset:
GoogleNet saavutti mahtavan viiden parhaan pisteen, noin 6,67 %:n vauhdin ImageNet 2014 -kilpailussa, mikä ylitti AlexNetin esityksen.
GoogleNetin syvä, mutta asiantunteva arkkitehtuuri osoitti syvempien hermoverkkojen kykyä ja pysyi laskennallisen saavutettavuuden tahdissa, mikä teki siitä kiinnostavamman todellisissa sovelluksissa.
7. Konvoluutiokerroksen asetukset:
GoogleNet esitteli idean aloitusmoduuleista, jotka käsittävät useita samankokoisia erikokoisia kanavakerroksia. Tämän suunnitelman avulla GoogleNet saa kohokohtia eri mittakaavassa ja vaikuttaa kaiken kaikkiaan organisaation kykyyn poistaa merkittäviä elementtejä eri harkinta-asteista.
8. Mittasuhteiden lasku:
tavanomaisesta max-poolingista huolimatta GoogleNet käyttää mittasuhteen vähentämismenetelmiä, kuten 1x1 konvoluutiota. Nämä vaatimattomammat konvoluutiot ovat laskennallisesti vähemmän eskaloituneita ja auttavat vähentämään elementtien määrää samalla kun ne turvaavat perustiedot.
9. Mallin koko ja monimutkaisuus:
GoogleNetin alkuperämoduulit luovat syvällisemmän suunnittelun, jossa on olennaisesti enemmän tasoja ja rajoja. Tämä monimutkaisuus, vaikka se tarjoaa edelleen kehittynyttä tarkkuutta, voi myös tehdä organisaatiosta enemmän testaamista valmistelua ja kalibrointia varten.
10. Assistant-luokitusten käyttö:
GoogleNet jalosti ideaa avustajien luokittelijoista sisällyttämällä ne aloitusmoduuleihin. Nämä avustavat luokittelijat edistävät syvällisempien kerrosten valmistelua ja parantavat kulmavirtaa, mikä lisää tasaisemman ja tehokkaamman valmistelun.
11. Vaikutus tutkimuksen suuntaan:
GoogleNetin aloitusmoduulit tarjosivat mahdollisuuden tehokkaaseen komponenttien erottamiseen eri mittakaavassa. Tämä ajatus vaikutti tuloksena olevien suunnitelmien suunnitelmaan, mikä antoi analyytikoille mahdollisuuden nollata organisaation syvyyden ja laskennallisen tuottavuuden parantamista samalla, kun se pysyi tarkkuuden tahdissa tai kehitti edelleen.
Johtopäätös
Sekä AlexNet että GoogleNet vaikuttavat pysyvästi tietokonenäköön ja syväoppimiseen. AlexNet esitteli CNN-verkkojen kyvyn kuvantunnistustehtäviin ja valmiudet tulevaa kehitystä varten. Sitten taas GoogleNet esitteli idean alkuperämoduuleista, mikä teki niistä valmiita tehokkaampia ja syvempiä CNN-rakenteita varten.
Vaikka AlexNetillä ja GoogleNetillä on omat erityisomaisuutensa, syväoppimisen ala on kehittynyt perusteellisesti niiden esityksistä lähtien. Nykyiset mallit, kuten ResNet, DenseNet ja EfficientNet, ovat lisäksi työntäneet tarkkuuden, tuottavuuden ja yleistämisen rajoja. Kun analyytikot parantavat ja laajentavat näitä olennaisia malleja, tietokonenäön kohtalo sisältää huomattavasti enemmän huomion arvoista sitoutumista ja lisää kiehtovia näkymiä.