Datatiede pyörii tietojen käsittelyn ja analysoinnin ympärillä käyttämällä erilaisia työkaluja ja tekniikoita. Nykypäivän datavetoisessa maailmassa törmäämme datatyyppeihin, joista jokainen vaatii käsittelyä ja tulkintaa. On tärkeää ymmärtää erityyppisiä tietoja oikeaa tietojen analysointia ja tilastollista tulkintaa varten. Tietotyyppi määrää oikeat tilastolliset menetelmät ja toiminnot, joita tulisi käyttää. Eri tietotyypit tarvitsevat erilaisia analyysi- ja tulkintamenetelmiä merkittävien johtopäätösten tekemiseen. Tässä artikkelissa tutkimme datan käsitettä, ja sen merkityksestä tarjoamme esimerkkejä tosielämästä ja opastamme sinua työskennelläksesi sen kanssa.
Mittaustasot
Ennen tietojoukon analysointia on tärkeää tunnistaa sen sisältämän datan tyyppi. Onneksi kaikki tiedot voidaan ryhmitellä yhteen neljästä kategoriasta: nimellis-, järjestys-, intervalli- tai suhdetiedot. Vaikka näitä kutsutaan usein tietotyypeiksi, ne ovat itse asiassa eri mittaustasoja. Mittaustaso heijastaa tarkkuutta, jolla muuttuja on kvantifioitu, ja se määrittää menetelmät, joilla tiedoista voidaan saada oivalluksia.
Tietojen neljää luokkaa ei aina ole helppo erottaa toisistaan, vaan ne kuuluvat hierarkiaan, jolloin jokainen taso rakentuu edelliselle tasolle.

Dataa on neljää tyyppiä: kategorinen, joka voidaan jakaa edelleen nimellis- ja järjestyslukuihin, ja numeerinen, joka voidaan jakaa edelleen intervalliin ja suhteisiin. Nimellis- ja järjestysasteikot ovat suhteellisen epätarkkoja, mikä tekee niistä helpompia analysoida, mutta ne tarjoavat vähemmän tarkkoja näkemyksiä. Toisaalta intervalli- ja suhdeasteikot ovat monimutkaisempia ja vaikeammin analysoitavia, mutta ne voivat tarjota paljon rikkaampia näkemyksiä.
- Nimellistiedot – Nimellistiedot on perustietotyyppi, joka luokittelee tiedot merkitsemällä tai nimeämällä arvot, kuten sukupuolen, karvan värin tai eläintyypin. Sillä ei ole hierarkiaa.
- Ordinaal Data – Tavallisiin tietoihin kuuluu tietojen luokittelu arvon, kuten sosiaalisen aseman, perusteella luokkiin, kuten 'varakas', 'keskituloinen' tai 'köyhä'. Näiden luokkien välillä ei kuitenkaan ole asetettuja aikavälejä.
- Intervallitiedot – Intervallidata on tapa järjestää ja vertailla mitattuja aikavälejä sisältäviä tietoja. Lämpötila-asteikot, kuten Celsius tai Fahrenheit, ovat hyviä esimerkkejä intervallitiedoista. Intervallitiedoilla ei kuitenkaan ole todellista nollaa, mikä tarkoittaa, että nollan mittaus voi silti edustaa kvantifioitavaa mittaa (kuten nolla celsiusastetta, joka on vain yksi piste asteikolla, eikä se tarkoita, että lämpötila ei ole läsnä). .
- Suhdetiedot – Monimutkaisin mittaustaso on suhdetiedot. Intervallidatan tavoin se luokittelee ja järjestää tiedot käyttämällä mitattuja aikavälejä. Mutta toisin kuin intervallidata, suhdetiedot sisältävät aidon nollan. Kun muuttuja on nolla, kyseistä muuttujaa ei ole. Suhdetietojen erinomainen esimerkki on korkeuden mittaus, joka ei voi olla negatiivinen.
Mikä on nimellisdata?
Kategorinen data, joka tunnetaan myös nimellä nimellinen data, on keskeinen tietotyyppi, jota hyödynnetään eri aloilla, kuten tutkimuksessa, tilastoissa ja data-analyysissä. Se koostuu luokista tai tunnisteista, jotka auttavat tietojen luokittelussa ja järjestämisessä. Kategorisen tiedon olennainen piirre on, että sillä ei ole luontaista järjestystä tai sijoitusta luokkiensa kesken. Sen sijaan nämä luokat ovat erillisiä, erillisiä ja toisensa poissulkevia.

Esimerkiksi nimellistietoja käytetään tietojen luokittelemiseen erillisiin merkintöihin tai luokkiin ilman luonnollista järjestystä tai järjestystä. Nämä tunnisteet tai luokat on esitetty nimillä tai termeillä, eikä niiden välillä ole luonnollista järjestystä tai järjestystä. Nimellistiedot ovat hyödyllisiä tiedon laadullisessa luokittelussa ja organisoinnissa, jolloin tutkijat ja analyytikot voivat ryhmitellä datapisteitä tiettyjen ominaisuuksien tai ominaisuuksien perusteella ilman numeerisia suhteita.
- Silmien väriluokat, kuten sininen tai vihreä, edustavat nimellistietoja. Jokainen kategoria on erillinen, ilman järjestystä tai sijoitusta.
- Älypuhelinmerkit, kuten iPhone tai Samsung, ovat nimellisiä tietoja. Brändien välillä ei ole hierarkiaa.
- Kuljetusmuodot, kuten auto tai polkupyörä, ovat nimellisiä tietoja. Ne ovat erillisiä luokkia ilman luontaista järjestystä.
Nimellistietojen ominaisuudet
- Nimellisiksi luokitellut tiedot koostuvat täysin erillisistä ja toisistaan erottuvista luokista.
- Nimelliseen luokkaan kuuluvat tiedot erotetaan kuvailevilla merkinnöillä numeerisen tai kvantitatiivisen arvon sijaan
- Nimellisiä tietoja ei voida luokitella tai järjestellä hierarkkisesti, koska mikään kategoria ei ole toista parempi tai huonompi.
Esimerkki
Tässä on muutamia esimerkkejä siitä, kuinka nimellisiä tietoja käytetään tietojen luokitteluun ja luokitteluun erillisiin ja järjestämättömiin luokkiin:
1. Auton värit: Autojen värit ovat nimellisiä tietoja, joissa on selkeät kategoriat, mutta ei luontaista järjestystä tai sijoitusta. Jokainen auto kuuluu yhteen väriluokkaan ilman loogista tai numeerista yhteyttä värien välillä.
2. Hedelmätyypit: Korissa olevat hedelmäluokat ovat nimellisiä. Jokainen hedelmä kuuluu tiettyyn luokkaan ilman hierarkiaa tai järjestystä. Kaikki luokat ovat erillisiä ja erillisiä.
3. Elokuvatyypit: Elokuvatyypit ovat nimellisiä tietoja, koska toiminta- tai komedialuokkien välillä ei ole luokitusta. Jokainen genre on ainutlaatuinen, mutta emme voi sanoa, onko toinen parempi kuin toinen pelkän tämän tiedon perusteella.
Mikä on Ordinaal Data?
Ordinaal data on laadullisen tiedon muoto, joka luokittelee muuttujat kuvaaviin luokkiin. Sille on ominaista se, että sen käyttämät luokat on luokiteltu jonkinlaisella hierarkkisella asteikolla, kuten korkealta matalalle. Ordinaal data on toiseksi monimutkaisin mittaustyyppi nimellistietojen jälkeen. Vaikka se on monimutkaisempi kuin nimellisdata, josta puuttuu luontainen järjestys, se on silti suhteellisen yksinkertaista.

Esimerkiksi järjestystiedot ovat tietotyyppi, jota käytetään kohteiden luokitteluun, joilla on merkityksellinen hierarkia tai järjestys. Nämä kategoriat auttavat meitä vertailemaan ja luokittelemaan opiskelijoiden erilaisia saavutuksia, sijoituksia tai suorituksia, vaikka välit eivät olisi yhtä suuret. Järjestystiedot ovat hyödyllisiä järjestettävien valintojen tai mieltymysten ymmärtämiseen ja suhteellisten erojen arvioimiseen.
- Kouluarvosanat: Arvosanat, kuten A, B, C, ovat järjestystietoja, jotka on järjestetty saavutuksen mukaan, mutta niiden väliset välit vaihtelevat.
- Koulutustaso: Tasot, kuten lukio, kandidaatti, maisteri, ovat järjestystietoja, jotka on järjestetty koulutuksen mukaan, mutta tasojen väliset erot vaihtelevat.
- Virkataso: Työtason tasot, kuten aloitus, keski, vanhempi, ovat järjestystietoja, jotka osoittavat hierarkiaa, mutta ero vaihtelee työn ja toimialan mukaan.
Järjestystietojen ominaisuudet
- Järjestystiedot kuuluvat ei-numeeristen ja kategoristen tietojen luokkaan, mutta niissä voidaan silti käyttää numeerisia arvoja nimikkeinä.
- Järjestystiedot asetetaan aina hierarkiaan (sitä syystä nimi 'järjestys').
- Järjestystiedot voidaan asettaa paremmuusjärjestykseen, mutta niiden arvot eivät ole jakautuneet tasaisesti.
- Järjestystietojen avulla voit laskea taajuusjakauman, tilan, mediaanin ja muuttujien alueen.
Esimerkki
Tässä on muutamia esimerkkejä järjestystietojen käytöstä kentissä ja verkkotunnuksissa:
1. Koulutustasot: Järjestystietoja käytetään yleisesti edustamaan koulutustasoja, kuten koulu, kandidaatin tutkinto, maisterin tutkinto ja tohtorintutkinto. Näillä tasoilla on järjestys.
2. Asiakastyytyväisyysarviot: Toinen tiedon käyttökohde on asiakastyytyväisyystutkimuksissa. Näissä tutkimuksissa vastaajia pyydetään usein arvioimaan kokemuksensa asteikolla huonosta erinomaiseen.
3. Talousluokat: luokat mukaan lukien luokan keskiluokka ja yläluokka voidaan luokitella järjestystietoiksi niiden sijoituksen perusteella.
Nämä esimerkit havainnollistavat tapoja, joilla järjestystietoja käytetään kenttien ja alueiden välillä.
Nimellinen vs tavallinen data
| Ominaisuudet | Nimellistiedot | Ordinaal Data |
|---|---|---|
| Luokkien luonne | Erillinen ja diskreetti | Diskreetti ja erottuva |
| Järjestys/sijoitus | Ei luontaista järjestystä | Sillä on selkeä järjestys tai sijoitus |
| Numeeriset arvot | Ei merkityksellisiä numeerisia arvoja | Ei merkityksellisiä numeerisia arvoja |
| Analyysitekniikat | Taajuusmäärät, prosentit, pylväskaaviot | Ranking, mediaani, ei-parametriset testit, järjestetyt pylväskaaviot, järjestysregressio |
| Esimerkki | Värit, sukupuoli, eläintyypit Sree Ramanujan | Kouluarvosanat, koulutustaso, vanhuusaste |
| Tulkinta | Käytetään luokitteluun ja ryhmittelyyn kategorian perusteella | Käytetään järjestetyn mieltymysten, hierarkian tai sijoitusten arvioimiseen |