Hive on tietovarastojärjestelmä, jota käytetään strukturoidun tiedon analysointiin. Se on rakennettu Hadoopin päälle. Sen on kehittänyt Facebook.
Hive tarjoaa toiminnot hajautetussa tallennustilassa olevien suurten tietojoukkojen lukemiseen, kirjoittamiseen ja hallintaan. Se suorittaa SQL:n kaltaisia kyselyitä nimeltä HQL (Hive query language), joka muunnetaan sisäisesti MapReduce-töiksi.
Hiven avulla voimme ohittaa vaatimuksen perinteisestä lähestymistavasta kirjoittaa monimutkaisia MapReduce-ohjelmia. Hive tukee Data Definition Language (DDL), Data Manipulation Language (DML) ja User Defined Functions (UDF) -kieltä.
Hiven ominaisuudet
Nämä ovat seuraavat Hiven ominaisuudet:
- Hive on nopea ja skaalautuva.
- Se tarjoaa SQL:n kaltaisia kyselyitä (eli HQL), jotka muunnetaan implisiittisesti MapReduce- tai Spark-töiksi.
- Se pystyy analysoimaan suuria HDFS:ään tallennettuja tietojoukkoja.
- Se mahdollistaa erilaisia tallennustyyppejä, kuten pelkkää tekstiä, RCFile- ja HBase-tiedostoja.
- Se käyttää indeksointia nopeuttaakseen kyselyitä.
- Se voi toimia Hadoop-ekosysteemiin tallennettujen pakattujen tietojen kanssa.
- Se tukee käyttäjän määrittämiä toimintoja (UDF), joissa käyttäjä voi tarjota toiminnallisuutensa.
Hiven rajoitukset
- Hive ei pysty käsittelemään reaaliaikaista dataa.
- Sitä ei ole suunniteltu verkkotapahtumien käsittelyyn.
- Hive-kyselyt sisältävät korkean viiveen.
Erot Hiven ja Pig:n välillä
Pesä | Sika |
---|---|
Hiveä käyttävät yleisesti dataanalyytikot. | Ohjelmoijat käyttävät yleisesti sikaa. |
Se seuraa SQL:n kaltaisia kyselyitä. | Se noudattaa datavirran kieltä. |
Se pystyy käsittelemään strukturoitua dataa. | Se pystyy käsittelemään puolistrukturoitua dataa. |
Se toimii HDFS-klusterin palvelinpuolella. | Se toimii HDFS-klusterin asiakaspuolella. |
Hive on hitaampi kuin Pig. | Possu on verrattain nopeampi kuin Hive. |