Sisukord:

Millised on Hadoopi erinevad failivormingud?
Millised on Hadoopi erinevad failivormingud?

Video: Millised on Hadoopi erinevad failivormingud?

Video: Millised on Hadoopi erinevad failivormingud?
Video: Hadoop Rack Awareness 2024, November
Anonim

Teie õnneks on suurandmete kogukond põhimõtteliselt leppinud kolme optimeeritud valikuga failivormingud kasutamiseks Hadoop klastrid: optimeeritud rida veerg (ORC), Avro ja parkett.

Seejärel võib ka küsida, millised on erinevad andmevormingu tüübid?

Seal on kolm andmetüübid kaardistamine ja GIS andmevormingud . Iga tüüp käsitletakse erinevalt.

Andmevormingu tüübid

  • Failipõhised - kujufailid, Microstationi disainifailid (DGN), GeoTIFF-pildid.
  • Kataloogipõhine – ESRI ArcInfo Coverages, US Census TIGER.
  • Andmebaasi ühendused - PostGIS, ESRI ArcSDE, MySQL.

Lisaks, milline failivorming on taru jaoks parim? RCFile on veeruline rida failiformaat . See on teine vorm Taru failivorming mis pakub kõrget reataseme tihendusmäära. Kui teil on nõue täita mitu rida korraga, saate kasutada RCFile'i vormingus.

Seda silmas pidades, millised on Hadoopi tavalised sisendvormingud?

InputFormat loob Inputspliti

  • Kõige tavalisemad sisestusvormingud on:
  • FileInputFormat – see on kõigi failipõhiste sisendivormingute põhiklass.
  • TextInputFormat – see on rakenduse MapReduce vaikimisi sisendvorming.
  • KeyValueTextInputFormat- see on sarnane TextInputFormatiga.
  • Hadoopi InputFormati kohta lisateabe saamiseks järgige linki.

Mis on Hadoopi orc-failivorming?

ORC failivorming Optimeeritud rea veerg ( ORC ) failiformaat pakub väga tõhusat viisi Hive'i andmete salvestamiseks. See oli mõeldud teise taru piirangute ületamiseks failivormingud . Kasutades ORC-failid parandab jõudlust Hiveise andmete lugemisel, kirjutamisel ja töötlemisel.

Soovitan: