Mis on Hadoopi väikeste failide probleem?
Mis on Hadoopi väikeste failide probleem?

Video: Mis on Hadoopi väikeste failide probleem?

Video: Mis on Hadoopi väikeste failide probleem?
Video: ЛЮБОВЬ С ДОСТАВКОЙ НА ДОМ (2020). Романтическая комедия. Хит 2024, Mai
Anonim

1) Väike failiprobleem sisse HDFS : Hoiab palju väikesed failid mis on äärmiselt väiksem kui ploki suurust ei saa tõhusalt käsitleda HDFS . Lugedes läbi väikesed failid hõlmab palju otsinguid ja palju hüppamist andmesõlmede vahel andmesõlmede vahel, mis on omakorda ebatõhus andmetöötlus.

Lisaks sellele, millised failid tegelevad Hadoopi väikeste failiprobleemidega?

1) HAR ( Hadoop Arhiiv) Failid on tutvustatud tegeleda väikese failiprobleemiga . HAR on lisanud peal oleva kihi HDFS , mis pakuvad liidest faili ligipääsemine. Kasutades Hadoop arhiivikäsk, HAR failid luuakse, mis jookseb a MapReduce töö pakkida failid arhiveeritakse väiksem mitu HDFS-failid.

Lisaks, kas ma saan HDFS-is mitu faili kasutada erineva suurusega plokki? Vaikimisi suurus kohta blokk on 64 MB. sina saab muutke seda vastavalt teie nõudele. Teie küsimusele tulles jah, sina saab luua mitu faili varieerides plokkide suurused aga seda reaalajas tahe ei soosi tootmist.

Veelgi enam, miks HDFS ei käsitle väikseid faile optimaalselt?

Probleemid väikesed failid ja HDFS iga faili , kataloog ja blokeeri HDFS on kujutatakse nimesõlme mälus objektina, millest igaüks võtab rusikareeglina enda alla 150 baiti. Lisaks HDFS ei ole mõeldud tõhusaks juurdepääsuks väikesed failid : see on peamiselt mõeldud suurte voogesituse jaoks failid.

Miks on Hadoop aeglane?

Aeglane Töötlemiskiirus Selle ketta otsimine võtab aega, muutes kogu protsessi väga heaks aeglane . Kui Hadoop töötleb andmeid väikeses mahus, see on väga aeglane suhteliselt. See sobib ideaalselt suurte andmekogumite jaoks. Nagu Hadoop mille keskmes on paketttöötluse mootor, selle kiirus reaalajas töötlemiseks on väiksem.

Soovitan: