Mis on RDD Scalas?
Mis on RDD Scalas?

Video: Mis on RDD Scalas?

Video: Mis on RDD Scalas?
Video: What is RDD in Apache Spark | Spark RDD vs MapReduce | Spark Tutorial |@OnlineLearningCenterIndia 2024, November
Anonim

Elastsed hajutatud andmestikud ( RDD ) on Sparki põhiandmestruktuur. See on muutumatu hajutatud objektide kogu. RDD-d võib sisaldada mis tahes tüüpi Pythoni, Java või Scala objektid, sealhulgas kasutaja määratud klassid. Formaalselt an RDD on kirjutuskaitstud, jaotatud kirjete kogu.

Küsimus on ka selles, mis vahe on RDD ja DataFrame vahel?

RDD – RDD on paljude masinate vahel levinud andmeelementide hajutatud kogu aastal klaster. RDD-d on Java või Scala objektide komplekt, mis esindab andmeid. DataFrame – A DataFrame on jagatud andmete kogum, mis on jaotatud nimelistesse veergudesse. See on kontseptuaalselt võrdne tabeliga sees relatsiooniline andmebaas.

Lisaks, kuidas RDD-d levitatakse? Vastupidav Levitatud Andmekogumid ( RDD-d ) Need on a jaotatud objektide kogum, mis on salvestatud mällu või klastri erinevate masinate ketastele. Üksik RDD saab jagada mitmeks loogiliseks partitsiooniks, nii et neid partitsioone saab salvestada ja töödelda klastri erinevates masinates.

kuidas spark RDD töötab?

RDD-d sisse Säde omama partitsioone sisaldavate kirjete kogu. RDD-d sisse Säde on jagatud väikesteks loogilisteks andmetükkideks – partitsioonideks nimetatakse toimingu sooritamisel iga partitsiooni kohta käivitusülesanne. Vaheseinad sisse RDD-d on paralleelsuse põhiühikud.

Kumb on kiirem RDD või DataFrame?

RDD - Lihtsate rühmitamis- ja liitmistoimingute tegemisel RDD API on aeglasem. DataFrame - uurimusliku analüüsi tegemisel, andmete koondstatistika loomisel, andmeraamid on kiiremini . RDD - Kui soovite madala tasemega ümberkujundamist ja toiminguid, kasutame seda RDD-d . Kasutame ka siis, kui vajame kõrgetasemelisi abstraktsioone RDD-d.

Soovitan: