logo

Vodič za Apache Spark

Vodič za Apache Spark

Vodič za Apache Spark pruža osnovne i napredne koncepte Spark-a. Naš vodič za Spark dizajniran je za početnike i profesionalce.

Spark je objedinjeni analitički mehanizam za obradu podataka velikih razmjera uključujući ugrađene module za SQL, strujanje, strojno učenje i obradu grafikona.

Naš vodič za Spark uključuje sve teme o Apache Sparku s uvodom u Spark, Instalacija Spark, Arhitektura Spark, Komponente Spark, RDD, Spark primjeri u stvarnom vremenu i tako dalje.

Što je Spark?

Apache Spark je open-source cluster computing framework. Njegova primarna svrha je rukovanje podacima generiranim u stvarnom vremenu.

Spark je izgrađen na vrhu Hadoop MapReduce. Optimiziran je za rad u memoriji, dok alternativni pristupi poput Hadoopovog MapReducea zapisuju podatke na i s tvrdih diskova računala. Dakle, Spark obrađuje podatke puno brže od drugih alternativa.

Povijest Apache Spark

Spark je pokrenuo Matei Zaharia iz UC Berkeley's AMLab 2009. Otvoren je izvor 2010. pod BSD licencom.

Godine 2013. projekt je otkupila Apache Software Foundation. Godine 2014. Spark se pojavio kao Apache projekt najviše razine.

Značajke Apache Spark

    Brzo- Omogućuje visoku izvedbu i za batch i za strujanje podataka, koristeći najsuvremeniji DAG planer, alat za optimizaciju upita i motor za fizičko izvršavanje.Jednostavan za korištenje- Olakšava pisanje aplikacije u Javi, Scali, Pythonu, R i SQL-u. Također nudi više od 80 operatera na visokoj razini.Općenitost- Pruža zbirku biblioteka uključujući SQL i DataFrames, MLlib za strojno učenje, GraphX ​​i Spark Streaming.Lagan- To je lagani objedinjeni analitički mehanizam koji se koristi za obradu podataka velikih razmjera.Trči posvuda- Može se lako pokrenuti na Hadoopu, Apache Mesosu, Kubernetesu, samostalno ili u oblaku.

Upotreba Spark-a

    Integracija podataka:Podaci koje generiraju sustavi nisu dovoljno konzistentni da bi se mogli kombinirati za analizu. Za dohvaćanje konzistentnih podataka iz sustava možemo koristiti procese poput ekstrakcije, transformacije i učitavanja (ETL). Spark se koristi za smanjenje troškova i vremena potrebnog za ovaj ETL proces.Obrada streama:Uvijek je teško rukovati podacima generiranim u stvarnom vremenu kao što su log datoteke. Spark je dovoljno sposoban da upravlja tokovima podataka i odbija potencijalno lažne operacije.Strojno učenje:Pristupi strojnog učenja postaju izvediviji i sve precizniji zbog povećanja količine podataka. Budući da spark može pohranjivati ​​podatke u memoriju i može brzo pokretati ponovljene upite, olakšava rad na algoritmima strojnog učenja.Interaktivna analitika:Spark može brzo generirati odgovor. Dakle, umjesto pokretanja unaprijed definiranih upita, možemo interaktivno rukovati podacima.

Preduvjet

Prije nego naučite Spark, morate imati osnovno znanje o Hadoopu.

Publika

Naš Spark vodič osmišljen je da pomogne početnicima i profesionalcima.

Problemi

Uvjeravamo vas da nećete pronaći nikakav problem s ovim Spark vodičem. Međutim, ako postoji bilo kakva pogreška, objavite problem u obrascu za kontakt.