Ποια είναι η διαφορά μεταξύ sge, spark και hadoop;


Απάντηση 1:

Τι είναι ο Hadoop;

Το Hadoop είναι ένα πλαίσιο ή οικοσύστημα στοιχείων που προορίζονται για τη διεξαγωγή αναλύσεων παρτίδων ή μια απλή κατανεμημένη εργασία πάνω σε ένα τεράστιο όγκο κατανεμημένων δεδομένων. Μπορείτε να αποθηκεύσετε τα δεδομένα ζetabytes με κατανεμημένο τρόπο και μπορείτε να πραγματοποιήσετε αναλύσεις παρτίδων πάνω στα κατανεμημένα δεδομένα.

Οι κύριες ενότητες που αποτελούν το Hadoop είναι,

  • Το Hadoop Distributed File System (HDFS): Ένα κατανεμημένο σύστημα αρχείων που παρέχει πρόσβαση υψηλής απόδοσης στα δεδομένα εφαρμογής. Hadoop YARN: Ένα πλαίσιο για τον προγραμματισμό των εργασιών και τη διαχείριση των πόρων των συμπλεγμάτων. Hadoop MapReduce: Σύστημα βασισμένο σε YARN για παράλληλη επεξεργασία μεγάλων συνόλων δεδομένων .

Τι είναι το Spark;

Το Apache Spark υποστηρίζεται ότι είναι μια πιο γρήγορη έκδοση του Map Reducer του Hadoop. Το μυστικό είναι ότι τρέχει σε μνήμη στο σύμπλεγμα και ότι δεν συνδέεται με το μοντέλο Hadoop MapReduce δύο σταδίων. Αυτό κάνει την επανάληψη της πρόσβασης στα ίδια δεδομένα πολύ πιο γρήγορα. Το Spark μπορεί να λειτουργεί ως αυτόνομο ή πάνω από το Hadoop YARN, όπου μπορεί να διαβάζει δεδομένα απευθείας από HDFS ή από πηγές συνεχούς ροής όπως Kafka ή Flume ή Kinesis.

Τι είναι το SGE;

Το λογισμικό Sun Grid Engine είναι περισσότερο διαχειριστής κατανεμημένων πόρων που προορίζεται να μεγιστοποιήσει τη χρήση των πόρων μέσα στο σύμπλεγμα κόμβων / εξυπηρετητών, συνδυάζοντας το εισερχόμενο φόρτο εργασίας με τους διαθέσιμους πόρους ανάλογα με τις ανάγκες του φόρτου εργασίας και τις επιχειρηματικές πολιτικές που ισχύουν.

Spark vs Hadoop

Το Apache Spark μπορεί να κάνει περισσότερα από την απλή επεξεργασία δεδομένων: μπορεί να επεξεργαστεί γραφήματα και να χρησιμοποιήσει τις υπάρχουσες βιβλιοθήκες εκμάθησης μηχανών. Χάρη στην υψηλή απόδοσή του, η Spark μπορεί να επεξεργαστεί σε πραγματικό χρόνο καθώς και να επεξεργάζεται παρτίδες. Αυτό παρουσιάζει μια ενδιαφέρουσα ευκαιρία να χρησιμοποιήσετε μια πλατφόρμα για τα πάντα, αντί να χρειάζεται να χωρίζετε εργασίες σε διαφορετικές πλατφόρμες, οι οποίες απαιτούν μάθηση και συντήρηση.

Το Hadoop MapReduce είναι ιδανικό για την επεξεργασία παρτίδων. Εάν θέλετε μια επιλογή σε πραγματικό χρόνο, θα χρειαστεί να χρησιμοποιήσετε μια άλλη πλατφόρμα, όπως Storm ή Impala, και για επεξεργασία γραφημάτων μπορείτε να χρησιμοποιήσετε το Giraph. Το MapReduce χρησιμοποίησε το Apache Mahout για μηχανική μάθηση, αλλά οι αναβάτες των ελεφάντων το έκαψαν υπέρ του Spark.


Απάντηση 2:

Θα σας εξηγήσω ξεχωριστά:

SGE

Το Grid Engine χρησιμοποιείται συνήθως σε ένα κατάστημα υπολογιστών ή στο σύμπλεγμα υπολογιστών υψηλής απόδοσης (HPC) και είναι υπεύθυνο για την αποδοχή, τον προγραμματισμό, την αποστολή και τη διαχείριση της απομακρυσμένης και κατανεμημένης εκτέλεσης μεγάλου αριθμού ανεξάρτητων, παράλληλων ή διαδραστικών εργασιών χρηστών. Επίσης διαχειρίζεται και προγραμματίζει την κατανομή των κατανεμημένων πόρων, όπως οι επεξεργαστές, η μνήμη, ο χώρος στο δίσκο και οι άδειες λογισμικού.

Το Grid Engine αποτελούσε το θεμέλιο του συστήματος πληροφορικής Sun Grid, το οποίο διατέθηκε μέσω του Διαδικτύου στις Ηνωμένες Πολιτείες το 2006,

που αργότερα έγινε διαθέσιμη σε πολλές άλλες χώρες και ήταν μια πρώιμη έκδοση μιας δημόσιας υπηρεσίας Cloud Computing πριν από την Amazon AWS, για παράδειγμα

Hadoop

Το Hadoop είναι ένα εργαλείο ανοικτού κώδικα από το Apache Software Foundation του ASF. Το έργο Open Source σημαίνει ότι είναι ελεύθερα διαθέσιμο και μπορούμε να αλλάξουμε τον πηγαίο κώδικα σύμφωνα με τις απαιτήσεις. Εάν κάποια λειτουργικότητα δεν ικανοποιεί την ανάγκη σας τότε μπορείτε να την αλλάξετε ανάλογα με τις ανάγκες σας. Το μεγαλύτερο μέρος του κώδικα Hadoop γράφεται από το Yahoo, την IBM, το Facebook, το Cloudera.

Παρέχει ένα αποτελεσματικό πλαίσιο για την εκτέλεση εργασιών σε πολλαπλούς κόμβους συμπλεγμάτων. Σύνολο σημαίνει μια ομάδα συστημάτων συνδεδεμένων μέσω LAN. Το Apache Hadoop παρέχει παράλληλη επεξεργασία δεδομένων καθώς λειτουργεί ταυτόχρονα σε πολλαπλά μηχανήματα. Ας δούμε ένα βίντεο Hadoop Tutorial για να καταλάβουμε τι είναι ο Hadoop με έναν καλύτερο τρόπο.

Σπίθα

Ο προγραμματισμός Spark δεν είναι παρά μια πλατφόρμα γενικής χρήσης και αστραπιαίας ταχύτητας. Με άλλα λόγια, είναι ένας ανοικτής πηγής, ευρέος φάσματος κινητήρας επεξεργασίας δεδομένων. Αυτό αποκαλύπτει τα αναπτυξιακά API, τα οποία επίσης εξουσιοδοτούν τους εργαζόμενους στον τομέα των δεδομένων να πραγματοποιούν συνεχούς ροής, μηχανικής μάθησης ή φόρτου εργασίας SQL που απαιτούν επαναλαμβανόμενη πρόσβαση σε σύνολα δεδομένων. Ωστόσο, το Spark μπορεί να επεξεργαστεί παρτίδες και να επεξεργαστεί ροή. Η επεξεργασία παρτίδων αναφέρεται στην επεξεργασία της εργασίας που συλλέχθηκε προηγουμένως σε μία μόνο παρτίδα. Ενώ η επεξεργασία της ροής σημαίνει ότι πρέπει να αντιμετωπιστούν τα δεδομένα ροής Spark.

Αυτό είναι το βασικό που διαφοροποιεί τα Hadoop, Spark και SGE.

Επίσης, διαβάστε την απάντηση της Shailna Patidar σε ποια μαθήματα βρίσκονται στην τάση τώρα (2018 και 2019) όπως η ασφάλεια στον κυβερνοχώρο, η ανάπτυξη ιστοσελίδων κ.λπ .; Ενδιαφέρομαι για τον τομέα του λογισμικού.

Εάν η απάντηση ήταν χρήσιμη, παρακαλώ UPVOTE.


Απάντηση 3:

Θα σας εξηγήσω ξεχωριστά:

SGE

Το Grid Engine χρησιμοποιείται συνήθως σε ένα κατάστημα υπολογιστών ή στο σύμπλεγμα υπολογιστών υψηλής απόδοσης (HPC) και είναι υπεύθυνο για την αποδοχή, τον προγραμματισμό, την αποστολή και τη διαχείριση της απομακρυσμένης και κατανεμημένης εκτέλεσης μεγάλου αριθμού ανεξάρτητων, παράλληλων ή διαδραστικών εργασιών χρηστών. Επίσης διαχειρίζεται και προγραμματίζει την κατανομή των κατανεμημένων πόρων, όπως οι επεξεργαστές, η μνήμη, ο χώρος στο δίσκο και οι άδειες λογισμικού.

Το Grid Engine αποτελούσε το θεμέλιο του συστήματος πληροφορικής Sun Grid, το οποίο διατέθηκε μέσω του Διαδικτύου στις Ηνωμένες Πολιτείες το 2006,

που αργότερα έγινε διαθέσιμη σε πολλές άλλες χώρες και ήταν μια πρώιμη έκδοση μιας δημόσιας υπηρεσίας Cloud Computing πριν από την Amazon AWS, για παράδειγμα

Hadoop

Το Hadoop είναι ένα εργαλείο ανοικτού κώδικα από το Apache Software Foundation του ASF. Το έργο Open Source σημαίνει ότι είναι ελεύθερα διαθέσιμο και μπορούμε να αλλάξουμε τον πηγαίο κώδικα σύμφωνα με τις απαιτήσεις. Εάν κάποια λειτουργικότητα δεν ικανοποιεί την ανάγκη σας τότε μπορείτε να την αλλάξετε ανάλογα με τις ανάγκες σας. Το μεγαλύτερο μέρος του κώδικα Hadoop γράφεται από το Yahoo, την IBM, το Facebook, το Cloudera.

Παρέχει ένα αποτελεσματικό πλαίσιο για την εκτέλεση εργασιών σε πολλαπλούς κόμβους συμπλεγμάτων. Σύνολο σημαίνει μια ομάδα συστημάτων συνδεδεμένων μέσω LAN. Το Apache Hadoop παρέχει παράλληλη επεξεργασία δεδομένων καθώς λειτουργεί ταυτόχρονα σε πολλαπλά μηχανήματα. Ας δούμε ένα βίντεο Hadoop Tutorial για να καταλάβουμε τι είναι ο Hadoop με έναν καλύτερο τρόπο.

Σπίθα

Ο προγραμματισμός Spark δεν είναι παρά μια πλατφόρμα γενικής χρήσης και αστραπιαίας ταχύτητας. Με άλλα λόγια, είναι ένας ανοικτής πηγής, ευρέος φάσματος κινητήρας επεξεργασίας δεδομένων. Αυτό αποκαλύπτει τα αναπτυξιακά API, τα οποία επίσης εξουσιοδοτούν τους εργαζόμενους στον τομέα των δεδομένων να πραγματοποιούν συνεχούς ροής, μηχανικής μάθησης ή φόρτου εργασίας SQL που απαιτούν επαναλαμβανόμενη πρόσβαση σε σύνολα δεδομένων. Ωστόσο, το Spark μπορεί να επεξεργαστεί παρτίδες και να επεξεργαστεί ροή. Η επεξεργασία παρτίδων αναφέρεται στην επεξεργασία της εργασίας που συλλέχθηκε προηγουμένως σε μία μόνο παρτίδα. Ενώ η επεξεργασία της ροής σημαίνει ότι πρέπει να αντιμετωπιστούν τα δεδομένα ροής Spark.

Αυτό είναι το βασικό που διαφοροποιεί τα Hadoop, Spark και SGE.

Επίσης, διαβάστε την απάντηση της Shailna Patidar σε ποια μαθήματα βρίσκονται στην τάση τώρα (2018 και 2019) όπως η ασφάλεια στον κυβερνοχώρο, η ανάπτυξη ιστοσελίδων κ.λπ .; Ενδιαφέρομαι για τον τομέα του λογισμικού.

Εάν η απάντηση ήταν χρήσιμη, παρακαλώ UPVOTE.