Απάντηση 1:

Η Oracle είναι μια σχεσιακή βάση δεδομένων που αποτελεί μέρος της Oracle Corporation. Αυτή η βάση δεδομένων χρησιμοποιείται ευρέως στις βιομηχανίες για την αποθήκευση και την επεξεργασία μεγάλων όγκων δεδομένων που υπάρχουν με τη μορφή σειρών και στηλών. Διαθέτει μόνο δομημένα δεδομένα.

Hadoop, από την άλλη πλευρά, είναι μια λύση σε πολλές μεγάλες προκλήσεις δεδομένων. Διαθέτει πολλά εργαλεία και πλαίσια που μπορούν να αποθηκεύουν, να επεξεργάζονται και να αναλύουν μεγάλα σύνολα δεδομένων. Αυτά τα δεδομένα μπορούν να έχουν τη μορφή δομημένου πίνακα, ημιδομημένα (αρχεία καταγραφής, δεδομένα διακομιστή ιστού) ή ακόμη και μη δομημένα δεδομένα (εικόνες, ηχητικά μηνύματα, βίντεο).

Ο Hadoop χρησιμοποιεί κυρίως το HDFS για την αποθήκευση των δεδομένων και το MapReduce καθώς και το YARN για την επεξεργασία των δεδομένων. Άλλα εργαλεία στο Hadoop περιλαμβάνουν Sqoop, Oozie, Pig, Hive, κλπ.

Ακολουθούν μερικά βίντεο για να μάθετε περισσότερα για το Hadoop και τα εργαλεία του:


Απάντηση 2:

Τι είναι ο Hadoop;

Το Hadoop είναι ένα κατανεμημένο σύστημα ανοιχτού κώδικα που ανήκει στο Apache Foundation που σχεδιάστηκε εξ ολοκλήρου από την Java για την αποθήκευση και επεξεργασία μεγάλων όγκων πληροφοριών, σχεδιάστηκε από την Google όπου ο Doug Cutting μπορούσε να θεωρηθεί πατέρας του Hadoop. Το Hadoop έχει δύο στοιχεία: το HDFS και το MapReduce καθώς και διάφορα "πλαίσια" και "εφαρμογές" που περιστρέφονται γύρω από αυτά για να τα συμπληρώσουν και να τα ενισχύσουν. Στη συνέχεια θα εξηγήσουμε λίγο περισσότερο γι 'αυτό.

Το HDFS ή το Σύστημα αρχείων Hadoop είναι ο τρόπος με τον οποίο η Hadoop αποθηκεύει πληροφορίες, θυμίζοντας ότι μιλάμε για μεγάλα ποσά μη δομημένων αρχείων, όπως παραδείγματα: Json Documents, Videos, SMS, Logs οποιουδήποτε μεγέθους κλπ. Το HDFS αποτελείται από το όνομα- Κόμβοι που είναι ο κύριος κόμβος του συμπλέγματος Hadoop και οι κόμβοι δεδομένων που είναι διακομιστές βασικών προϊόντων στους οποίους πρόκειται να διανεμηθούν τα αρχεία. Το HDFS χωρίζει το αρχείο σε 3 μέρη 64MB ή 128MB ανάλογα με τη διαμόρφωση που επιλέγουμε και διανέμει τα μπλοκ ανάμεσα στους κόμβους δεδομένων που επιλέγει ο κόμβος ονομάτων. Ο κόμβος ονομάτων αποθηκεύει τα μεταδεδομένα και οι κόμβοι δεδομένων αποθηκεύουν τα φυσικά μπλοκ. Αν χάσουμε τον κόμβο ονομάτων, χάνουμε το σύμπλεγμα Hadoop.

Το MapReduce είναι ο τρόπος με τον οποίο ο Hadoop επεξεργάζεται τα αρχεία που είναι αποθηκευμένα σε HDFS και αποτελείται από έναν αλγόριθμο ο οποίος χρησιμοποιείται για τη διεκπεραίωση μεγάλων όγκων πληροφοριών μέσω διαδικασιών "παρτίδας" όπου η πληροφορία που διανέμεται στους Data-Nodes είναι αντιστοιχισμένη (mapping) εισάγει τη διαδικασία παραγγελίας έτσι ώστε να είναι τελικά οργανωμένη και να παρουσιαστεί στον πελάτη (η λειτουργία μειώνεται). MapReduce μπορεί να γραφτεί σε Java, Python, R ή Pig.

Με τη σειρά του, ο Hadoop διαθέτει αρκετά πλαίσια ή δορυφορικές εφαρμογές που βελτιώνουν τη λειτουργικότητά του και βελτιώνουν τον έλεγχο. Δεν θα πάμε σε λεπτομέρειες για να αποφύγουμε την απώλεια του κύριου θέματος, αλλά μπορούμε να μιλήσουμε για το Χοίροι, την Κυψέλη, το Oozie, το HBase, το Mahout, το Impala, το Spark κ.λπ.

Τι είναι το Oracle;

Η βάση δεδομένων Oracle (Oracle DB) είναι ένα σύστημα διαχείρισης σχεσιακής βάσης δεδομένων (RDBMS) από την Oracle Corporation. Αρχικά αναπτύχθηκε το 1977 από τον Lawrence Ellison και άλλους προγραμματιστές, το Oracle DB είναι μία από τις πιο αξιόπιστες και ευρέως χρησιμοποιούμενες μηχανές σχεσιακών βάσεων δεδομένων.

Το σύστημα είναι χτισμένο γύρω από ένα πλαίσιο σχεσιακής βάσης δεδομένων στο οποίο τα αντικείμενα δεδομένων μπορούν να έχουν άμεση πρόσβαση από τους χρήστες (ή από ένα front end εφαρμογής) μέσω δομημένης γλώσσας ερωτήματος (SQL). Η Oracle είναι μια πλήρως κλιμακούμενη αρχιτεκτονική σχεσιακής βάσης δεδομένων και χρησιμοποιείται συχνά από τις παγκόσμιες επιχειρήσεις, οι οποίες διαχειρίζονται και επεξεργάζονται δεδομένα σε ευρεία και τοπικά δίκτυα. Η βάση δεδομένων Oracle έχει το δικό της στοιχείο δικτύου για να επιτρέπει επικοινωνίες μεταξύ των δικτύων.

Το Oracle DB είναι επίσης γνωστό ως Oracle RDBMS και, μερικές φορές, μόνο Oracle.

Η διαφορά μεταξύ του Hadoop και του Oracle (RDBMS)

Όπως και ο Hadoop, το RDBMS δεν μπορεί να χρησιμοποιηθεί όταν πρόκειται για επεξεργασία και αποθήκευση μεγάλου όγκου δεδομένων ή απλά μεγάλα δεδομένα. Ακολουθούν κάποιες διαφορές μεταξύ του Hadoop και του παραδοσιακού RDBMS.

Δεδομένα Όγκος-

Ο όγκος δεδομένων σημαίνει την ποσότητα των δεδομένων που αποθηκεύονται και επεξεργάζονται. Το RDBMS λειτουργεί καλύτερα όταν ο όγκος δεδομένων είναι χαμηλός (σε Gigabytes). Αλλά όταν το μέγεθος των δεδομένων είναι τεράστιο, δηλαδή, σε Terabytes και Petabytes, το RDBMS αποτυγχάνει να δώσει τα επιθυμητά αποτελέσματα.

Από την άλλη πλευρά, ο Hadoop λειτουργεί καλύτερα όταν το μέγεθος των δεδομένων είναι μεγάλο. Μπορεί εύκολα να επεξεργαστεί και να αποθηκεύσει μεγάλο όγκο δεδομένων αρκετά αποτελεσματικά σε σύγκριση με το παραδοσιακό RDBMS.

Αρχιτεκτονική-

Αν μιλάμε για την αρχιτεκτονική, ο Hadoop έχει τα ακόλουθα βασικά στοιχεία:

HDFS (Hadoop Distributed File System), Hadoop MapReduce (ένα μοντέλο προγραμματισμού για την επεξεργασία μεγάλων συνόλων δεδομένων) και Hadoop YARN (χρησιμοποιείται για τη διαχείριση υπολογιστικών πόρων σε ομάδες υπολογιστών).

Τα παραδοσιακά RDBMS διαθέτουν ιδιότητες του Οξέος που είναι η Ατομικότητα, η Συνέπεια, η Απομόνωση και η Ανθεκτικότητα.

Αυτές οι ιδιότητες είναι υπεύθυνες για τη διατήρηση και διασφάλιση της ακεραιότητας και της ακρίβειας των δεδομένων όταν πραγματοποιείται μια συναλλαγή σε μια βάση δεδομένων.

Αυτές οι συναλλαγές ενδέχεται να σχετίζονται με τα τραπεζικά συστήματα, τη βιομηχανία κατασκευής, τη βιομηχανία τηλεπικοινωνιών, την ηλεκτρονική αγορά, τον τομέα της εκπαίδευσης κλπ.

Διακίνηση-

Ως "διαχωρισμός" νοείται ο συνολικός όγκος των δεδομένων που υποβάλλονται σε επεξεργασία σε μια συγκεκριμένη χρονική περίοδο, έτσι ώστε η παραγωγή να είναι μέγιστη. Το RDBMS δεν επιτυγχάνει υψηλότερη απόδοση σε σύγκριση με το πλαίσιο Apache Hadoop.

Αυτός είναι ένας από τους λόγους πίσω από τη βαριά χρήση του Hadoop από το παραδοσιακό Σχεσιακό Σύστημα Διαχείρισης Βάσεων Δεδομένων.

Δεδομένα Ποικιλία-

Η ποικιλία δεδομένων γενικά σημαίνει τον τύπο των δεδομένων προς επεξεργασία. Μπορεί να είναι δομημένη, ημι-δομημένη και αδόμητη.

Η Hadoop έχει τη δυνατότητα να επεξεργάζεται και να αποθηκεύει κάθε ποικιλία δεδομένων, είτε είναι δομημένη, ημιδομημένη είτε μη δομημένη. Παρόλο που χρησιμοποιείται ως επί το πλείστον για τη διεκπεραίωση μεγάλης ποσότητας μη δομημένων δεδομένων.

Το παραδοσιακό RDBMS χρησιμοποιείται μόνο για τη διαχείριση δομημένων και ημιδομημένων δεδομένων. Δεν μπορεί να χρησιμοποιηθεί για τη διαχείριση μη δομημένων δεδομένων. Έτσι, μπορούμε να πούμε ότι ο Hadoop είναι πολύ καλύτερος από το παραδοσιακό σύστημα διαχείρισης σχεσιακής βάσης δεδομένων.

Χρόνος καθυστέρησης / απόκρισης -

Το Hadoop έχει υψηλότερη απόδοση, μπορείτε να έχετε γρήγορη πρόσβαση σε παρτίδες μεγάλων συνόλων δεδομένων από το παραδοσιακό RDBMS, αλλά δεν μπορείτε να έχετε πρόσβαση σε μια συγκεκριμένη εγγραφή από το σύνολο δεδομένων πολύ γρήγορα. Έτσι λέγεται ότι ο Hadoop έχει χαμηλή λανθάνουσα κατάσταση.

Αλλά το RDBMS είναι συγκριτικά ταχύτερο για την ανάκτηση των πληροφοριών από τα σύνολα δεδομένων. Χρειάζεται πολύ λίγος χρόνος για την εκτέλεση της ίδιας λειτουργίας, με την προϋπόθεση ότι υπάρχει μικρός όγκος δεδομένων.

Ευελιξία -

Το RDBMS παρέχει κατακόρυφη δυνατότητα κλιμάκωσης, η οποία είναι επίσης γνωστή ως "κλιμάκωση" μιας μηχανής. Αυτό σημαίνει ότι μπορείτε να προσθέσετε περισσότερους πόρους ή hardwares όπως μνήμη, CPU σε μια μηχανή στο σύμπλεγμα υπολογιστών.

Ενώ ο Hadoop παρέχει οριζόντια δυνατότητα κλιμάκωσης, η οποία είναι επίσης γνωστή ως μηχανή "Scaling Out". Σημαίνει την προσθήκη περισσότερων μηχανών στις υπάρχουσες ομάδες υπολογιστών, με αποτέλεσμα ο Hadoop να γίνει ανεκτικός σε σφάλματα. Δεν υπάρχει κανένα σημείο αποτυχίας. Λόγω της παρουσίας περισσότερων μηχανών στο σύμπλεγμα, μπορείτε εύκολα να ανακτήσετε δεδομένα ανεξάρτητα από την αποτυχία ενός από τα μηχανήματα.

Επεξεργασία δεδομένων-

Το Apache Hadoop υποστηρίζει το OLAP (Online Analytical Processing), το οποίο χρησιμοποιείται στις τεχνικές Data Mining.

Το OLAP περιλαμβάνει πολύ σύνθετα ερωτήματα και συγκεντρώσεις. Η ταχύτητα επεξεργασίας δεδομένων εξαρτάται από την ποσότητα των δεδομένων που μπορεί να διαρκέσει αρκετές ώρες. Ο σχεδιασμός της βάσης δεδομένων έχει απορυθμιστεί έχοντας λιγότερους πίνακες. OLAP χρησιμοποιεί σχήματα αστέρων.

Από την άλλη πλευρά, το RDBMS υποστηρίζει το OLTP (Online Transaction Processing), το οποίο περιλαμβάνει συγκριτικά γρήγορη επεξεργασία ερωτημάτων. Ο σχεδιασμός της βάσης δεδομένων είναι ιδιαίτερα ομαλοποιημένος και έχει μεγάλο αριθμό πινάκων. Το OLTP γενικά χρησιμοποιεί σχήμα 3NF (μοντέλο οντολογίας).

Κόστος-

Το Hadoop είναι ένα ελεύθερο και ανοιχτό λογισμικό πλαίσιο, δεν χρειάζεται να πληρώνετε για να αγοράσετε την άδεια χρήσης του λογισμικού.

Ενώ το RDBMS είναι λογισμικό με άδεια χρήσης, πρέπει να πληρώσετε για να αγοράσετε την πλήρη άδεια χρήσης του λογισμικού.

Σας παρέχουμε όλες τις πιθανές διαφορές μεταξύ του Big Data Hadoop και του παραδοσιακού RDBMS. Ελπίζω να απολαύσατε την ανάγνωση του ιστολογίου.


Απάντηση 3:

Υπάρχει μεγάλη διαφορά μεταξύ της Oracle και της Hadoop.

Το Hadoop είναι ένα πλαίσιο προγραμματισμού ανοικτού κώδικα, βασισμένο σε Java, το οποίο υποστηρίζει την επεξεργασία και αποθήκευση εξαιρετικά μεγάλων συνόλων δεδομένων σε κατανεμημένο υπολογιστικό περιβάλλον. Μεγάλα δεδομένα δεν θέτουν τίποτα παρά ένα BIG-DATA. Έχει τεράστιο οικοσύστημα για να συνεργαστεί με το BIG_DATA. Ο Hadoop έχει δύο βασικά συστατικά για την αποθήκευση (HDFS) και τον υπολογισμό των τεράστιων δεδομένων (Map reduce model computation). Οι εντολές κυψέλης ή HDFS μπορούν να χρησιμοποιηθούν για να παίξουν με το DATA στο Hadoop.

Το Oracle είναι ένα σύστημα σχεσιακής βάσης δεδομένων (RDMS). Είναι μια πιο δημοφιλής βάση δεδομένων που χρησιμοποιείται για αποθήκευση δεδομένων, OLTP είδος φόρτου εργασίας βάσης δεδομένων. Δεν παρέχει την έννοια του κατανεμημένου υπολογισμού και υποστηρίζει μόνο ΔΟΜΗΜΕΝΑ δεδομένα στη φόρμα σχημάτων. Το σύστημα είναι χτισμένο γύρω από ένα πλαίσιο σχεσιακής βάσης δεδομένων στο οποίο τα αντικείμενα δεδομένων μπορούν να έχουν άμεση πρόσβαση από τους χρήστες (ή από ένα front end εφαρμογής) μέσω δομημένης γλώσσας ερωτήματος (SQL).