Μπορεί κανείς να γίνει ένας επιτυχημένος αρχιτέκτονας Big Data χωρίς να μάθει την Επιστήμη των Δεδομένων; Ποια είναι η διαφορά μεταξύ του αρχιτέκτονα Big Data και του επιστήμονα δεδομένων;


Απάντηση 1:

Σας ευχαριστούμε για τα πολλά A2A! :)

Αυτό είναι τα χέρια μου προσωπική εμπειρία σχετικά με αυτό το θέμα.

Στο Miniclip έχουμε μια ομάδα επιστημών δεδομένων και μια ομάδα μηχανικών δεδομένων. Η ομάδα μηχανικών δεδομένων χειρίζεται όλα τα μεγάλα δεδομένα. Με την εργασία, η ομάδα της επιστήμης των δεδομένων θα μπορούσε να το κάνει, αλλά θα το κάνουμε χειρότερο και πιο αργό ... δεν το θέλουμε αυτό! :)

Η ομάδα μηχανικών δεδομένων δεν χρειάζεται πραγματικά να μπει στην γνώση του τομέα, όπως ο τρόπος με τον οποίο πηγαίνει η ομάδα των επιστημόνων δεδομένων. Ωστόσο, γνωρίζουν αρκετή μηχανική μάθηση και σε μεγαλύτερα αυτοματοποιημένα έργα δεδομένων συνεργάζουμε.

Έτσι, κατά τη γνώμη μου, μπορείτε να γίνετε ένας επιτυχημένος μεγάλος αρχιτέκτονας / μηχανικός δεδομένων χωρίς την επιστήμη των δεδομένων, που σημαίνει, χωρίς τον τομέα / αλγοριθμική γνώση ότι οι επιχειρήσεις εξαρτώνται από τους επιστήμονες δεδομένων. Ωστόσο, θα είστε πολύ καλύτερος μηχανικός δεδομένων αν έχετε τα χέρια σας σε αυτό.


Απάντηση 2:

Συμφωνώ με τον Marcin. Οι επιστήμονες δεδομένων μπορούν να αξιοποιήσουν τη μεγάλη υποδομή δεδομένων από έναν αρχιτέκτονα μεγάλων δεδομένων. IMO, μερικές από τις βασικές εκτιμήσεις που πρέπει να γνωρίζει ένας μεγάλος αρχιτέκτονας δεδομένων είναι οι ακόλουθες, των οποίων η ανάλυση δεδομένων / επιστήμη αποτελεί μέρος (σημείο 3 παρακάτω):

1) Κατάποση δεδομένων - παρτίδα & ροή

2) Αποθήκευση δεδομένων - Κατανεμημένη αποθήκευση, NoSQL

3) Επεξεργασία & Analytics ** - Επεξεργασία παρτίδας, επεξεργασία ροής, ανάλυση. Εδώ, ο αρχιτέκτονας των μεγάλων δεδομένων πρέπει τουλάχιστον να γνωρίζει τα διαθέσιμα εργαλεία / API ανάλυσης για να μπορεί να τα συστήσει και να τα συμπεριλάβει στην υποδομή μεγάλων δεδομένων (βασισμένη επίσης στην περίπτωση επιχειρηματικής χρήσης και στις προτιμήσεις των επιστημόνων δεδομένων). Λίγοι από τους παράγοντες που πρέπει να εξεταστούν σε ένα εργαλείο για την ενεργοποίηση ενός επιστήμονα δεδομένων θα μπορούσαν να είναι - τύποι διαθέσιμων αλγορίθμων, εγγενής υποστήριξη γλώσσας, συνδεσιμότητα με μεγάλο περιβάλλον δεδομένων, δυνατότητες ανάλυσης δεδομένων, δημιουργία προφίλ δεδομένων κ.λπ.

4) Κατανάλωση - κατανάλωση παρτίδας ή ρεύματος

5) Απαιτήσεις υλικού για διάφορα στοιχεία του μεγάλου κατανεμημένου περιβάλλοντος δεδομένων

6) Επιχειρησιακές ανάγκες του μεγάλου περιβάλλοντος δεδομένων


Απάντηση 3:

Συμφωνώ με τον Marcin. Οι επιστήμονες δεδομένων μπορούν να αξιοποιήσουν τη μεγάλη υποδομή δεδομένων από έναν αρχιτέκτονα μεγάλων δεδομένων. IMO, μερικές από τις βασικές εκτιμήσεις που πρέπει να γνωρίζει ένας μεγάλος αρχιτέκτονας δεδομένων είναι οι ακόλουθες, των οποίων η ανάλυση δεδομένων / επιστήμη αποτελεί μέρος (σημείο 3 παρακάτω):

1) Κατάποση δεδομένων - παρτίδα & ροή

2) Αποθήκευση δεδομένων - Κατανεμημένη αποθήκευση, NoSQL

3) Επεξεργασία & Analytics ** - Επεξεργασία παρτίδας, επεξεργασία ροής, ανάλυση. Εδώ, ο αρχιτέκτονας των μεγάλων δεδομένων πρέπει τουλάχιστον να γνωρίζει τα διαθέσιμα εργαλεία / API ανάλυσης για να μπορεί να τα συστήσει και να τα συμπεριλάβει στην υποδομή μεγάλων δεδομένων (βασισμένη επίσης στην περίπτωση επιχειρηματικής χρήσης και στις προτιμήσεις των επιστημόνων δεδομένων). Λίγοι από τους παράγοντες που πρέπει να εξεταστούν σε ένα εργαλείο για την ενεργοποίηση ενός επιστήμονα δεδομένων θα μπορούσαν να είναι - τύποι διαθέσιμων αλγορίθμων, εγγενής υποστήριξη γλώσσας, συνδεσιμότητα με μεγάλο περιβάλλον δεδομένων, δυνατότητες ανάλυσης δεδομένων, δημιουργία προφίλ δεδομένων κ.λπ.

4) Κατανάλωση - κατανάλωση παρτίδας ή ρεύματος

5) Απαιτήσεις υλικού για διάφορα στοιχεία του μεγάλου κατανεμημένου περιβάλλοντος δεδομένων

6) Επιχειρησιακές ανάγκες του μεγάλου περιβάλλοντος δεδομένων