Πώς να δημιουργήσετε έναν επεκτάσιμο σωλήνα ανάλυσης δεδομένων

Κάθε εφαρμογή δημιουργεί δεδομένα, αλλά τι σημαίνουν αυτά τα δεδομένα; Αυτή είναι μια ερώτηση που προσλαμβάνουν όλοι οι επιστήμονες δεδομένων για να απαντήσουν.

Δεν υπάρχει αμφιβολία ότι αυτές οι πληροφορίες είναι το πιο πολύτιμο αγαθό για μια επιχείρηση. Αλλά η κατανόηση των δεδομένων, η δημιουργία πληροφοριών και η μετατροπή τους σε αποφάσεις, είναι ακόμη πιο σημαντική.

Καθώς τα δεδομένα συνεχίζουν να αυξάνονται σε όγκο, οι αγωγοί ανάλυσης δεδομένων πρέπει να είναι κλιμακωτές για να προσαρμόσουν το ρυθμό αλλαγής. Και για αυτόν τον λόγο, η επιλογή ρύθμισης του αγωγού στο cloud έχει νόημα (αφού το cloud προσφέρει δυνατότητα κλιμάκωσης και ευελιξία κατά παραγγελία).

Σε αυτό το άρθρο θα απομυθοποιήσω πώς να δημιουργήσω έναν επεκτάσιμο και προσαρμόσιμο αγωγό επεξεργασίας δεδομένων στο Google Cloud. Και μην ανησυχείτε - αυτές οι έννοιες ισχύουν σε οποιοδήποτε άλλο σύννεφο ή σε αγωγό δεδομένων εγκατάστασης.

5 βήματα για τη δημιουργία ενός αγωγού ανάλυσης δεδομένων:

  • Πρώτα λαμβάνετε τα δεδομένα από την πηγή δεδομένων
  • Στη συνέχεια, επεξεργαστείτε και εμπλουτίστε τα δεδομένα, ώστε το μεταγενέστερο σύστημά σας να τα χρησιμοποιήσει με τη μορφή που κατανοεί καλύτερα.
  • Στη συνέχεια, αποθηκεύετε τα δεδομένα σε μια λίμνη δεδομένων ή αποθήκη δεδομένων είτε για μακροπρόθεσμο αρχείο είτε για αναφορές και ανάλυση.
  • Στη συνέχεια, μπορείτε να αναλύσετε τα δεδομένα τροφοδοτώντας τα σε εργαλεία ανάλυσης.
  • Εφαρμόστε μηχανική εκμάθηση για προβλέψεις ή δημιουργήστε αναφορές για κοινή χρήση με τις ομάδες σας.

Ας ακολουθήσουμε κάθε ένα από αυτά τα βήματα με περισσότερες λεπτομέρειες.

Πώς να καταγράψετε τα δεδομένα

Ανάλογα με το πού προέρχονται τα δεδομένα σας, μπορείτε να έχετε πολλές επιλογές για να τα απορροφήσετε.

  • Χρησιμοποιήστε εργαλεία μετεγκατάστασης δεδομένων για μετεγκατάσταση δεδομένων από εσωτερικές εγκαταστάσεις ή από ένα σύννεφο σε άλλο. Το Google Cloud προσφέρει μια υπηρεσία μεταφοράς αποθηκευτικού χώρου για το σκοπό αυτό.
  • Για να απορροφήσετε δεδομένα από τις υπηρεσίες saas τρίτων, χρησιμοποιήστε API και στείλτε τα δεδομένα στην αποθήκη δεδομένων. Στο Google Cloud BigQuery, η αποθήκη δεδομένων χωρίς διακομιστή παρέχει μια υπηρεσία μεταφοράς δεδομένων που σας επιτρέπει να εισάγετε δεδομένα από εφαρμογές saas όπως το YouTube, το Google Ads, το Amazon S3, το Teradata, το ResShift και άλλα.
  • Θα μπορούσατε επίσης να κάνετε ροή δεδομένων σε πραγματικό χρόνο από τις εφαρμογές σας με την υπηρεσία Pub / Sub. Μπορείτε να διαμορφώσετε μια πηγή δεδομένων για να προωθήσετε τα μηνύματα συμβάντων στο Pub / Sub από όπου ο συνδρομητής παίρνει το μήνυμα και λαμβάνει τα κατάλληλα μέτρα σε αυτό.
  • Εάν έχετε συσκευές IoT, μπορούν να μεταδώσουν δεδομένα σε πραγματικό χρόνο μέσω του πυρήνα Cloud IoT που υποστηρίζει το πρωτόκολλο MQTT για τις συσκευές IoT. Θα μπορούσατε επίσης να στείλετε δεδομένα IoT στο Pub / Sub.

Τρόπος επεξεργασίας των δεδομένων

Μόλις απορροφηθούν τα δεδομένα, πρέπει να υποβληθούν σε επεξεργασία ή να εμπλουτιστούν προκειμένου να τα καταστήσουν χρήσιμα για τα μεταγενέστερα συστήματα.

Υπάρχουν τρία κύρια εργαλεία που σας βοηθούν να το κάνετε αυτό στο Google Cloud:

  • Το Dataproc διαχειρίζεται ουσιαστικά το Hadoop. Εάν χρησιμοποιείτε το οικοσύστημα Hadoop, τότε γνωρίζετε ότι μπορεί να είναι περίπλοκο να το ρυθμίσετε, που περιλαμβάνει ώρες και ακόμη και ημέρες. Το Dataproc μπορεί να περιστρέψει ένα σύμπλεγμα σε 90 δευτερόλεπτα, ώστε να μπορείτε να αρχίσετε να αναλύετε τα δεδομένα γρήγορα.
  • Το Dataprep είναι ένα έξυπνο εργαλείο γραφικών διεπαφών χρήστη που βοηθά τους αναλυτές δεδομένων να επεξεργάζονται δεδομένα γρήγορα χωρίς να χρειάζεται να γράφουν κώδικα.  
  • Το Dataflow είναι μια υπηρεσία επεξεργασίας δεδομένων χωρίς διακομιστή για ροή και δέσμη δεδομένων. Βασίζεται στο SDK Apache Beam open source που κάνει τους αγωγούς σας φορητούς. Η υπηρεσία διαχωρίζει τον αποθηκευτικό χώρο από τον υπολογιστή, γεγονός που του επιτρέπει την απρόσκοπτη κλιμάκωση. Για περισσότερες λεπτομέρειες, ανατρέξτε στο GCPSketchnote παρακάτω.

Πώς να αποθηκεύσετε τα δεδομένα

Μόλις υποβληθεί σε επεξεργασία, πρέπει να αποθηκεύσετε τα δεδομένα σε μια λίμνη δεδομένων ή αποθήκη δεδομένων είτε για μακροπρόθεσμο αρχείο είτε για αναφορές και ανάλυση.

Υπάρχουν δύο κύρια εργαλεία που σας βοηθούν να το κάνετε αυτό στο Google Cloud:

Το Google Cloud Storage είναι ένα κατάστημα αντικειμένων για εικόνες, βίντεο, αρχεία και ούτω καθεξής που διατίθεται σε 4 τύπους:

  1. Τυπική αποθήκευση: Καλό για "καυτά" δεδομένα που έχουν συχνά πρόσβαση, συμπεριλαμβανομένων ιστότοπων, βίντεο ροής και εφαρμογών για κινητά.
  2. Κοντινός αποθηκευτικός χώρος: Χαμηλό κόστος. Καλό για δεδομένα που μπορούν να αποθηκευτούν για τουλάχιστον 30 ημέρες, συμπεριλαμβανομένης της δημιουργίας αντιγράφων ασφαλείας δεδομένων και περιεχομένου πολυμέσων μεγάλης ουράς
  3. Coldline Storage: Πολύ χαμηλό κόστος. Καλό για δεδομένα που μπορούν να αποθηκευτούν για τουλάχιστον 90 ημέρες, συμπεριλαμβανομένης της ανάκτησης καταστροφών.
  4. Αρχείο αποθήκευσης: Χαμηλότερο κόστος. Καλό για δεδομένα που μπορούν να αποθηκευτούν για τουλάχιστον 365 ημέρες, συμπεριλαμβανομένων ρυθμιστικών αρχείων.

Το BigQuery είναι μια αποθήκη δεδομένων χωρίς διακομιστή που κλιμακώνεται απρόσκοπτα σε petabytes δεδομένων χωρίς να χρειάζεται να διαχειρίζεται ή να διατηρεί διακομιστή.

Μπορείτε να αποθηκεύσετε και να ζητήσετε δεδομένα στο BigQuery χρησιμοποιώντας SQL. Στη συνέχεια, μπορείτε εύκολα να μοιραστείτε τα δεδομένα και τα ερωτήματα με άλλους στην ομάδα σας.

Περιλαμβάνει επίσης 100 δωρεάν δημόσια σύνολα δεδομένων που μπορείτε να χρησιμοποιήσετε στην ανάλυσή σας. Και παρέχει ενσωματωμένους συνδέσμους σε άλλες υπηρεσίες, ώστε τα δεδομένα να μπορούν να απορροφηθούν εύκολα και να εξαχθούν από αυτά για οπτικοποίηση ή περαιτέρω επεξεργασία / ανάλυση.

Πώς να αναλύσετε τα δεδομένα

Μόλις τα δεδομένα υποβληθούν σε επεξεργασία και αποθηκευτούν σε μια λίμνη δεδομένων ή σε μια αποθήκη δεδομένων, είναι έτοιμα για ανάλυση.  

Εάν χρησιμοποιείτε το BigQuery για να αποθηκεύσετε τα δεδομένα, τότε μπορείτε να αναλύσετε απευθείας αυτά τα δεδομένα στο BigQuery χρησιμοποιώντας SQL.

Εάν χρησιμοποιείτε το Google Cloud Storage, τότε μπορείτε εύκολα να μεταφέρετε τα δεδομένα στο BigQuery.

Το BigQuery προσφέρει επίσης δυνατότητες μηχανικής εκμάθησης με το BigQueryML. Έτσι μπορείτε να δημιουργήσετε μοντέλα και να προβλέψετε απευθείας από το περιβάλλον εργασίας χρήστη BigQuery χρησιμοποιώντας το ίσως πιο οικείο SQL.

Τρόπος χρήσης και οπτικοποίησης των δεδομένων

Χρήση των δεδομένων

Μόλις τα δεδομένα βρίσκονται στην αποθήκη δεδομένων, μπορείτε να τα χρησιμοποιήσετε για να λάβετε πληροφορίες και να κάνετε προβλέψεις χρησιμοποιώντας μηχανική εκμάθηση.

Για περαιτέρω επεξεργασία και προβλέψεις μπορείτε να χρησιμοποιήσετε το πλαίσιο Tensorflow και την πλατφόρμα AI ανάλογα με τις ανάγκες σας.

Το Tensorflow είναι μια πλατφόρμα μηχανογραφικής μάθησης ανοικτού τύπου σε άκρο με εργαλεία, βιβλιοθήκες και πόρους κοινότητας.

Η πλατφόρμα AI διευκολύνει τους προγραμματιστές, τους επιστήμονες δεδομένων και τους μηχανικούς δεδομένων να εξορθολογίσουν τις ροές εργασίας ML. Περιλαμβάνει εργαλεία για κάθε στάδιο του κύκλου ζωής ML ξεκινώντας από Προετοιμασία -> Κατασκευή -> Επικύρωση -> Ανάπτυξη.

Οπτικοποίηση των δεδομένων

Υπάρχουν πολλά διαφορετικά εργαλεία για την οπτικοποίηση δεδομένων και τα περισσότερα από αυτά έχουν μια σύνδεση στο BigQuery για να δημιουργούν εύκολα γραφήματα στο εργαλείο της επιλογής σας.

Το Google Cloud παρέχει μερικά εργαλεία που μπορεί να σας φανούν χρήσιμα.

  • Το Data Studio είναι δωρεάν και συνδέεται όχι μόνο με το BigQuery αλλά και με πολλές άλλες υπηρεσίες για εύκολη οπτικοποίηση δεδομένων. Εάν έχετε χρησιμοποιήσει το Google Drive, η κοινή χρήση γραφημάτων και ταμπλό είναι ακριβώς έτσι - εξαιρετικά εύκολη.
  • Επιπλέον, το Looker είναι μια εταιρική πλατφόρμα επιχειρηματικής ευφυΐας, εφαρμογών δεδομένων και ενσωματωμένων αναλυτικών στοιχείων.

συμπέρασμα

Υπάρχουν πολλά που συνεχίζονται σε έναν αγωγό ανάλυσης δεδομένων. Όποια εργαλεία και αν επιλέξετε να χρησιμοποιήσετε, βεβαιωθείτε ότι μπορούν να κλιμακωθούν καθώς τα δεδομένα σας αυξάνονται στο μέλλον.

Για περισσότερο τέτοιο περιεχόμενο, μπορείτε να με ακολουθήσετε στο Twitter, @pvergadia και να επισκεφτείτε τον ιστότοπό μου, το thecloudgirl.dev.