Πώς να ξύσετε ιστοσελίδες με Python

Μερικές φορές μπορεί να θέλετε να εξαγάγετε δεδομένα από έναν ιστότοπο σε διαφορετική μορφή. Τι γίνεται όμως αν ο ιστότοπος δεν έχει εύκολο τρόπο να εξαγάγει αυτά τα δεδομένα; Εδώ μπαίνει το web scraping.

Έχουμε κυκλοφορήσει ένα μάθημα συντριβής στο κανάλι YouTube του freeCodeCamp.org που θα σας διδάξει πώς να εκτελείτε ξύσιμο χρησιμοποιώντας τη βιβλιοθήκη Python Beautiful Soup.

Αυτό το μάθημα αναπτύχθηκε από τον Jim Ergin από το JimShapedCoding. Ο Τζιμ χρησιμοποιεί και διδάσκει Python για πολλά χρόνια.

Το Beautiful Soup θα σας επιτρέψει να συλλέξετε όσες πληροφορίες θέλετε από οποιονδήποτε ιστότοπο θέλετε. Θα μπορούσε να είναι ένας ιστότοπος τράπεζας, κοινωνικά μέσα, Wikipedia ή οποιοσδήποτε άλλος ιστότοπος.

Το Beautiful Soup παρέχει μεθόδους πλοήγησης, αναζήτησης και τροποποίησης ενός δέντρου ανάλυσης. Διευκολύνει την ανατομή ενός εγγράφου HTML και την εξαγωγή των δεδομένων που χρειάζεστε. Και δεν χρειάζεται πολύς κώδικας για τη σύνταξη μιας εφαρμογής.

Σε αυτό το μάθημα, θα μάθετε πρώτα πώς να ξύσετε μια βασική σελίδα HTML απλώς για να μάθετε τις έννοιες. Στη συνέχεια, θα προχωρήσετε στη δημιουργία ενός πραγματικού ιστότοπου. Στο τέλος, θα μάθετε πώς να αποθηκεύετε τις πληροφορίες που αποκομίζετε από τον ιστότοπο.

Εδώ είναι τα θέματα που καλύπτονται σε αυτό το μάθημα:

  • Βασική δομή HTML, Επεξήγηση ετικετών HTML
  • Εγκατάσταση πακέτων
  • Ξύσιμο τοπικών αρχείων
  • Beautiful Soup find & find_all () μέθοδοι
  • Εργαλείο επιθεώρησης προγράμματος περιήγησης ιστού
  • Αρπαγή τιμών σε ένα βασικό έργο απόξεσης ιστού
  • Χρησιμοποιώντας τη βιβλιοθήκη αιτημάτων για να δείτε το HTML ενός ιστότοπου  
  • Ξύσιμο ιστότοπου παραγωγής
  • Επανάληψη παρόμοιων αντικειμένων soup.find_all ()
  • Φιλτράρισμα αποσπασμένων εργασιών
  • Δημιουργία ενός έργου για απόξεση κάθε 10 λεπτά
  • Αποθήκευση της παραγράφου εργασιών σε αρχεία κειμένου

Παρακολουθήστε το πλήρες πρόγραμμα συντριβής στο κανάλι YouTube του FreeCodeCamp.org (ρολόι 1 ώρας).