Θα ανατέλει αύριο ο ήλιος;

Laplace, Bayes και μηχανική μάθηση σήμερα

Μπορεί να μην είναι μια ερώτηση που ανησυχούσατε πολύ. Σε τελική ανάλυση, φαίνεται να συμβαίνει καθημερινά χωρίς αποτυχία.

Αλλά ποια είναι η πιθανότητα να ανατέλει αύριο ο ήλιος;

Είτε το πιστεύετε είτε όχι, αυτή η ερώτηση εξετάστηκε από έναν από τους μεγάλους των μαθηματικών, Pierre-Simon Laplace, στο πρωτοποριακό του έργο του 1814, " Essai φιλοσοφία sur les probabilités".

Βασικά, η αντιμετώπιση του ζητήματος από τον Laplace αποσκοπούσε στην απεικόνιση μιας γενικότερης έννοιας. Δεν ήταν μια σοβαρή προσπάθεια να εκτιμηθεί αν ο ήλιος, στην πραγματικότητα, θα ανατέλλει.

Στο δοκίμιο του, ο Laplace περιγράφει ένα πλαίσιο πιθανότητας συλλογισμού που σήμερα αναγνωρίζουμε ως Bayesian.

Η προσέγγιση Bayesian αποτελεί τον ακρογωνιαίο λίθο σε πολλούς σύγχρονους αλγόριθμους μηχανικής μάθησης. Όμως, η υπολογιστική ισχύς που απαιτείται για τη χρήση αυτών των μεθόδων ήταν διαθέσιμη μόνο από το τελευταίο μισό του 20ού αιώνα.

(Μέχρι στιγμής, φαίνεται ότι η σύγχρονη τεχνητή νοημοσύνη παραμένει σιωπηλή για το ζήτημα της αυριανής ανατολής.)

Οι ιδέες του Laplace εξακολουθούν να είναι συναφείς σήμερα, παρόλο που έχουν αναπτυχθεί πριν από περισσότερους από δύο αιώνες. Αυτό το άρθρο θα επανεξετάσει μερικές από αυτές τις ιδέες και θα δείξει πώς χρησιμοποιούνται σε σύγχρονες εφαρμογές, που ίσως οραματίζονται οι σύγχρονοι του Laplace.

Πιέρ-Σίμον Λαπέλας

Γεννημένος στη μικρή κοινότητα της Νορμανδίας Beaumont-en-Auge το 1749, ο Pierre-Simon Laplace αρχικά χαρακτηρίστηκε ως θεολόγος.

Ωστόσο, ενώ σπούδαζε στο Πανεπιστήμιο του Καέν, ανακάλυψε μια λαμπρή ικανότητα για τα μαθηματικά. Μεταφέρθηκε στο Παρίσι, όπου εντυπωσίασε τον μεγάλο μαθηματικό και φυσικό Jean le Rond d'Alembert.

Σε ηλικία 24 ετών, ο Laplace εξελέγη στο διάσημο Académie des Sciences.

Ο Laplace ήταν ένας εκπληκτικά παραγωγικός επιστήμονας και μαθηματικός. Ανάμεσα στις πολλές συνεισφορές του, ξεχωρίζει το έργο του σχετικά με την πιθανότητα, την πλανητική κίνηση και τη μαθηματική φυσική. Μετρήθηκε φιγούρες όπως ο Antoine Lavoisier, ο Jean d'Alembert, ο Siméon Poisson, ακόμη και ο Napoleon Bonaparte, ως συνεργάτες, σύμβουλοι και μαθητές του.

Η «Essai φιλοσοφία sur les probabilités» του Laplaceβασίστηκε σε μια διάλεξη που έδωσε το 1795. Παρείχε μια γενική επισκόπηση των ιδεών που περιέχονται στο έργο του «Théorie analytique des probabilités», που δημοσιεύτηκε δύο χρόνια νωρίτερα το 1812.

Στην «φιλοσοφία Essai», το Laplace παρέχει δέκα αρχές πιθανότητας. Οι πρώτοι μερικοί καλύπτουν βασικούς ορισμούς και πώς να υπολογίζουν τις πιθανότητες που σχετίζονται με ανεξάρτητα και εξαρτώμενα συμβάντα.

Οι αρχές οκτώ, εννέα και δέκα αφορούν την εφαρμογή πιθανότητας σε αυτό που θα μπορούσαμε να περιγράψουμε σήμερα ως ανάλυση κόστους-οφέλους.

Το έκτο είναι μια σημαντική γενίκευση του ομώνυμου θεωρήματος του Thomas Bayes του 1763.

Δηλώνει ότι, για ένα δεδομένο συμβάν, η πιθανότητα κάθε πιθανής αιτίας βρίσκεται πολλαπλασιάζοντας την προηγούμενη πιθανότητα αυτής της αιτίας με ένα κλάσμα.

Αυτό το κλάσμα είναι η πιθανότητα του συμβάντος που προκύπτει από τη συγκεκριμένη αιτία, διαιρούμενη με την πιθανότητα του συμβάντος να συμβαίνει από οποιαδήποτε αιτία.

Η επιρροή αυτού του θεωρήματος στη μηχανική μάθηση δεν μπορεί να υπερεκτιμηθεί.

Η έβδομη αρχή είναι αυτή που προκάλεσε τη μεγαλύτερη διαμάχη από τη δημοσίευσή της. Ωστόσο, η πραγματική διατύπωση είναι αρκετά αβλαβής.

Αντίθετα, είναι η επιλογή του Laplace να συζητάμε για την πιθανότητα του ήλιου να ανατέλλει την επόμενη μέρα με ένα ενδεικτικό παράδειγμα που με τη σειρά του προκάλεσε χλευασμό και αντίρρηση κατά τους επόμενους δύο αιώνες.

Ο κανόνας της κληρονομιάς εξακολουθεί να χρησιμοποιείται σήμερα με διάφορες μορφές, και μερικές φορές με τη μορφή που περιγράφηκε αρχικά ο Laplace.

Στην πραγματικότητα, ο κανόνας της διαδοχής αντιπροσωπεύει ένα σημαντικό πρώιμο βήμα στην εφαρμογή της Bayesian σκέψης σε συστήματα για τα οποία έχουμε πολύ περιορισμένα δεδομένα και λίγη ή καθόλου προηγούμενη γνώση. Αυτό είναι ένα σημείο εκκίνησης που αντιμετωπίζεται συχνά στα σύγχρονα προβλήματα μηχανικής μάθησης.

Κανόνας διαδοχής του Laplace

Η έβδομη αρχή της πιθανότητας που δίνεται στην «φιλοσοφία Essai» του Laplaceείναι, στην ουσία, απλή.

Δηλώνει ότι η πιθανότητα ενός συγκεκριμένου συμβάντος εντοπίζεται αθροίζοντας την πιθανότητα κάθε μιας από τις πιθανές αιτίες του πολλαπλασιαζόμενη με την πιθανότητα αυτής της αιτίας να προκαλέσει το εν λόγω συμβάν.

Το Laplace προχωρά στη συνέχεια για να περιγράψει ένα παράδειγμα βασισμένο στο σχέδιο μπάλες από δοχεία. Μέχρι εδώ καλά. Τίποτα αμφιλεγόμενο ακόμα.

Ωστόσο, στη συνέχεια περιγράφει πώς να προχωρήσουμε στην εκτίμηση της πιθανότητας ενός συμβάντος που συμβαίνει σε καταστάσεις όπου έχουμε περιορισμένη (ή πράγματι όχι) προηγούμενη γνώση σχετικά με την πιθανότητα αυτής της πιθανότητας.

«Στο trouve ainsi qu'un événement étant پہنچے de suite un nombre quelconque de fois, la probabilité qu'il arrivera encore la fois suivante est égale à ce nombre augmenté de l'unité, divisé par le méme nombre augmenté de deux unit

Που μεταφράζεται στα Αγγλικά: "Έτσι, κάποιος βρίσκει για ένα συμβάν που έχει συμβεί πολλές φορές μέχρι τώρα, η πιθανότητα να συμβεί ξανά την επόμενη φορά είναι ίση με αυτόν τον αριθμό που αυξάνεται κατά ένα, διαιρούμενο με τον ίδιο αριθμό που αυξάνεται κατά δύο" .

Ή, στη μαθηματική σημειογραφία:

Δηλαδή, δεδομένης της επιτυχίας από τις δοκιμές n , η πιθανότητα επιτυχίας στην επόμενη δοκιμή είναι περίπου (s + 1) / (n + 2).

Για να τονίσει, ο Laplace δεν κρατά πίσω

Παράδειγμα, remonter la plus ancienne époque de l'histoire à cinq mille ans, ou 1.826.213 jours, κ.λπ. qu'il se lèvera encore demain "

Το οποίο μεταφράζεται ως: «… για παράδειγμα, δεδομένου ότι ο ήλιος ανατέλλει κάθε μέρα για τα τελευταία 5000 χρόνια - ή 1.826.213 ημέρες - η πιθανότητα να αυξηθεί αύριο είναι 1.826.214 / 1.826.215».

Στο 99,9%, αυτό είναι ένα πολύ σίγουρο στοίχημα. Και γίνεται όλο και πιο σίγουρο κάθε μέρα ο ήλιος συνεχίζει να ανατέλλει.

Ωστόσο, ο Laplace αναγνωρίζει ότι, για κάποιον που κατανοεί τον μηχανισμό με τον οποίο ο ήλιος ανατέλλει και δεν βλέπει κανένα λόγο για τον οποίο πρέπει να σταματήσει να λειτουργεί, ακόμη και αυτή η πιθανότητα είναι υπερβολικά χαμηλή.

Και αποδεικνύεται ότι αυτό το προσόν είναι ίσως εξίσου σημαντικό με τον ίδιο τον πραγματικό κανόνα. Σε τελική ανάλυση, υπαινίσσεται το γεγονός ότι η προηγούμενη γνώση μας για ένα σύστημα κωδικοποιείται στις παραδοχές που κάνουμε κατά την εκχώρηση πιθανοτήτων σε καθένα από τα πιθανά αποτελέσματά του.

Αυτό ισχύει στη μηχανική μάθηση σήμερα, ειδικά όταν προσπαθούμε να μάθουμε από περιορισμένα ή ελλιπή δεδομένα εκπαίδευσης.

Αλλά ποια είναι η λογική πίσω από τον κανόνα της διαδοχής του Laplace και πώς ζει σε μερικούς από τους πιο δημοφιλείς αλγορίθμους μηχανικής μάθησης;

Τίποτα δεν είναι αδύνατον?

Για να κατανοήσουμε καλύτερα τη σημασία του κανόνα του Laplace, πρέπει να εξετάσουμε τι σημαίνει να έχουμε πολύ λίγες προηγούμενες γνώσεις για ένα σύστημα.

Ας πούμε ότι έχετε ένα από τα δοχεία του Laplace, το οποίο γνωρίζετε ότι περιέχει τουλάχιστον μία κόκκινη μπάλα. Δεν ξέρετε τίποτα άλλο για το περιεχόμενο του «συστήματος» του δοχείου. Ίσως περιέχει πολλά διαφορετικά χρώματα, ίσως περιέχει μόνο μια κόκκινη μπάλα.

Τραβήξτε μια μπάλα από το δοχείο. Γνωρίζετε ότι η πιθανότητα να είναι κόκκινο είναι μεγαλύτερη από το μηδέν και είτε μικρότερη ή ίση με μία.

Όμως, καθώς δεν γνωρίζετε εάν το δοχείο περιέχει άλλα χρώματα, δεν μπορείτε να πείτε σίγουρα την πιθανότητα του κόκκινουισούται με ένα. Απλώς δεν μπορείτε να αποκλείσετε οποιαδήποτε άλλη δυνατότητα.

Λοιπόν, πώς εκτιμάτε την πιθανότητα να τραβήξετε μια κόκκινη μπάλα από το δοχείο;

Λοιπόν, σύμφωνα με τον κανόνα της διαδοχής του Laplace, μπορείτε να σχεδιάσετε μια μπάλα από το δοχείο ως δοκιμή Bernoulli με δύο πιθανά αποτελέσματα: «κόκκινο» και «όχι-κόκκινο».

Πριν βγάλουμε κάτι από το δοχείο, έχουμε ήδη επιτρέψει την ύπαρξη δύο πιθανών αποτελεσμάτων. Με αυτόν τον τρόπο, έχουμε ουσιαστικά «ψευδομετρηθεί» δύο φανταστικές κληρώσεις από το δοχείο, παρατηρώντας κάθε αποτέλεσμα μία φορά.

Αυτό δίνει σε κάθε αποτέλεσμα («κόκκινο» και «όχι-κόκκινο») πιθανότητα 1/2.

Καθώς ο αριθμός των κληρώσεων από το δοχείο αυξάνεται, η επίδραση αυτών των ψευδομετρήσεων γίνεται όλο και λιγότερο σημαντική. Εάν η πρώτη μπάλα που έχει τραβηχτεί είναι κόκκινη, ενημερώνετε την πιθανότητα η επόμενη να είναι κόκκινη σε (1 + 1) / (1 + 2) = 2/3.

Εάν η επόμενη μπάλα είναι κόκκινη, η πιθανότητα ενημερώνεται σε 3/4. Εάν συνεχίσετε να χρωματίζετε κόκκινο, η πιθανότητα φτάνει όλο και πιο κοντά στο 1.

Στη σημερινή γλώσσα, η πιθανότητα αφορά ένα δείγμα χώρου. Αυτό είναι ένα μαθηματικό σύνολο όλων των πιθανών αποτελεσμάτων για ένα δεδομένο «πείραμα» (μια διαδικασία που επιλέγει ένα από τα αποτελέσματα).

Η πιθανότητα τέθηκε σε επίσημη αξιωματική βάση από τον Andrey Kolmogorov τη δεκαετία του 1930. Τα αξιώματα του Kolmogorov διευκολύνουν την απόδειξη ότι ένας χώρος δειγμάτων πρέπει να περιέχει τουλάχιστον ένα στοιχείο.

Ο Kolmogorov ορίζει επίσης την πιθανότητα ως μέτρο που επιστρέφει έναν πραγματικό αποτιμημένο αριθμό μεταξύ μηδέν και ενός για όλα τα στοιχεία του χώρου του δείγματος.

Φυσικά, η πιθανότητα αποτελεί έναν χρήσιμο τρόπο μοντελοποίησης συστημάτων πραγματικού κόσμου, ειδικά όταν αναλαμβάνετε πλήρη γνώση σχετικά με τα περιεχόμενα του δείγματος χώρου.

Αλλά όταν δεν καταλαβαίνουμε το σύστημα στο χέρι, δεν γνωρίζουμε το χώρο του δείγματος - εκτός από αυτό πρέπει να περιέχει τουλάχιστον ένα στοιχείο. Αυτό είναι ένα κοινό σημείο εκκίνησης σε πολλά περιβάλλοντα μηχανικής μάθησης. Πρέπει να μάθουμε τα περιεχόμενα του δείγματος χώρου καθώς πηγαίνουμε.

Επομένως, θα πρέπει να επιτρέψουμε στο χώρο του δείγματος να περιέχει τουλάχιστον ένα επιπλέον στοιχείο catch-all - ή, αν θέλετε, το "άγνωστο άγνωστο". Ο κανόνας της κληρονομικής διαδοχής του Laplace μας λέει να αναθέσουμε στο «άγνωστο άγνωστο» μια πιθανότητα 1 / n + 2, μετά από επαναλαμβανόμενες παρατηρήσεις γνωστών γεγονότων.

Αν και σε πολλές περιπτώσεις είναι βολικό να αγνοήσουμε την πιθανότητα άγνωστων αγνώστων, υπάρχουν επιστημολογικοί λόγοι για να επιτρέπουμε πάντα τέτοιες πιθανότητες να υπάρχουν.

Ένα τέτοιο επιχείρημα είναι γνωστό ως Cromwell's Rule, που επινοήθηκε από τον αείμνηστο Dennis Lindley. Παραθέτοντας τον Oliver Cromwell του 17ου αιώνα:

«Σας παρακαλώ, στα έντερα του Χριστού, να πιστεύετε ότι είναι πιθανό να κάνετε λάθος»

Αυτή η μάλλον δραματική δήλωση μας ζητά να επιτρέψουμε μια απομακρυσμένη πιθανότητα να συμβεί το απροσδόκητο. Στη γλώσσα της πιθανότητας Bayesian, αυτό ισοδυναμεί με την απαίτησή μας να θεωρούμε πάντα μη μηδενική προηγούμενη.

Επειδή εάν η προηγούμενη πιθανότητά σας έχει οριστεί στο μηδέν, κανένα ποσό αποδεικτικών στοιχείων δεν θα σας πείσει διαφορετικά. Σε τελική ανάλυση, ακόμη και τα ισχυρότερα στοιχεία για το αντίθετο θα εξακολουθήσουν να δίνουν μια μεταγενέστερη πιθανότητα μηδέν, όταν πολλαπλασιάζεται με το μηδέν.

Αντιρρήσεις και υπεράσπιση του Laplace

Μπορεί να είναι λίγο έκπληξη να μάθουμε ότι το παράδειγμα ανατολής του Laplace προσέλκυσε μεγάλη κριτική από τους συγχρόνους του.

Οι άνθρωποι αντιτάχθηκαν στην αντιληπτή απλότητα - αφέλεια, ακόμη και - στις υποθέσεις του Laplace. Η ιδέα ότι υπήρχε 1 / 1.826.215 πιθανότητα ότι ο ήλιος δεν θα ανέβαινε την επόμενη μέρα φαινόταν παράλογη.

Είναι δελεαστικό να πιστεύουμε ότι, δεδομένου ενός μεγάλου αριθμού δοκιμών, πρέπει να συμβεί μη μηδενική πιθανότητα. Και επομένως, η παρατήρηση τόσων πολλών διαδοχικών ανατολών χωρίς καμία αποτυχία συνεπάγεται σίγουρα ότι η εκτίμηση του Laplace είναι υπερβολική;

Για παράδειγμα, μπορείτε να περιμένετε ότι μετά από ένα εκατομμύριο δοκιμές, θα έχετε παρατηρήσει ένα συμβάν με ένα εκατομμύριο - σχεδόν εγγυημένο εξ ορισμού! Ποια είναι η πιθανότητα να κάνετε κάτι διαφορετικό;

Λοιπόν, δεν θα εκπλαγείτε αν πετάξετε ένα δίκαιο νόμισμα δύο φορές χωρίς να προσγειωθείτε. Ούτε θα ήταν ανησυχητικό εάν ρίξατε μια μήτρα έξι φορές και δεν είδατε ποτέ τον αριθμό έξι. Αυτά είναι γεγονότα με πιθανότητα 1/2 και 1/6 αντίστοιχα, αλλά αυτό δεν εγγυάται την εμφάνισή τους στις δύο πρώτες και έξι δοκιμές.

Ένα αποτέλεσμα που αποδίδεται στον Bernoulli τον 17ο αιώνα βρίσκει το όριο ως πιθανότητα 1 / n και τον αριθμό των δοκιμών nμεγαλώνουν πολύ:

Αν και κατά μέσο όρο θα έχετε παρατηρήσει τουλάχιστον μία εμφάνιση ενός συμβάντος με πιθανότητα 1 / n μετά από n δοκιμές, υπάρχει ακόμη μεγαλύτερη πιθανότητα από το 1/3 που δεν θα το κάνετε.

Ομοίως, εάν η πραγματική πιθανότητα αποτυχίας του ήλιου να ανέβει ήταν πράγματι 1 / 1.826.215, τότε ίσως δεν θα πρέπει να εκπλαγούμε τόσο τέτοια γεγονότα που ποτέ δεν έχει καταγραφεί στην ιστορία.

Και, αναμφισβήτητα, η πιστοποίηση του Laplace είναι πολύ γενναιόδωρη.

Είναι αλήθεια ότι, για ένα άτομο που ισχυρίζεται ότι κατανοεί τον μηχανισμό με τον οποίο ο ήλιος ανατέλλει καθημερινά, η πιθανότητα να μην το κάνει πρέπει να είναι πολύ πιο κοντά στο μηδέν.

Ωστόσο, για να υποθέσουμε ότι κατανοούμε έναν τέτοιο μηχανισμό απαιτείται να έχουμε προηγούμενη γνώση του συστήματος, πέρα ​​από αυτό που έχουμε παρατηρήσει. Αυτό συμβαίνει επειδή ένας τέτοιος μηχανισμός θεωρείται σιωπηρά σταθερός - με άλλα λόγια, ισχύει για πάντα.

Αυτή η υπόθεση μας επιτρέπει, από μια άποψη, να «δημιουργήσουμε» έναν απεριόριστο αριθμό παρατηρήσεων - πάνω από αυτές που έχουμε παρατηρήσει. Είναι μια υπόθεση που ζητήθηκε από κανέναν άλλο από τον Isaac Newton, στην αρχή του τρίτου βιβλίου στο διάσημο «Philosophiae Naturalis Principia Mathematica».

Ο Νεύτωνας περιγράφει τέσσερις «Κανόνες Συλλογιστικής στη Φιλοσοφία». Ο τέταρτος κανόνας ισχυρίζεται ότι μπορούμε να θεωρήσουμε τις προτάσεις που προέρχονται από προηγούμενες παρατηρήσεις ως «σχεδόν αληθινές», έως ότου αντικρουστούν από μελλοντικές παρατηρήσεις.

Μια τέτοια υπόθεση ήταν ζωτικής σημασίας για την επιστημονική επανάσταση, παρά το γεγονός ότι ήταν ένα λάκτισμα στα δόντια για φιλόσοφους όπως ο David Hume, ο οποίος φημίζεται για το πρόβλημα της επαγωγής.

Αυτός ο επιστημολογικός συμβιβασμός μας επιτρέπει να κάνουμε χρήσιμες επιστήμες και, με τη σειρά μας, να εφεύρουμε τεχνολογία. Κάπου κατά μήκος της γραμμής, καθώς βλέπουμε ότι η εκτιμώμενη πιθανότητα αποτυχίας του ήλιου να ανέβει μειώνεται όλο και πιο κοντά στο μηδέν, επιτρέπουμε στους εαυτούς μας να «στρογγυλοποιήσουμε» και να διεκδικήσουμε μια πλήρη επιστημονική αλήθεια.

Όμως, όλα αυτά πιθανότατα βρίσκονται πέρα ​​από το πεδίο του σημείου που ο Laplace είχε αρχικά επιδιώξει να κάνει.

Πράγματι, η επιλογή του για παράδειγμα ανατολής είναι ατυχής. Ο κανόνας της κληρονομικής διαδοχής έρχεται πραγματικά σε εφαρμογή όταν εφαρμόζεται σε εντελώς άγνωστα συστήματα «black-box» για τα οποία έχουμε μηδενικές (ή πολύ λίγες) παρατηρήσεις.

Αυτό συμβαίνει επειδή ο κανόνας της διαδοχής προσφέρει ένα πρώιμο παράδειγμα μη ενημερωτικού προηγούμενου.

Πώς να υποθέσουμε όσο το δυνατόν λιγότερο

Η πιθανότητα Bayesian είναι μια βασική ιδέα στη σύγχρονη μηχανική μάθηση. Αλγόριθμοι όπως η ταξινόμηση Naive Bayes, η μεγιστοποίηση προσδοκίας, η διαφοροποίηση των συμπερασμάτων και το Markov Chain Monte Carlo είναι από τους πιο δημοφιλείς σήμερα.

Η πιθανότητα Bayesian αναφέρεται γενικά σε μια ερμηνεία πιθανότητας όπου ενημερώνετε την (συχνά υποκειμενική) πεποίθησή σας υπό το φως νέων στοιχείων.

Δύο βασικές έννοιες είναι προγενέστερες και μεταγενέστερες πιθανότητες.

Οι μεταγενέστερες πιθανότητες είναι αυτές που αποδίδουμε μετά την ενημέρωση των πεποιθήσεών μας απέναντι σε νέα στοιχεία.

Οι προηγούμενες πιθανότητες (ή «προηγούμενες») είναι αυτές που πιστεύουμε ότι είναι αληθινές πριν δούμε νέα στοιχεία.

Οι επιστήμονες δεδομένων ενδιαφέρονται για τον τρόπο με τον οποίο εκχωρούμε προηγούμενες πιθανότητες σε γεγονότα, ελλείψει προηγούμενης γνώσης. Αυτό είναι ένα τυπικό σημείο εκκίνησης για πολλά προβλήματα στη μηχανική εκμάθηση και την προγνωστική ανάλυση.

Οι προγενέστεροι μπορούν να είναι ενημερωτικοί, με την έννοια ότι έρχονται με «απόψεις» σχετικά με την πιθανότητα διαφορετικών γεγονότων. Αυτές οι «απόψεις» μπορεί να είναι ισχυρές ή αδύναμες και συνήθως βασίζονται σε προηγούμενες παρατηρήσεις ή σε άλλες λογικές υποθέσεις. Αυτά είναι πολύτιμα σε καταστάσεις όπου θέλουμε να εκπαιδεύσουμε το μοντέλο μηχανικής μάθησης γρήγορα.

Ωστόσο, τα προηγούμενα μπορεί επίσης να είναι μη ενημερωτικά. Αυτό σημαίνει ότι υποθέτουν όσο το δυνατόν λιγότερο σχετικά με τις αντίστοιχες πιθανότητες ενός συμβάντος. Αυτά είναι χρήσιμα σε καταστάσεις όπου θέλουμε το μοντέλο μηχανικής μάθησης να μάθει από μια κενή κατάσταση.

Πρέπει λοιπόν να ρωτήσουμε: πώς μετράτε πόσο «ενημερωτικό» είναι μια προηγούμενη κατανομή πιθανότητας;

Η θεωρία της πληροφορίας παρέχει μια απάντηση. Πρόκειται για έναν κλάδο μαθηματικών που αφορά τον τρόπο μέτρησης και επικοινωνίας των πληροφοριών.

Οι πληροφορίες μπορούν να θεωρηθούν ως προς τη βεβαιότητα ή την έλλειψη αυτών.

Εξάλλου, με μια καθημερινή έννοια, όσο περισσότερες πληροφορίες έχετε σχετικά με κάποιο συμβάν, τόσο πιο σίγουροι είστε για το αποτέλεσμα. Λιγότερες πληροφορίες ισοδυναμούν με λιγότερη βεβαιότητα. Αυτό σημαίνει ότι η θεωρία της πληροφορίας και η θεωρία πιθανότητας είναι άρρηκτα συνδεδεμένες.

Η εντροπία πληροφοριών είναι μια θεμελιώδης έννοια στη θεωρία της πληροφορίας. Χρησιμεύει ως μέτρο της αβεβαιότητας που ενυπάρχει σε μια δεδομένη κατανομή πιθανότητας. Μια κατανομή πιθανότητας με υψηλή εντροπία είναι αυτή για την οποία το αποτέλεσμα είναι πιο αβέβαιο.

Ίσως διαισθητικά, μπορείτε να πιστεύετε ότι μια ομοιόμορφη κατανομή πιθανότητας - μια κατανομή για την οποία κάθε συμβάν είναι εξίσου πιθανό - έχει την υψηλότερη δυνατή εντροπία. Για παράδειγμα, εάν αναποδογυρίσατε ένα δίκαιο νόμισμα και ένα μεροληπτικό νόμισμα, ποιο αποτέλεσμα θα ήταν λιγότερο σίγουρο;

Η εντροπία πληροφοριών παρέχει ένα επίσημο μέσο ποσοτικού προσδιορισμού αυτού, και αν γνωρίζετε κάποιο λογισμό, μπορείτε να δείτε την απόδειξη εδώ.

Επομένως, η ομοιόμορφη διανομή είναι, με μια πολύ πραγματική έννοια, η λιγότερο ενημερωτική διανομή. Και για αυτόν τον λόγο, κάνει μια προφανή επιλογή για ένα μη ενημερωτικό προηγούμενο.

Ίσως έχετε δει πώς ο κανόνας της διαδοχής του Laplace ισοδυναμεί με τη χρήση μιας στολής πριν; Προσθέτοντας μία επιτυχία και μία αποτυχία πριν καν παρατηρήσουμε κάποια αποτελέσματα, χρησιμοποιούμε μια ομοιόμορφη κατανομή πιθανότητας για να αντιπροσωπεύσουμε την «προηγούμενη» πίστη μας για το σύστημα.

Στη συνέχεια, καθώς παρατηρούμε όλο και περισσότερα αποτελέσματα, το βάρος των αποδεικτικών στοιχείων ξεπερνά όλο και περισσότερο το προηγούμενο.

Μελέτη περίπτωσης: Ταξινόμηση Naive Bayes

Σήμερα, ο κανόνας της διαδοχής του Laplace γενικεύεται στην εξομάλυνση των προσθέτων και στην ψευδομετρία.

Αυτές είναι τεχνικές που μας επιτρέπουν να χρησιμοποιούμε μηδενικές πιθανότητες για γεγονότα που δεν παρατηρούνται στα δεδομένα εκπαίδευσης. Αυτό είναι ένα ουσιαστικό μέρος του τρόπου με τον οποίο οι αλγόριθμοι μηχανικής μάθησης μπορούν να γενικεύσουν όταν αντιμετωπίζουν εισόδους που δεν έχουν δει προηγουμένως.

Για παράδειγμα, πάρτε την ταξινόμηση Naive Bayes.

Αυτός είναι ένας απλός αλλά αποτελεσματικός αλγόριθμος που μπορεί να ταξινομήσει κείμενα και άλλα κατάλληλα διακριτικά δεδομένα, χρησιμοποιώντας το θεώρημα του Bayes.

Ο αλγόριθμος εκπαιδεύεται σε ένα σύνολο προ-ταξινομημένων δεδομένων, στο οποίο κάθε έγγραφο αποτελείται από ένα σύνολο λέξεων ή «χαρακτηριστικών». Ο αλγόριθμος ξεκινά εκτιμώντας την πιθανότητα κάθε δυνατότητας, δεδομένης μιας συγκεκριμένης κλάσης.

Χρησιμοποιώντας το θεώρημα του Bayes (και μερικές πολύ αφελείς παραδοχές σχετικά με την ανεξαρτησία των χαρακτηριστικών), ο αλγόριθμος μπορεί στη συνέχεια να προσεγγίσει τις σχετικές πιθανότητες κάθε τάξης, δεδομένων των χαρακτηριστικών που παρατηρήθηκαν σε ένα προηγουμένως αόρατο έγγραφο.

Ένα σημαντικό βήμα στην ταξινόμηση Naive Bayes είναι η εκτίμηση της πιθανότητας ενός χαρακτηριστικού να παρατηρείται σε μια δεδομένη κατηγορία. Αυτό μπορεί να γίνει με τον υπολογισμό της συχνότητας με την οποία το χαρακτηριστικό παρατηρείται σε κάθε μια από τις εγγραφές αυτής της τάξης στα δεδομένα εκπαίδευσης.

Για παράδειγμα, η λέξη «Python» μπορεί να εμφανίζεται στο 12% όλων των εγγράφων που ταξινομούνται ως «προγραμματισμός», σε σύγκριση με το 1% όλων των εγγράφων που ταξινομούνται ως «εκκίνηση». Η λέξη «μάθηση» μπορεί να εμφανίζεται στο 10% των εγγράφων προγραμματισμού και στο 20% όλων των εγγράφων εκκίνησης.

Πάρτε την πρόταση «μάθετε Python».

Χρησιμοποιώντας αυτές τις συχνότητες, βρίσκουμε την πιθανότητα της πρότασης να ταξινομηθεί ως "προγραμματισμός" ίση με 0,12 × 0,10 = 0,012 και η πιθανότητα να ταξινομηθεί ως "εκκίνηση" είναι 0,01 × 0,20 = 0,002.

Επομένως, ο «προγραμματισμός» είναι πιο πιθανό από αυτές τις δύο κατηγορίες.

Αλλά αυτή η προσέγγιση βάσει συχνότητας αντιμετωπίζει προβλήματα κάθε φορά που εξετάζουμε ένα χαρακτηριστικό που δεν εμφανίζεται ποτέ σε μια συγκεκριμένη κατηγορία. Αυτό θα σήμαινε ότι έχει συχνότητα μηδέν.

Η ταξινόμηση Naive Bayes απαιτεί να πολλαπλασιάσουμε τις πιθανότητες, αλλά πολλαπλασιάζοντας οτιδήποτε με το μηδέν, φυσικά, θα αποφέρει πάντα μηδέν.

Λοιπόν, τι θα συμβεί εάν ένα προηγουμένως αόρατο έγγραφο περιέχει μια λέξη που δεν παρατηρήθηκε ποτέ σε μια δεδομένη τάξη στα δεδομένα εκπαίδευσης; Αυτή η τάξη θα θεωρηθεί αδύνατη - ανεξάρτητα από το πόσο συχνά εμφανίζεται κάθε άλλη λέξη στο έγγραφο σε αυτήν την τάξη.

Λείανση πρόσθετων

Μια προσέγγιση που ονομάζεται πρόσθετο εξομάλυνση προσφέρει μια λύση. Αντί να επιτρέπουμε μηδενικές συχνότητες, προσθέτουμε μια μικρή σταθερά στον αριθμητή. Αυτό εμποδίζει τους αόρατους συνδυασμούς κλάσης / χαρακτηριστικών να εκτροχιάσουν τον ταξινομητή.

Όταν αυτή η σταθερά ισούται με μία, η εξομάλυνση προσθέτων είναι η ίδια με την εφαρμογή του κανόνα διαδοχής του Laplace.

Εκτός από την ταξινόμηση Naive Bayes, η εξομάλυνση προσθέτων χρησιμοποιείται σε άλλα πιθανολογικά πλαίσια μηχανικής μάθησης. Στα παραδείγματα περιλαμβάνονται προβλήματα στη μοντελοποίηση γλωσσών, νευρωνικά δίκτυα και κρυφά μοντέλα Markov.

Σε μαθηματικούς όρους, η εξομάλυνση προσθέτων ισοδυναμεί με τη χρήση μιας κατανομής βήτα ως συζεύκτη πριν από την πραγματοποίηση συμπερασμάτων Bayesian με διωνυμικές και γεωμετρικές κατανομές.

Η κατανομή beta είναι μια οικογένεια κατανομών πιθανότητας που ορίζονται στο διάστημα [0,1]. Παίρνει δύο παραμέτρους σχήματος, ακαι β. Ο κανόνας διαδοχής του Laplace αντιστοιχεί στη ρύθμιση α= 1 και β = 1.

Όπως συζητήθηκε παραπάνω, η κατανομή beta (1,1) είναι αυτή για την οποία μεγιστοποιείται η εντροπία πληροφοριών. Ωστόσο, υπάρχουν εναλλακτικές προτεραιότητες για περιπτώσεις στις οποίες η υπόθεση μιας επιτυχίας και μιας αποτυχίας δεν είναι έγκυρη.

Για παράδειγμα, το Haldane's προηγούμενο ορίζεται ως διανομή beta (0,0). Ισχύει σε περιπτώσεις που δεν είμαστε καν σίγουροι αν μπορούμε να επιτρέψουμε ένα δυαδικό αποτέλεσμα. Τα προηγούμενα του Haldane τοποθετούν ένα άπειρο "βάρος" στο μηδέν και το ένα.

Το Jeffrey's sebelumnya, η έκδοση beta (0,5, 0,5), είναι μια άλλη μη ενημερωτική προηγούμενη. Έχει τη χρήσιμη ιδιότητα που παραμένει αμετάβλητη υπό επαναπαραμετροποίηση. Η παραγωγή του είναι πέρα ​​από το πεδίο αυτού του άρθρου, αλλά αν σας ενδιαφέρει, δείτε αυτό το νήμα.

Η κληρονομιά των ιδεών

Προσωπικά, το βρίσκω συναρπαστικό πώς μερικές από τις πρώτες ιδέες για πιθανότητες και στατιστικές έχουν επιβιώσει χρόνια διαμάχης και εξακολουθούν να βρίσκουν ευρεία χρήση στη σύγχρονη μηχανική μάθηση.

Είναι εξαιρετικό να συνειδητοποιούμε ότι η επιρροή των ιδεών που αναπτύχθηκαν πριν από δύο αιώνες εξακολουθεί να γίνεται αισθητή σήμερα. Η μηχανική μάθηση και η επιστήμη των δεδομένων έχουν αποκτήσει πραγματική δυναμική την τελευταία δεκαετία. Αλλά τα θεμέλια πάνω στα οποία χτίστηκαν τοποθετήθηκαν πολύ πριν οι πρώτοι υπολογιστές πλησιάσουν ακόμη και την πραγματοποίηση.

Δεν είναι τυχαίο ότι τέτοιες ιδέες συνορεύουν με τη φιλοσοφία της γνώσης. Αυτό γίνεται ιδιαίτερα σημαντικό καθώς τα μηχανήματα γίνονται όλο και πιο έξυπνα. Σε ποιο σημείο μπορεί να στραφεί η εστίαση στη φιλοσοφία μας για τη συνείδηση;

Τέλος, τι θα έκανε ο Laplace και οι σύγχρονοί του στη μηχανική μάθηση σήμερα; Είναι δελεαστικό να προτείνουμε ότι θα εκπλαγούν από την πρόοδο που έχει επιτευχθεί.

Αλλά αυτό θα ήταν μάλλον κακό για την προοπτική τους. Σε τελική ανάλυση, ο Γάλλος φιλόσοφος Ρενέ Ντεκάρτς είχε γράψει για μια μηχανιστική φιλοσοφία τον 17ο αιώνα. Περιγράφοντας μια υποθετική μηχανή:

«Je désire que vous considériez… toutes les fonctions que j'ai attribuées à cette machine, comme… la réception de la lumière, des son, des odeurs, des goûts… l'empreinte de ces idées dans la mémoire… κ.α. extérieurs… quils μιμείται le plus lefa parfaitement ceux d'un vrai homme… considériez que ces fonctions… de la seule disposition de ses organes, ni plus ni moins que font les mouagues d'une horloge… de celle de ses contrepoids et de ses roues "

Το οποίο μεταφράζεται ως: «Θέλω να θεωρήσετε ότι όλες οι λειτουργίες που έχω αποδώσει σε αυτό το μηχάνημα όπως… η λήψη φωτός, ήχου, οσμής και γεύσης… η αποτύπωση αυτών των ιδεών στη μνήμη… και τέλος οι εξωτερικές κινήσεις που μιμηθείτε όσο το δυνατόν καλύτερα εκείνες ενός αληθινού ανθρώπου… Σκεφτείτε ότι αυτές οι λειτουργίες βρίσκονται υπό τον έλεγχο των οργάνων, όχι περισσότερο ή λιγότερο από τις κινήσεις ενός ρολογιού στα αντίβαρά του και στους τροχούς του ».

Το παραπάνω απόσπασμα περιγράφει μια υποθετική μηχανή ικανή να ανταποκρίνεται σε ερεθίσματα και να συμπεριφέρεται σαν «αληθινός άνθρωπος». Δημοσιεύθηκε στο έργο του Descartes το 1664 «Traité de l'homme»- Πλήρης 150 χρόνια πριν από την «Essai φιλοσοφία sur les probabilités» του Laplace.

Πράγματι, ο 18ος και οι αρχές του 19ου αιώνα είδαν την κατασκευή εξαιρετικά εξελιγμένων αυτοματισμών από εφευρέτες όπως οι Pierre Jaquet-Droz και Henri Maillardet. Αυτά τα android ρολόγια θα μπορούσαν να «προγραμματιστούν» για να γράψουν, να σχεδιάσουν και να παίξουν μουσική.

Δεν υπάρχει αμφιβολία ότι ο Laplace και οι σύγχρονοί του θα μπορούσαν να συλλάβουν την έννοια μιας έξυπνης μηχανής. Και σίγουρα δεν θα είχε ξεφύγει από την αντίληψή τους για το πώς θα μπορούσε να εφαρμοστεί πρόοδος στον τομέα των πιθανοτήτων στη νοημοσύνη μηχανών.

Ακριβώς στην αρχή της "Φιλοσοφίας Essai", ο Laplace γράφει για μια υποθετική υπερ-νοημοσύνη, αναδρομικά ονομαζόμενη "Laplace's Demon":

«Une intelligence qui, pour un instant donné, connaîtrait toutes les force dont la nature est animée, et la situ αντίστοιχα des êtres qui la synthent, si d'ailleurs elle était assez vaste pour soumttre ces données à l'analyse… rien ne serait incertain pour elle, et l'avenir comme le passé, serait présent à ses yeux "

Το οποίο μεταφράζεται ως: «Μια νοημοσύνη, η οποία σε μια δεδομένη στιγμή, γνωρίζει όλες τις δυνάμεις με τις οποίες κινείται η φύση, και την αντίστοιχη κατάσταση των όντων που τη συνθέτουν, και αν ήταν αρκετά μεγάλη για να υποβάλει αυτά τα δεδομένα για ανάλυση… τίποτα δεν θα να είστε αβέβαιοι σε αυτό, και το μέλλον όπως το παρελθόν, θα ήταν παρόν στα μάτια του ».

Θα μπορούσε το Laplace's Demon να υλοποιηθεί ως μία από τις έξυπνες μηχανές του Descartes; Οι σύγχρονες ευαισθησίες προτείνουν συντριπτικά όχι.

Ωστόσο, η υπόθεση του Laplace που προβλέπεται σε μικρότερη κλίμακα μπορεί σύντομα να γίνει πραγματικότητα, χάρη σε ένα μικρό μέρος του πρωτοποριακού του έργου στον τομέα της πιθανότητας.

Εν τω μεταξύ, ο ήλιος (πιθανότατα) θα συνεχίσει να ανατέλλει.