Στατιστική αναμέτρηση: The Frequentists VS The Bayians

Συμπέρασμα

Το Statistics Inference είναι ένα πολύ σημαντικό θέμα που τροφοδοτεί τους σύγχρονους αλγόριθμους Machine Learning και Deep Learning. Αυτό το άρθρο θα σας βοηθήσει να εξοικειωθείτε με τις έννοιες και τα μαθηματικά που αποτελούν το συμπέρασμα.

Φανταστείτε ότι θέλουμε να ξεγελάσουμε μερικούς φίλους με ένα άδικο νόμισμα. Έχουμε 10 νομίσματα και θέλουμε να κρίνουμε εάν ένα από αυτά είναι άδικο - που σημαίνει ότι θα εμφανίζεται πιο συχνά από τις ουρές ή αντίστροφα.

Παίρνουμε λοιπόν κάθε νόμισμα, πετάμε πολλές φορές - ας πούμε 100 - και καταγράφουμε τα αποτελέσματα. Το θέμα είναι ότι έχουμε τώρα ένα υποσύνολο μετρήσεων από μια πραγματική διανομή (ένα δείγμα) για κάθε νόμισμα. Εξετάσαμε την κατάσταση των αντίχειρων μας και καταλήξαμε στο συμπέρασμα ότι η συλλογή περισσότερων δεδομένων θα ήταν πολύ κουραστική.

Είναι ασυνήθιστο να γνωρίζουμε παραμέτρους της πραγματικής κατανομής. Συχνά, θέλουμε να συμπεράνουμε αληθινές παραμέτρους πληθυσμού από το δείγμα.

Τώρα λοιπόν θέλουμε να εκτιμήσουμε την πιθανότητα προσγείωσης νομίσματος στο Heads. Μας ενδιαφέρει το μέσο δείγμα .

Μέχρι τώρα πιθανότατα έχετε σκεφτεί, "Απλά μετρήστε τον αριθμό των κεφαλιών και διαιρέστε με τον συνολικό αριθμό προσπαθειών ήδη!" Ναι, αυτός είναι ο τρόπος να βρούμε ένα άδικο νόμισμα, αλλά πώς θα μπορούσαμε να βρούμε αυτόν τον τύπο αν δεν το γνωρίζαμε πρώτα;

Συχνή συναγωγή

Θυμηθείτε ότι οι ρίψεις νομισμάτων έχουν το καλύτερο μοντέλο με τη διανομή Bernoulli, οπότε είμαστε σίγουροι ότι αντιπροσωπεύει καλά τα δεδομένα μας. Η συνάρτηση πιθανότητας μάζας (PMF) για τη διανομή Bernoulli μοιάζει με αυτήν:

Το x είναι μια τυχαία μεταβλητή που αντιπροσωπεύει μια παρατήρηση μιας ρίψης νομισμάτων (υποθέστε 1 για Heads και 0 για Tails) και το p είναι μια παράμετρος - πιθανότητα Heads. Θα αναφερθούμε σε όλες τις πιθανές παραμέτρους ως θ και μετά . Αυτή η συνάρτηση αντιπροσωπεύει πόσο πιθανή είναι κάθε τιμή x σύμφωνα με το νόμο διανομής που έχουμε επιλέξει.

Όταν το x είναι ίσο με 1 παίρνουμε f (1; p) = p και όταν είναι μηδέν f (0; p) = 1-p. Έτσι, η διανομή Bernoulli απαντά στην ερώτηση «Πόσο πιθανό είναι να έχουμε ένα κεφάλι με ένα νόμισμα που προσγειώνεται στα κεφάλια με πιθανότητα p; ". Στην πραγματικότητα, είναι ένα από τα απλούστερα παραδείγματα μιας διακριτής κατανομής πιθανότητας.

Έτσι, μας ενδιαφέρει να προσδιορίσουμε την παράμετρο p από τα δεδομένα. Ένας συχνός στατιστικολόγος πιθανότατα θα προτείνει τη χρήση μιας διαδικασίας Μέγιστης Εκτίμησης Πιθανότητας (MLE). Αυτή η μέθοδος ακολουθεί προσέγγιση μεγιστοποίησης της πιθανότητας παραμέτρων δεδομένου του συνόλου δεδομένων D :

Αυτό σημαίνει ότι η πιθανότητα ορίζεται ως πιθανότητα των δεδομένων που δίνονται παραμέτρους του μοντέλου. Για να μεγιστοποιήσουμε αυτήν την πιθανότητα, θα πρέπει να βρούμε παραμέτρους που βοηθούν το μοντέλο μας να ταιριάζει με τα δεδομένα όσο το δυνατόν πιο κοντά. Δεν μοιάζει με μάθηση ; Το Maximum Likelihood είναι μία από τις μεθόδους που κάνουν την εποπτευόμενη μάθηση να λειτουργεί.

Ας υποθέσουμε ότι όλες οι παρατηρήσεις που κάνουμε είναι ανεξάρτητες. Αυτό σημαίνει ότι η κοινή πιθανότητα στην παραπάνω έκφραση μπορεί να απλοποιηθεί σε ένα προϊόν με βασικούς κανόνες πιθανότητας:

Τώρα πηγαίνει το κύριο μέρος: πώς μεγιστοποιούμε τη λειτουργία πιθανότητας; Ζητάμε λογισμό για βοήθεια, διαφοροποιούμε τη συνάρτηση πιθανότητας σε σχέση με τις παραμέτρους μοντέλου θ , το θέτουμε στο 0 και λύνουμε την εξίσωση. Υπάρχει ένα τακτοποιημένο τέχνασμα που κάνει τη διαφοροποίηση πολύ πιο εύκολη τις περισσότερες φορές - οι λογάριθμοι δεν αλλάζουν το άκρο της συνάρτησης (ελάχιστο και μέγιστο).

Η Μέγιστη Εκτίμηση Πιθανότητας έχει τεράστια σημασία και σχεδόν σε κάθε αλγόριθμο μηχανικής εκμάθησης. Είναι ένας από τους πιο δημοφιλείς τρόπους για τη διαμόρφωση μιας διαδικασίας μαθηματικής μάθησης.

Και τώρα ας εφαρμόσουμε ό, τι έχουμε μάθει και παίζουμε με τα νομίσματά μας. Έχουμε κάνει n ανεξάρτητων δοκιμών Bernoulli για να αξιολογήσει την αμεροληψία του νομίσματος μας. Έτσι, όλες οι πιθανότητες μπορούν να πολλαπλασιαστούν και η συνάρτηση πιθανότητας θα μοιάζει με αυτήν:

Η λήψη του παραγώγου της παραπάνω έκφρασης δεν θα είναι ωραία. Πρέπει λοιπόν να βρούμε την πιθανότητα καταγραφής:

Αυτό φαίνεται πιο εύκολο. Προχωρώντας στη διαφοροποίηση

Εδώ χωρίζουμε τα παράγωγα χρησιμοποιώντας το πρότυπο d (f + g) = df + dg. Στη συνέχεια, μεταφέρουμε τις σταθερές και διαφοροποιούμε τους λογάριθμους:

Το τελευταίο βήμα μπορεί να φαίνεται αστείο λόγω του σήματος. Η αιτία είναι ότι το log (1-p) είναι στην πραγματικότητα μια σύνθεση δύο συναρτήσεων και πρέπει να χρησιμοποιήσουμε τον κανόνα αλυσίδας εδώ:

Voilà, τελειώσαμε με την πιθανότητα καταγραφής! Τώρα πλησιάζουμε να βρούμε τη στατιστική της μέγιστης πιθανότητας για τη μέση κατανομή Bernoulli. Το τελευταίο βήμα είναι η επίλυση της εξίσωσης:

Πολλαπλασιάζοντας τα πάντα με p (1-p) και επεκτείνοντας παρένθεση

Ακύρωση των όρων και αναδιάταξη:

Λοιπόν, εδώ είναι η παραγωγή του δικού μαςδιαισθητικός τύπος; Υ ou μπορεί τώρα να παίξει με τη διανομή Bernoulli και MLE εκτίμηση της μέσης τιμής στην οπτικοποίηση παρακάτω

Συγχαρητήρια για τη νέα σας καταπληκτική ικανότητα της Μέγιστης Εκτίμησης Πιθανότητας! Ή απλώς για να ανανεώσετε τις υπάρχουσες γνώσεις σας.

Μπαιγιάνη συμπεράσματα

Θυμηθείτε ότι υπάρχει μια άλλη προσέγγιση της πιθανότητας. Οι στατιστικές του Bayesian έχουν τον δικό τους τρόπο να κάνουν πιθανές συμπεράσματα. Θέλουμε να βρούμε την πιθανότητα κατανομής των παραμέτρων που δόθηκαν από το δείγμα THETA - P (THETA | D) . Αλλά πώς μπορούμε να συμπεράνουμε αυτήν την πιθανότητα; Το θεώρημα Bayes έρχεται να σώσει:

  • Το P (θ) ονομάζεται προηγούμενη διανομή και ενσωματώνει τις πεποιθήσεις μας σχετικά με το ποιες παραμέτρους θα μπορούσαν να είναι πριν να δούμε δεδομένα. Η ικανότητα δήλωσης προηγούμενων πεποιθήσεων είναι μία από τις κύριες διαφορές μεταξύ της μέγιστης πιθανότητας και του συμπεράσματος του Μπαγιέ. Ωστόσο, αυτό είναι επίσης το κύριο σημείο κριτικής για την προσέγγιση των Μπαγιέ. Πώς δηλώνουμε την προηγούμενη διανομή εάν δεν γνωρίζουμε τίποτα για το πρόβλημα που μας ενδιαφέρει; Τι γίνεται αν επιλέξουμε κακό πριν;
  • Το P (D | θ) είναι πιθανότητα, το έχουμε συναντήσει στη Μέγιστη Εκτίμηση Πιθανότητας
  • Το P (D) ονομάζεται απόδειξη ή οριακή πιθανότητα

Το P (D) ονομάζεται επίσης σταθερά κανονικοποίησης, καθώς διασφαλίζει ότι τα αποτελέσματα που λαμβάνουμε είναι έγκυρη κατανομή πιθανότητας. Εάν ξαναγράψουμε το P (D) ως

Θα δούμε ότι είναι παρόμοιο με τον αριθμητή στο Θεώρημα Bayes, αλλά το άθροισμα ξεπερνά όλες τις πιθανές παραμέτρους θ . Με αυτόν τον τρόπο έχουμε δύο πράγματα:

  • Η έξοδος είναι πάντα έγκυρη κατανομή πιθανότητας στον τομέα του [0, 1].
  • Σημαντικές δυσκολίες όταν προσπαθούμε να υπολογίσουμε το P (D) καθώς αυτό απαιτεί ενοποίηση ή άθροιση όλων των πιθανών παραμέτρων. Αυτό είναι αδύνατο στα περισσότερα από τα πραγματικά προβλήματα.

Αλλά η περιθωριακή πιθανότητα P (D) καθιστά όλα τα πράγματα Bayesian ανέφικτα; Η απάντηση δεν είναι αρκετά. Τις περισσότερες φορές, θα χρησιμοποιήσουμε μία από τις δύο επιλογές για να απαλλαγούμε από αυτό το πρόβλημα.

Το πρώτο είναι να προσεγγίσει κάπως το P (D) . Αυτό μπορεί να επιτευχθεί με τη χρήση διαφόρων μεθόδων δειγματοληψίας, όπως η δειγματοληψία σπουδαιότητας ή η δειγματοληψία Gibbs, ή μια τεχνική που ονομάζεται Variational Inference (που είναι ένα δροσερό όνομα παρεμπιπτόντως;).

Το δεύτερο είναι να το βγάλετε τελείως από την εξίσωση. Ας εξερευνήσουμε αυτήν την προσέγγιση με περισσότερες λεπτομέρειες. Τι γίνεται αν επικεντρωθούμε στην εύρεση ενός πιθανού συνδυασμού παραμέτρων (αυτός είναι ο καλύτερος δυνατός); Αυτή η διαδικασία ονομάζεται Μέγιστη εκτίμηση Posteriori (MAP).

Η παραπάνω εξίσωση σημαίνει ότι θέλουμε να βρούμε θ για την οποία η έκφραση μέσα arg max παίρνει τη μέγιστη τιμή της - το arg ument ενός max αρχομένης. Το κύριο πράγμα που πρέπει να παρατηρήσετε εδώ είναι ότι το P (D) είναι ανεξάρτητο από τις παραμέτρους και μπορεί να αποκλειστεί από το arg max :

Με άλλα λόγια, το P (D) θα είναι πάντα σταθερό σε σχέση με τις παραμέτρους του μοντέλου και το παράγωγο του θα είναι ίσο με 1 .

Αυτό το γεγονός χρησιμοποιείται τόσο ευρέως που είναι σύνηθες να βλέπουμε το θεώρημα Bayes να γράφεται σε αυτήν τη μορφή:

Το ενσύρματο ημιτελές σύμβολο άπειρου στην παραπάνω έκφραση σημαίνει "ανάλογο προς" ή "ίσο με μια σταθερά".

Έτσι, αφαιρέσαμε το πιο υπολογιστικά βαρύ μέρος του MAP. Αυτό έχει νόημα δεδομένου ότι ουσιαστικά απορρίψαμε όλες τις πιθανές τιμές παραμέτρων από την κατανομή πιθανότητας και απλώς απομακρύνσαμε την καλύτερη πιθανότερη.

Ένας σύνδεσμος μεταξύ MLE και MAP

Και τώρα σκεφτείτε τι συμβαίνει όταν υποθέσουμε ότι το προηγούμενο είναι ομοιόμορφο (μια σταθερή πιθανότητα).

Έχουμε μετακινήσει τη σταθερά C από το arg max αφού δεν επηρεάζει το αποτέλεσμα όπως ήταν με τα στοιχεία. Σίγουρα μοιάζει με μια εκτίμηση Μέγιστης Πιθανότητας! Στο τέλος, το μαθηματικό χάσμα μεταξύ συχνών και Bayesian συμπερασμάτων δεν είναι τόσο μεγάλο.

Μπορούμε επίσης να χτίσουμε τη γέφυρα από την άλλη πλευρά και να δούμε τη μέγιστη εκτίμηση πιθανότητας μέσω γυαλιών Bayesian. Συγκεκριμένα, μπορεί να αποδειχθεί ότι οι προγενέστεροι Bayesian έχουν στενές σχέσεις με όρους νομιμοποίησης. Αλλά αυτό το θέμα αξίζει μια άλλη ανάρτηση (δείτε αυτήν την ερώτηση SO και το βιβλίο ESLR για περισσότερες λεπτομέρειες).

συμπέρασμα

Αυτές οι διαφορές μπορεί να φαίνονται λεπτές στην αρχή, αλλά δίνουν μια αρχή σε δύο σχολές στατιστικών. Οι συχνές και Bayesian προσεγγίσεις διαφέρουν όχι μόνο στη μαθηματική θεραπεία αλλά και στις φιλοσοφικές απόψεις για θεμελιώδεις έννοιες στα στατιστικά.

Εάν παίρνετε ένα καπέλο Bayesian, βλέπετε άγνωστα ως κατανομές πιθανότητας και τα δεδομένα ως μη τυχαίες σταθερές παρατηρήσεις. Ενσωματώνετε προηγούμενες πεποιθήσεις για να κάνετε συμπεράσματα για γεγονότα που παρατηρείτε.

Ως Συχνός, πιστεύετε ότι υπάρχει μια πραγματική τιμή για τα άγνωστα που αναζητούμε και είναι τα δεδομένα που είναι τυχαία και ελλιπή. Η συχνότητα δειγματοληπτικά τυχαία δεδομένα από άγνωστο πληθυσμό και κάνει συμπεράσματα σχετικά με τις πραγματικές τιμές των άγνωστων παραμέτρων χρησιμοποιώντας αυτό το δείγμα.

Στο τέλος, οι προσεγγίσεις Bayesian και Frequentist έχουν τα δικά τους πλεονεκτήματα και αδυναμίες. Καθένα έχει τα εργαλεία για να λύσει σχεδόν οποιοδήποτε πρόβλημα το άλλο μπορεί. Όπως διαφορετικές γλώσσες προγραμματισμού, θα πρέπει να θεωρούνται εργαλεία ίσης ισχύος που μπορεί να ταιριάζουν καλύτερα σε ένα συγκεκριμένο πρόβλημα και να υπολείπονται του άλλου. Χρησιμοποιήστε τους και τους δύο, χρησιμοποιήστε τους με σύνεση και μην πέσετε στην οργή ενός ιερού πολέμου μεταξύ δύο στρατοπέδων στατιστικών!

Μάθατε κάτι; Κάντε κλικ στο? να πω "ευχαριστώ!" και βοηθήστε άλλους να βρουν αυτό το άρθρο.