Μηχανική εκμάθηση: μια εισαγωγή για τη μέση τετραγωνική γραμμή σφάλματος και παλινδρόμησης

Εισαγωγή

Αυτό το άρθρο θα ασχοληθεί με τη στατιστική μέθοδο που σημαίνει το τετράγωνο σφάλμα και θα περιγράψω τη σχέση αυτής της μεθόδου με τη γραμμή παλινδρόμησης .

Το παράδειγμα αποτελείται από σημεία στον καρτεσιανό άξονα. Θα ορίσουμε μια μαθηματική συνάρτηση που θα μας δώσει την ευθεία που περνά καλύτερα μεταξύ όλων των σημείων του καρτεσιανού άξονα.

Και με αυτόν τον τρόπο, θα μάθουμε τη σύνδεση μεταξύ αυτών των δύο μεθόδων και πώς φαίνεται το αποτέλεσμα της σύνδεσής τους.

Γενική εξήγηση

Αυτός είναι ο ορισμός από τη Wikipedia:

Στα στατιστικά στοιχεία, το μέσο τετράγωνο σφάλμα (MSE) ενός εκτιμητή (μιας διαδικασίας για την εκτίμηση μιας μη παρατηρημένης ποσότητας) μετρά τον μέσο όρο των τετραγώνων των σφαλμάτων - δηλαδή, τη μέση τετραγωνική διαφορά μεταξύ των εκτιμώμενων τιμών και του εκτιμώμενου. Το MSE είναι μια συνάρτηση κινδύνου, που αντιστοιχεί στην αναμενόμενη τιμή της τετραγωνικής απώλειας σφάλματος. Το γεγονός ότι το MSE είναι σχεδόν πάντα αυστηρά θετικό (και όχι μηδέν) οφείλεται στην τυχαιότητα ή επειδή ο εκτιμητής δεν λαμβάνει υπόψη πληροφορίες που θα μπορούσαν να παράγουν ακριβέστερη εκτίμηση.

Η δομή του άρθρου

  • Αποκτήστε μια αίσθηση για την ιδέα, την απεικόνιση γραφημάτων, τη μέση εξίσωση τετραγώνου σφάλματος.
  • Το μαθηματικό μέρος που περιέχει αλγεβρικούς χειρισμούς και ένα παράγωγο δύο μεταβλητών συναρτήσεων για την εύρεση ενός ελάχιστου. Αυτή η ενότητα είναι για όσους θέλουν να καταλάβουν πώς παίρνουμε τους μαθηματικούς τύπους αργότερα, μπορείτε να το παραλείψετε αν αυτό δεν σας ενδιαφέρει.
  • Μια εξήγηση των μαθηματικών τύπων που λάβαμε και του ρόλου κάθε μεταβλητής στον τύπο.
  • Παραδείγματα

Πάρτε μια αίσθηση για την ιδέα

Ας πούμε ότι έχουμε επτά πόντους και στόχος μας είναι να βρούμε μια γραμμή που ελαχιστοποιεί τις τετραγωνικές αποστάσεις σε αυτά τα διαφορετικά σημεία.

Ας προσπαθήσουμε να το καταλάβουμε αυτό.

Θα κάνω ένα παράδειγμα και θα σχεδιάσω μια γραμμή μεταξύ των σημείων. Φυσικά, το σχέδιό μου δεν είναι το καλύτερο, αλλά είναι μόνο για σκοπούς επίδειξης.

Ίσως να αναρωτιέστε, ποιο είναι αυτό το γράφημα;

  • οι μοβ τελείες είναι τα σημεία στο γράφημα. Κάθε σημείο έχει μια συντεταγμένη x και μια συντεταγμένη y.
  • Η μπλε γραμμή είναι η γραμμή προβλέψεών μας. Αυτή είναι μια γραμμή που περνά από όλα τα σημεία και ταιριάζει με τον καλύτερο τρόπο. Αυτή η γραμμή περιέχει τα προβλεπόμενα σημεία.
  • Η κόκκινη γραμμή μεταξύ κάθε μοβ σημείου και της γραμμής πρόβλεψης είναι τα σφάλματα. Κάθε σφάλμα είναι η απόσταση από το σημείο στο προβλεπόμενο σημείο.

Θα πρέπει να θυμάστε αυτήν την εξίσωση από τις σχολικές μέρες σας, y = Mx + B , όπου το M είναι η κλίση της γραμμής και το B είναι y-intercept της γραμμής.

Θέλουμε να βρούμε M (κλίση) και B (y-intercept) που ελαχιστοποιεί το τετράγωνο σφάλμα!

Ας ορίσουμε μια μαθηματική εξίσωση που θα μας δώσει το μέσο τετραγωνικό σφάλμα για όλα τα σημεία μας.

Ας αναλύσουμε τι σημαίνει πραγματικά αυτή η εξίσωση.

  • Στα μαθηματικά, ο χαρακτήρας που μοιάζει με περίεργο Ε ονομάζεται άθροισμα (ελληνικό σίγμα). Είναι το άθροισμα μιας ακολουθίας αριθμών, από i = 1 έως n. Ας φανταστούμε αυτό σαν μια σειρά σημείων, όπου περνάμε όλα τα σημεία, από το πρώτο (i = 1) έως το τελευταίο (i = n)
  • Για κάθε σημείο, λαμβάνουμε τη συντεταγμένη y του σημείου και τη συντεταγμένη y. Η συντεταγμένη y είναι η μοβ κουκίδα μας. Το σημείο y βρίσκεται στη γραμμή που δημιουργήσαμε. Αφαιρούμε την τιμή συντεταγμένης y από την τιμή συντεταγμένης y και υπολογίζουμε το τετράγωνο του αποτελέσματος.
  • Το τρίτο μέρος είναι να πάρουμε το άθροισμα όλων των τιμών (y-y ') ² και να το διαιρέσουμε με n, που θα δώσει το μέσο όρο.

Στόχος μας είναι να ελαχιστοποιήσουμε αυτό το μέσο όρο, το οποίο θα μας προσφέρει την καλύτερη γραμμή που περνά από όλα τα σημεία.

Από την έννοια στις μαθηματικές εξισώσεις

Αυτό το μέρος είναι για άτομα που θέλουν να καταλάβουν πώς φτάσαμε στις μαθηματικές εξισώσεις . Μπορείτε να μεταβείτε στο επόμενο μέρος, αν θέλετε.

Όπως γνωρίζετε, η εξίσωση γραμμής είναι y = mx + b, όπου το m είναι η κλίση και το b είναι η αναχαίτιση y.

Ας πάρουμε κάθε σημείο στο γράφημα και θα κάνουμε τον υπολογισμό μας (y-y ') ².

Αλλά τι είναι το y ', και πώς το υπολογίζουμε; Δεν το έχουμε ως μέρος των δεδομένων.

Γνωρίζουμε όμως ότι, για να υπολογίσουμε το y ', πρέπει να χρησιμοποιήσουμε την εξίσωση γραμμής μας, y = mx + b και να βάλουμε το x στην εξίσωση.

Από εδώ έχουμε την ακόλουθη εξίσωση:

Ας ξαναγράψουμε αυτήν την έκφραση για να την απλοποιήσουμε.

Ας ξεκινήσουμε ανοίγοντας όλα τα παρενθέσεις στην εξίσωση. Έχω χρωματίσει τη διαφορά μεταξύ των εξισώσεων για να καταστεί ευκολότερο να κατανοηθεί.

Τώρα, ας εφαρμόσουμε έναν άλλο χειρισμό. Θα πάρουμε κάθε μέρος και θα το συνδυάσουμε. Θα πάρουμε όλα τα y, και (-2ymx) και κλπ, και θα τα βάλουμε όλα δίπλα-δίπλα.

Σε αυτό το σημείο αρχίζουμε να είμαστε ακατάστατοι, οπότε ας πάρουμε το μέσο όρο όλων των τετραγώνων τιμών για y, xy, x, x².

Ας ορίσουμε, για κάθε έναν, έναν νέο χαρακτήρα που θα αντιπροσωπεύει το μέσο όρο όλων των τετραγώνων τιμών.

Ας δούμε ένα παράδειγμα, ας πάρουμε όλες τις τιμές y και να τις διαιρέσουμε με n, επειδή είναι ο μέσος όρος και να το ονομάσουμε y (HeadLine).

Αν πολλαπλασιάσουμε τις δύο πλευρές της εξίσωσης με n παίρνουμε:

Που θα μας οδηγήσει στην ακόλουθη εξίσωση:

Αν κοιτάξουμε τι έχουμε, μπορούμε να δούμε ότι έχουμε 3D επιφάνεια. Μοιάζει με γυαλί, το οποίο ανεβαίνει απότομα προς τα πάνω.

Θέλουμε να βρούμε M και B που ελαχιστοποιούν τη συνάρτηση. Θα κάνουμε ένα μερικό παράγωγο σε σχέση με το Μ και ένα μερικό παράγωγο σε σχέση με το Β.

Εφόσον ψάχνουμε για ένα ελάχιστο σημείο, θα πάρουμε τα μερικά παράγωγα και θα συγκρίνουμε με το 0.

Ας πάρουμε τις δύο εξισώσεις που λάβαμε, απομονώνοντας τη μεταβλητή b και από τις δύο, και στη συνέχεια αφαιρώντας την ανώτερη εξίσωση από την εξίσωση κάτω.

Ας αφαιρέσουμε την πρώτη εξίσωση από τη δεύτερη εξίσωση

Ας απαλλαγούμε από τους παρονομαστές από την εξίσωση.

Και εκεί πηγαίνουμε, αυτή είναι η εξίσωση για να βρούμε Μ, ας πάρουμε αυτό και γράψουμε την εξίσωση Β.

Εξισώσεις για κλίση και y-intercept

Ας παρέχουμε τις μαθηματικές εξισώσεις που θα μας βοηθήσουν να βρούμε την απαιτούμενη κλίση και y-intercept.

Έτσι σκέφτεστε πιθανώς στον εαυτό σας, τι στο καλό είναι αυτές οι περίεργες εξισώσεις;

Είναι πραγματικά απλά κατανοητά, οπότε ας μιλήσουμε για αυτά λίγο.

Τώρα που καταλαβαίνουμε τις εξισώσεις μας, είναι καιρός να συγκεντρώσουμε όλα τα πράγματα και να δείξουμε μερικά παραδείγματα.

Παραδείγματα

Ένα μεγάλο ευχαριστώ στην Khan Academy για τα παραδείγματα.

Παράδειγμα # 1

Ας πάρουμε 3 πόντους, (1,2), (2,1), (4,3).

Ας βρούμε M και B για την εξίσωση y = mx + b.

Αφού υπολογίσουμε τα σχετικά μέρη για την εξίσωση Μ και Β εξίσωση, ας βάλουμε αυτές τις τιμές μέσα στις εξισώσεις και πάρουμε την κλίση και το y-intercept.

Ας πάρουμε αυτά τα αποτελέσματα και τα θέσουμε μέσα στην εξίσωση γραμμής y = mx + b.

Τώρα ας σχεδιάσουμε τη γραμμή και δούμε πώς περνάει η γραμμή μέσα από τις γραμμές έτσι ώστε να ελαχιστοποιεί τις τετραγωνικές αποστάσεις.

Παράδειγμα # 2

Ας πάρουμε 4 πόντους, (-2, -3), (-1, -1), (1,2), (4,3).

Ας βρούμε M και B για την εξίσωση y = mx + b.

Όπως και πριν, ας βάλουμε αυτές τις τιμές στις εξισώσεις μας για να βρούμε M και B.

Ας πάρουμε αυτά τα αποτελέσματα και τα θέσουμε μέσα στην εξίσωση γραμμής y = mx + b.

Τώρα ας σχεδιάσουμε τη γραμμή και δούμε πώς περνάει η γραμμή μέσα από τις γραμμές έτσι ώστε να ελαχιστοποιεί τις τετραγωνικές αποστάσεις.

Συμπερασματικά

Όπως μπορείτε να δείτε, η όλη ιδέα είναι απλή. Απλώς πρέπει να κατανοήσουμε τα κύρια μέρη και πώς συνεργαζόμαστε μαζί τους.

Μπορείτε να εργαστείτε με τους τύπους για να βρείτε τη γραμμή σε άλλο γράφημα και να εκτελέσετε έναν απλό υπολογισμό και να λάβετε τα αποτελέσματα για την κλίση και το y-intercept.

Αυτό είναι όλο, απλό; ;

Κάθε σχόλιο και όλα τα σχόλια είναι ευπρόσδεκτα - αν είναι απαραίτητο, θα διορθώσω το άρθρο.

Μη διστάσετε να επικοινωνήσετε μαζί μου απευθείας στο LinkedIn - Κάντε κλικ εδώ.