Μάθετε πώς να επιλέξετε τη γραμμική παλινδρόμηση με την καλύτερη απόδοση για univariate μοντέλα

Μάθετε ποιο μοντέλο γραμμικής παλινδρόμησης ταιριάζει καλύτερα στα δεδομένα σας

Εμπνευσμένη από μια ερώτηση μετά το προηγούμενο άρθρο μου, θέλω να αντιμετωπίσω ένα ζήτημα που συχνά προκύπτει μετά από δοκιμή διαφορετικών γραμμικών μοντέλων: Πρέπει να κάνετε μια επιλογή ποιο μοντέλο θέλετε να χρησιμοποιήσετε. Πιο συγκεκριμένα, ο Khalifa Ardi Sidqi ρώτησε:

«Πώς να προσδιορίσω ποιο μοντέλο ταιριάζει καλύτερα στα δεδομένα μου; Απλώς κοιτάζω το τετράγωνο R, SSE κ.λπ.; Καθώς η ερμηνεία αυτού του μοντέλου (τετραγωνική, ρίζα κ.λπ.) θα είναι πολύ διαφορετική, δεν θα είναι πρόβλημα; "

Το δεύτερο μέρος της ερώτησης μπορεί να απαντηθεί εύκολα. Αρχικά, βρείτε ένα μοντέλο που ταιριάζει καλύτερα στα δεδομένα σας και μετά ερμηνεύστε τα αποτελέσματά του. Είναι καλό εάν έχετε ιδέες για το πώς θα μπορούσαν να εξηγηθούν τα δεδομένα σας. Ωστόσο, ερμηνεύστε το καλύτερο μοντέλο μόνο.

Το υπόλοιπο αυτού του άρθρου θα εξετάσει το πρώτο μέρος της ερώτησής του. Παρακαλώ σημειώστε ότι θα μοιραστώη προσέγγισή μουπώςγια να επιλέξετε ένα μοντέλο. Υπάρχουν πολλοί τρόποι και άλλοι μπορεί να το κάνουν διαφορετικά. Αλλά θα περιγράψω τον τρόπο που λειτουργεί καλύτερα για μένα.

Επιπλέον, αυτή η προσέγγιση ισχύει μόνο για μοντέλα univariate . Τα μοντέλα Univariate έχουν μόνο μία μεταβλητή εισόδου. Σχεδιάζω ένα περαιτέρω άρθρο, όπου θα σας δείξω πώς να αξιολογήσετε μοντέλα πολλαπλών παραλλαγών με περισσότερες μεταβλητές εισόδου. Για σήμερα, ωστόσο, ας επικεντρωθούμε στα βασικά και τα univariate μοντέλα.

Για να εξασκηθώ και να αποκτήσω μια αίσθηση γι 'αυτό, έγραψα ένα μικρό ShinyApp. Χρησιμοποιήστε το και παίξτε με διαφορετικά σύνολα δεδομένων και μοντέλα. Παρατηρήστε πώς αλλάζουν οι παράμετροι και γίνετε πιο σίγουροι με την αξιολόγηση απλών γραμμικών μοντέλων. Τέλος, μπορείτε επίσης να χρησιμοποιήσετε την εφαρμογή ως πλαίσιο για τα δεδομένα σας. Απλώς αντιγράψτε το από το Github.

Χρησιμοποιήστε το Adjusted R2 για univariate μοντέλα

Εάν χρησιμοποιείτε μόνο μία μεταβλητή εισόδου, η adjusted R2τιμή σας δίνει μια καλή ένδειξη για το πόσο καλά αποδίδει το μοντέλο σας. Απεικονίζει πόση παραλλαγή εξηγείται από το μοντέλο σας.

Σε αντίθεση με το απλό R2, adjusted R2λαμβάνεται υπόψη ο αριθμός των παραγόντων εισόδου. Ποινικοποιεί πάρα πολλούς παράγοντες εισόδου και ευνοεί τα παράλογα μοντέλα.

Στο παραπάνω στιγμιότυπο οθόνης, μπορείτε να δείτε δύο μοντέλα με τιμή 71,3% και 84,32%. Προφανώς, το δεύτερο μοντέλο είναι καλύτερο από το πρώτο. Τα μοντέλα με χαμηλές τιμές, ωστόσο, εξακολουθούν να είναι χρήσιμα επειδή adjusted R2είναι ευαίσθητα στην ποσότητα θορύβου στα δεδομένα σας. Ως εκ τούτου, συγκρίνετε μόνο αυτόν τον δείκτη μοντέλων για το ίδιο σύνολο δεδομένων από τη σύγκριση μεταξύ διαφορετικών συνόλων δεδομένων.

Συνήθως, υπάρχει μικρή ανάγκη για το SSE

Πριν διαβάσετε, ας βεβαιωθούμε ότι μιλάμε για την ίδια SSE. Στη Wikipedia, το SSE αναφέρεται στο άθροισμα των τετραγώνων σφαλμάτων. Σε ορισμένα στατιστικά βιβλία, ωστόσο, το SSE μπορεί να αναφέρεται στο εξηγημένο άθροισμα τετραγώνων (το ακριβώς αντίθετο). Για τώρα, ας υποθέσουμε ότι το SSE αναφέρεται στο άθροισμα των τετραγώνων σφαλμάτων.

Ως εκ τούτου, το adjusted R2είναι περίπου 1- SSE / SST. Με το SST να αναφέρεται στο συνολικό άθροισμα των τετραγώνων.

Δεν θέλω να βουτήξω βαθύτερα στα μαθηματικά πίσω από αυτό. Αυτό που θέλω να σας δείξω είναι ότι η adjusted R2υπολογίζεται με τον ΚΑΟ . Επομένως, το SSE συνήθως δεν σας παρέχει πρόσθετες πληροφορίες .

Επιπλέον, το adjusted R2κανονικοποιείται έτσι ώστε να είναι πάντα μεταξύ μηδέν και ενός. Επομένως, είναι ευκολότερο για εσάς και άλλους να ερμηνεύσετε ένα άγνωστο μοντέλο με adjusted R275% αντί για SSE 394 - παρόλο που και οι δύο αριθμοί θα μπορούσαν να εξηγήσουν το ίδιο μοντέλο.

Ρίξτε μια ματιά στα υπολείμματα ή τους όρους σφάλματος!

Αυτό που συχνά αγνοείται είναι οι όροι σφάλματος ή τα λεγόμενα υπολείμματα. Συχνά σας λένε περισσότερα από αυτά που νομίζετε.

Τα υπολείμματα είναι η διαφορά μεταξύ των προβλεπόμενων τιμών και των πραγματικών τιμών.

Το πλεονέκτημά τους είναι ότι μπορούν να σας δείξουν τόσο το μέγεθος όσο και την κατεύθυνση των λαθών σας. Ας ρίξουμε μια ματιά σε ένα παράδειγμα :

Εδώ, προσπάθησα να προβλέψω ένα πολυώνυμο σύνολο δεδομένων με γραμμική συνάρτηση. Η ανάλυση των υπολειμμάτων δείχνει ότι υπάρχουν περιοχές όπου το μοντέλο έχει ανοδική ή καθοδική μεροληψία.

Για t; 100, τα υπολείμματα είναι πάνω από το μηδέν. Έτσι, σε αυτόν τον τομέα, οι πραγματικές τιμές ήταν υψηλότερες από τις προβλεπόμενες τιμές - το μοντέλο μας έχει μια προκατάληψη προς τα κάτω.50 < x &l

Για 100 < x &lt; 150, ωστόσο, τα υπολείμματα είναι κάτω από το μηδέν. Έτσι, οι πραγματικές τιμές ήταν χαμηλότερες από τις προβλεπόμενες τιμές - το μοντέλο έχει ανοδική μεροληψία.

Είναι πάντα καλό να γνωρίζετε, αν το μοντέλο σας προτείνει πολύ υψηλές ή πολύ χαμηλές τιμές. Αλλά συνήθως δεν θέλετε να έχετε τέτοια μοτίβα.

Τα υπολείμματα πρέπει να είναι μηδενικά κατά μέσο όρο (όπως υποδεικνύεται από το μέσο όρο) και πρέπει να κατανέμονται εξίσου. Η πρόβλεψη του ίδιου συνόλου δεδομένων με μια πολυωνυμική συνάρτηση 3 degreesπροτείνει μια πολύ καλύτερη εφαρμογή:

Επιπλέον, μπορείτε να παρατηρήσετε εάν αυξάνεται η διακύμανση των σφαλμάτων σας. Στα στατιστικά, αυτό ονομάζεται ετεροσκεδικότητα. Μπορείτε να το διορθώσετε εύκολα με ισχυρά τυπικά σφάλματα. Διαφορετικά, οι δοκιμές υπόθεσής σας είναι πιθανό να είναι λάθος.

Ιστόγραμμα υπολειμμάτων

Τέλος, το ιστόγραμμα συνοψίζει το μέγεθος των όρων σφάλματος. Παρέχει πληροφορίες σχετικά με το εύρος ζώνης των σφαλμάτων και υποδεικνύει πόσο συχνά συνέβησαν τα σφάλματα.

Τα παραπάνω στιγμιότυπα οθόνης δείχνουν δύο μοντέλα για το ίδιο σύνολο δεδομένων. Στο αριστερό ιστόγραμμα, τα σφάλματα εμφανίζονται εντός εύρους -338και 520.

Στο σωστό ιστόγραμμα, εμφανίζονται σφάλματα εντός -293και 401. Έτσι, οι ακραίες τιμές είναι πολύ χαμηλότερες. Επιπλέον, τα περισσότερα σφάλματα στο μοντέλο του σωστού ιστογράμματος πλησιάζουν το μηδέν. Θα προτιμούσα λοιπόν το σωστό μοντέλο.

Περίληψη

Όταν επιλέγετε ένα γραμμικό μοντέλο, αυτοί είναι παράγοντες που πρέπει να έχετε υπόψη:

  • Συγκρίνετε μόνο γραμμικά μοντέλα για το ίδιο σύνολο δεδομένων.
  • Βρείτε ένα μοντέλο με υψηλή προσαρμοσμένη R2
  • Βεβαιωθείτε ότι αυτό το μοντέλο έχει κατανεμήσει ίσα υπολείμματα περίπου στο μηδέν
  • Βεβαιωθείτε ότι τα σφάλματα αυτού του μοντέλου βρίσκονται εντός μικρού εύρους ζώνης

Αν έχετε απορίες, γράψτε ένα σχόλιο παρακάτω ή επικοινωνήστε μαζί μου. Εκτιμώ τα σχόλιά σας.