Γραμμική παλινδρόμηση (Ορισμός, Παραδείγματα) - Πώς να ερμηνεύσετε;

Πίνακας περιεχομένων

Τι είναι η γραμμική παλινδρόμηση;

Η γραμμική παλινδρόμηση είναι βασικά μια τεχνική στατιστικής μοντελοποίησης που χρησιμοποιήθηκε για να δείξει τη σχέση μεταξύ μιας εξαρτημένης μεταβλητής και μιας ή περισσότερων ανεξάρτητων μεταβλητών. Είναι ένας από τους πιο συνηθισμένους τύπους προγνωστικής ανάλυσης. Αυτός ο τύπος διανομής σχηματίζεται σε μια γραμμή, επομένως αυτό ονομάζεται γραμμική παλινδρόμηση. Σε αυτό το άρθρο, θα πάρουμε τα παραδείγματα της Ανάλυσης γραμμικής παλινδρόμησης στο Excel.

Για να κάνουμε πρώτα ανάλυση γραμμικής παλινδρόμησης, πρέπει να προσθέσουμε πρόσθετα excel ακολουθώντας τα βήματα.

Κάντε κλικ στο Αρχείο - Επιλογές (Αυτό θα ανοίξει το Excel Επιλογές αναδυόμενο για εσάς).

Κάντε κλικ στο Πρόσθετα - Επιλέξτε Πρόσθετα του Excel από τη Διαχείριση του αναπτυσσόμενου προγράμματος και, στη συνέχεια, κάντε κλικ στο Μετάβαση.

Αυτό θα ανοίξει το αναδυόμενο παράθυρο πρόσθετων. Επιλέξτε Analysis ToolPak και μετά κάντε κλικ στο Ok.

Το πρόσθετο ανάλυσης δεδομένων θα εμφανιστεί στην καρτέλα Εισαγωγή.

Ας καταλάβουμε με τα παρακάτω Παραδείγματα ανάλυσης γραμμικής παλινδρόμησης στο excel.

Παραδείγματα ανάλυσης γραμμικής παλινδρόμησης

Παράδειγμα # 1

Ας υποθέσουμε ότι έχουμε μηνιαίες πωλήσεις και δαπανήσαμε στο μάρκετινγκ για το προηγούμενο έτος, και τώρα πρέπει να προβλέψουμε τις μελλοντικές πωλήσεις με βάση τις πωλήσεις του περασμένου έτους και τις δαπάνες μάρκετινγκ.

Μήνας Διαφήμιση Εκπτώσεις
Ιαν 40937 502729
Φεβ 42376 507553
Παραμορφώνω 43355 516885
Απρ 44126 528347
Ενδέχεται 45060 537298
Ιουν 49546 544066
Ιουλ 56105 553664
Αυγ 59322 563201
Σεπ 59877 568657
Οκτ 60481 569384
Νοε 62356 573764
Δεκ 63246 582746

Κάντε κλικ στην Ανάλυση δεδομένων στην καρτέλα Δεδομένα και θα ανοίξει το Αναδυόμενο Ανάλυση Δεδομένων για εσάς.

Τώρα επιλέξτε Regression από τη λίστα και κάντε κλικ στο Ok.

Θα ανοίξει το αναδυόμενο παράθυρο παλινδρόμησης.

Επιλέξτε Εύρος πωλήσεων $ C $ 1: $ C $ 13 στο πλαίσιο του άξονα Υ, καθώς αυτή είναι η εξαρτώμενη μεταβλητή και $ B $ 1: $ B $ 14 σε άξονα X, καθώς η διαφήμιση που δαπανάται είναι η ανεξάρτητη μεταβλητή.

Σημάδι επιλογής στο πλαίσιο Ετικέτες εάν έχετε επιλέξει κεφαλίδες σε δεδομένα αλλιώς θα σας δώσει το σφάλμα.

Επιλέξτε Εύρος εξόδου εάν θέλετε να λάβετε την τιμή στο συγκεκριμένο εύρος στο φύλλο εργασίας αλλιώς επιλέξτε Νέο φύλλο εργασίας: και αυτό θα προσθέσει ένα νέο φύλλο εργασίας και θα σας δώσει το αποτέλεσμα.

Στη συνέχεια, επιλέξτε το πλαίσιο Residuals και κάντε κλικ στο Ok.

Αυτό θα προσθέσει φύλλα εργασίας και θα σας δώσει το ακόλουθο αποτέλεσμα.

Ας καταλάβουμε την έξοδο.

Συνοπτική παραγωγή

Multiple R: Αυτό αντιπροσωπεύει τον συντελεστή συσχέτισης. Η τιμή 1 δείχνει μια θετική σχέση και η τιμή 0 δεν δείχνει καμία σχέση.

R Square: Το R Square αντιπροσωπεύει τον συντελεστή προσδιορισμού. Αυτό σας λέει ότι το ποσοστό των πόντων πέφτει στη γραμμή παλινδρόμησης. 0,49 σημαίνει ότι το 49% των τιμών ταιριάζουν στο μοντέλο

Προσαρμοσμένο τετράγωνο R : Αυτό είναι προσαρμοσμένο τετράγωνο R, το οποίο απαιτεί όταν έχετε περισσότερες από μία μεταβλητές X.

Τυπικό σφάλμα: Αυτό αντιπροσωπεύει μια εκτίμηση της τυπικής απόκλισης σφάλματος. Αυτή είναι η ακρίβεια που μετράται ο συντελεστής παλινδρόμησης.

Παρατηρήσεις: Αυτός είναι ο αριθμός των παρατηρήσεων που έχετε λάβει σε ένα δείγμα.

ANOVA - Df: Βαθμοί ελευθερίας

SS: Άθροισμα τετραγώνων.

MS: έχουμε δύο MS

  • Το Regression MS είναι Regression SS / Regression Df.
  • Το υπόλοιπο MS είναι το μέσο τετράγωνο σφάλμα (Residual SS / Residual Df).

F: Δοκιμή F για τη μηδενική υπόθεση.

Σημασία F: Τιμές P που σχετίζονται με τη Σημασία

Συντελεστής: Ο Συντελεστής σας δίνει την εκτίμηση των λιγότερων τετραγώνων.

T Στατιστική: T Στατιστική για μηδενική υπόθεση έναντι της εναλλακτικής υπόθεσης.

P-Value: Αυτή είναι η τιμή p για το τεστ υπόθεσης.

Κάτω 95% και Άνω 95%: Αυτά είναι το κατώτερο όριο και το ανώτερο όριο για το διάστημα εμπιστοσύνης

Παραγωγή υπολειμμάτων: Έχουμε 12 παρατηρήσεις με βάση τα δεδομένα. Η στήλη αντιπροσωπεύει Προβλεπόμενες πωλήσεις και στήλη Υπολειμματικά. Τα υπολείμματα είναι βασικά η διαφορά στις προβλεπόμενες πωλήσεις από την πραγματική.

Παράδειγμα # 2

Επιλέξτε τη προβλεπόμενη στήλη πωλήσεων και μάρκετινγκ

Μεταβείτε στην ομάδα γραφημάτων στην καρτέλα εισαγωγής. Επιλέξτε το εικονίδιο γραφήματος διασποράς

Αυτό θα εισαγάγει το διάγραμμα διασποράς στο Excel. Δείτε την παρακάτω εικόνα

Κάντε δεξί κλικ σε οποιοδήποτε σημείο και, στη συνέχεια, επιλέξτε Προσθήκη Trendline στο excel. Αυτό θα προσθέσει μια γραμμή τάσης στο γράφημα σας.

  • Μπορείτε να μορφοποιήσετε τη γραμμή τάσης κάνοντας δεξί κλικ οπουδήποτε στη γραμμή τάσης και, στη συνέχεια, επιλέξτε μορφή γραμμής τάσης.
  • Μπορείτε να κάνετε περισσότερες βελτιώσεις στο γράφημα. δηλαδή, μορφοποίηση της γραμμής τάσης, χρώμα και αλλαγή τίτλου κ.λπ.
  • Μπορείτε επίσης να εμφανίσετε τον τύπο στο γράφημα επιλέγοντας τον τύπο εμφάνισης στο γράφημα και να εμφανίσετε την τετραγωνική τιμή R στο γράφημα.

Μερικά περισσότερα παραδείγματα ανάλυσης γραμμικής παλινδρόμησης:

  1. Η πρόβλεψη της ομπρέλας που πωλήθηκε με βάση τη βροχή έγινε στην περιοχή.
  2. Πρόβλεψη AC που πωλούνται με βάση τη Θερμοκρασία το καλοκαίρι.
  3. Κατά τη διάρκεια της εξεταστικής περιόδου, οι πωλήσεις στατικών βασικά, οι πωλήσεις οδηγών εξετάσεων αυξήθηκαν.
  4. Πρόβλεψη πωλήσεων όταν η διαφήμιση έχει πραγματοποιηθεί με βάση το High TRP serial όπου γίνεται μια διαφήμιση, τη δημοτικότητα του Brand Ambassador και τις Footfalls στον τόπο όπου πραγματοποιείται η δημοσίευση μιας διαφήμισης.
  5. Πωλήσεις κατοικιών με βάση την τοποθεσία, την περιοχή και την τιμή.

Παράδειγμα # 3

Ας υποθέσουμε ότι έχουμε εννέα μαθητές με το επίπεδο IQ τους και τον αριθμό που σημείωσαν στο Test.

Μαθητης σχολειου Βαθμολογία δοκιμής IQ
Εμβολο 100 145
Σιάμ 97 140
Κουλ 93 130
Κάπου 91 125
Ρατζού 89 115
Vishal 86 110
Vivek 82 100
Βινέι 78 95
Κουμάρ 75 90

Βήμα 1: Αρχικά, μάθετε τις εξαρτώμενες και ανεξάρτητες μεταβλητές. Εδώ το σκορ δοκιμής είναι η εξαρτημένη μεταβλητή και το IQ είναι η ανεξάρτητη μεταβλητή καθώς το σκορ δοκιμής ποικίλλει καθώς το IQ παίρνει αλλαγή

Βήμα 2: Μεταβείτε στην καρτέλα δεδομένων - Κάντε κλικ στην Ανάλυση δεδομένων - Επιλέξτε παλινδρόμηση - κάντε κλικ στο Ok.

Αυτό θα ανοίξει το παράθυρο Regression για εσάς.

Βήμα 3. Εύρος βαθμολογίας δοκιμής εισόδου στο κουτί εύρους εισόδου Υ και IQ στο κουτί εύρους εισόδου X. (Ελέγξτε τις Ετικέτες εάν έχετε κεφαλίδες στο εύρος δεδομένων σας. Επιλέξτε επιλογές εξόδου και, στη συνέχεια, ελέγξτε τα επιθυμητά υπολείμματα. Κάντε κλικ στο Ok.

Θα λάβετε τη συνοπτική έξοδο που φαίνεται στην παρακάτω εικόνα.

Βήμα 4: Ανάλυση της παλινδρόμησης με συνοπτικό αποτέλεσμα

Συνοπτική παραγωγή

Multiple R: Εδώ, ο συντελεστής συσχέτισης είναι 0,99, που είναι πολύ κοντά στο 1, που σημαίνει ότι η γραμμική σχέση είναι πολύ θετική.

R Square: Η τιμή R Square είναι 0,983, πράγμα που σημαίνει ότι το 98,3% των τιμών ταιριάζει στο μοντέλο.

Τιμή P: Εδώ, η τιμή P είναι 1,86881E-07, η οποία είναι πολύ μικρότερη από .1, που σημαίνει ότι το IQ έχει σημαντικές προγνωστικές τιμές.

Δείτε το παρακάτω διάγραμμα.

Μπορείτε να δείτε ότι σχεδόν όλα τα σημεία πέφτουν ευθυγραμμισμένα ή μια κοντινή γραμμή τάσης.

Παράδειγμα # 4

Πρέπει να προβλέψουμε τις πωλήσεις AC με βάση τις πωλήσεις και τη θερμοκρασία για έναν διαφορετικό μήνα.

Μήνας Θερμ Εκπτώσεις
Ιαν 25 38893
Φεβ 28 42254
Παραμορφώνω 31 42845
Απρ 33 47917
Ενδέχεται 37 51243
Ιουν 40 69588
Ιουλ 38 56570
Αυγ 37 50000

Ακολουθήστε τα παρακάτω βήματα για να λάβετε το αποτέλεσμα παλινδρόμησης.

Βήμα 1: Αρχικά, μάθετε τις εξαρτώμενες και ανεξάρτητες μεταβλητές. Εδώ οι πωλήσεις είναι η εξαρτημένη μεταβλητή και η θερμοκρασία είναι μια ανεξάρτητη μεταβλητή καθώς οι πωλήσεις ποικίλλουν καθώς η θερμοκρασία αλλάζει.

Βήμα 2: Μεταβείτε στην καρτέλα δεδομένων - Κάντε κλικ στην Ανάλυση δεδομένων - Επιλέξτε παλινδρόμηση - κάντε κλικ στο Ok.

Αυτό θα ανοίξει το παράθυρο Regression για εσάς.

Βήμα 3. Πωλήσεις εισόδου στο πλαίσιο εισαγωγής Y Range και Temp στο Input X Range Box. (Ελέγξτε τις Ετικέτες εάν έχετε κεφαλίδες στο εύρος δεδομένων σας. Επιλέξτε επιλογές εξόδου και, στη συνέχεια, ελέγξτε τα επιθυμητά υπολείμματα. Κάντε κλικ στο Ok.

Αυτό θα σας δώσει μια συνοπτική έξοδο όπως παρακάτω.

Βήμα 4: Αναλύστε το αποτέλεσμα.

Multiple R: Εδώ, ο συντελεστής συσχέτισης είναι 0,877, που είναι κοντά στο 1, που σημαίνει ότι η γραμμική σχέση είναι θετική.

R Square: Η τιμή R Square είναι 0,770, πράγμα που σημαίνει ότι το 77% των τιμών ταιριάζει στο μοντέλο

Τιμή P: Εδώ, η τιμή P είναι 1,86881E-07, η οποία είναι πολύ μικρότερη από .1, που σημαίνει ότι το IQ έχει σημαντικές προγνωστικές τιμές.

Παράδειγμα # 5

Τώρα ας κάνουμε μια ανάλυση παλινδρόμησης για πολλαπλές ανεξάρτητες μεταβλητές:

Πρέπει να προβλέψετε τις πωλήσεις ενός κινητού που πρόκειται να ξεκινήσει τον επόμενο χρόνο. Έχετε την τιμή και τον πληθυσμό των χωρών που επηρεάζουν τις πωλήσεις κινητών.

Έκδοση για κινητά Εκπτώσεις Ποσότητα Πληθυσμός
ΜΑΣ 63860 858 823
Ηνωμένο Βασίλειο 61841 877 660
ΚΖ 60876 873 631
Χ.Χ. 58188 726 842
ΗΝ 52728 864 573
ΑΥ 52388 680 809
ΝΖ 51075 728 661
RU 49019 689 778

Ακολουθήστε τα παρακάτω βήματα για να λάβετε το αποτέλεσμα παλινδρόμησης.

Βήμα 1. Πρώτα, μάθετε τις εξαρτώμενες και ανεξάρτητες μεταβλητές. Εδώ οι πωλήσεις εξαρτώνται μεταβλητή και ποσότητα και πληθυσμός Και οι δύο είναι ανεξάρτητες μεταβλητές καθώς οι Πωλήσεις ποικίλλουν ανάλογα με την ποσότητα και τον πληθυσμό της χώρας.

Βήμα 2. Μεταβείτε στην καρτέλα δεδομένων - Κάντε κλικ στην Ανάλυση δεδομένων - Επιλέξτε παλινδρόμηση - κάντε κλικ στο Ok.

Αυτό θα ανοίξει το παράθυρο Regression για εσάς.

Βήμα 3. Πωλήσεις εισόδου στο πλαίσιο εισαγωγής Y Range και επιλέξτε ποσότητα και πληθυσμό στο Input X Range Box. (Ελέγξτε τις Ετικέτες εάν έχετε κεφαλίδες στο εύρος δεδομένων σας. Επιλέξτε επιλογές εξόδου και, στη συνέχεια, ελέγξτε τα επιθυμητά υπολείμματα. Κάντε κλικ στο Ok.

Τώρα εκτελέστε την παλινδρόμηση χρησιμοποιώντας ανάλυση δεδομένων στην καρτέλα δεδομένων. Αυτό θα σας δώσει το παρακάτω αποτέλεσμα.

Συνοπτική παραγωγή

Multiple R: Εδώ, ο συντελεστής συσχέτισης είναι 0,93, ο οποίος είναι πολύ κοντά στο 1, που σημαίνει ότι η γραμμική σχέση είναι πολύ θετική.

R Square: Η τιμή R Square είναι 0,886, πράγμα που σημαίνει ότι το 86,7% των τιμών ταιριάζει στο μοντέλο.

Σημασία F: Η σημασία F είναι μικρότερη από 0,1, πράγμα που σημαίνει ότι η εξίσωση παλινδρόμησης έχει σημαντική προγνωστική τιμή.

P-Value : Αν κοιτάξετε την τιμή P για την ποσότητα και τον πληθυσμό, μπορείτε να δείτε ότι οι τιμές είναι μικρότερες από 0,1, που σημαίνει ότι η ποσότητα και ο πληθυσμός έχουν σημαντική προγνωστική τιμή. Οι λιγότερες τιμές P σημαίνουν ότι μια μεταβλητή έχει πιο σημαντικές προγνωστικές τιμές.

Ωστόσο, τόσο η ποσότητα όσο και ο πληθυσμός έχουν σημαντική προγνωστική αξία, αλλά αν κοιτάξετε την τιμή P για την ποσότητα και τον πληθυσμό, από ό, τι μπορείτε να δείτε ότι η ποσότητα έχει μικρότερη τιμή P στο excel από τον πληθυσμό. Αυτό σημαίνει ότι η ποσότητα έχει μια πιο σημαντική προγνωστική αξία από τον πληθυσμό

Πράγματα που πρέπει να θυμάστε

  • Ελέγχετε πάντα τις εξαρτώμενες και ανεξάρτητες μεταβλητές όποτε επιλέγετε δεδομένα.
  • Η ανάλυση γραμμικής παλινδρόμησης εξετάζει τη σχέση μεταξύ του μέσου όρου των μεταβλητών.
  • Αυτό μοντελοποιεί μόνο τη σχέση μεταξύ των μεταβλητών που είναι γραμμικές
  • Μερικές φορές δεν είναι η καλύτερη εφαρμογή για ένα πραγματικό πρόβλημα. Για παράδειγμα: (Ηλικία και οι μισθοί). Τις περισσότερες φορές, οι μισθοί αυξάνονται καθώς η ηλικία αυξάνεται. Ωστόσο, μετά τη συνταξιοδότηση, η ηλικία αυξάνεται, αλλά οι μισθοί μειώνονται.

ενδιαφέροντα άρθρα...