Τύπος Outlier - Βήμα προς βήμα Υπολογισμός του Outlier (με Παράδειγμα)

Πίνακας περιεχομένων

Ο τύπος Outlier παρέχει ένα γραφικό εργαλείο για τον υπολογισμό των δεδομένων που βρίσκονται έξω από το δεδομένο σύνολο διανομής που μπορεί να είναι εσωτερική ή εξωτερική πλευρά ανάλογα με τις μεταβλητές.

Τι είναι ο τύπος Outlier;

Ένα ακραίο σημείο είναι το σημείο δεδομένων του δεδομένου δείγματος ή μιας δεδομένης παρατήρησης ή σε μια κατανομή που βρίσκεται εκτός του συνολικού προτύπου. Ένας κανόνας που χρησιμοποιείται συνήθως, ο οποίος λέει ότι ένα σημείο δεδομένων θα θεωρείται εξωγενές εάν έχει περισσότερα από 1,5 IQR κάτω από το πρώτο τεταρτημόριο ή πάνω από το τρίτο τεταρτημόριο.

Με διαφορετικό τρόπο, τα χαμηλά ακραία σημεία βρίσκονται κάτω από το Q1-1.5 IQR και τα υψηλά ακραία σημεία βρίσκονται στο Q3 + 1.5IQR

Κάποιος πρέπει να υπολογίσει τη διάμεση τιμή, τα τεταρτημόρια, συμπεριλαμβανομένων των IQR, Q1 και Q3.

Ο τελικός τύπος παρουσιάζεται ως εξής,

Ο τύπος για Q1 = ¼ (n + 1) th όρος  Ο τύπος για Q3 = ¾ (n + 1) th όρος  Ο τύπος για Q2 = Q3 - Q1

Βήμα προς βήμα Υπολογισμός του Outlier

Τα παρακάτω βήματα πρέπει να ακολουθηθούν για τον υπολογισμό του Outlier.

  • Βήμα 1: Πρώτα υπολογίστε τα τεταρτημόρια, δηλαδή Q1, Q2 και interquartile
  • Βήμα 2: Τώρα υπολογίστε την τιμή Q2 * 1.5
  • Βήμα 3: Τώρα αφαιρέστε την τιμή Q1 από την τιμή που υπολογίστηκε στο Βήμα 2
  • Βήμα 4: Εδώ προσθέστε το Q3 με την τιμή που υπολογίζεται στο βήμα 2
  • Βήμα 5: Δημιουργήστε το εύρος των τιμών που υπολογίζονται στα Step3 και Step4
  • Βήμα 6: Τακτοποιήστε τα δεδομένα σε αύξουσα σειρά
  • Βήμα 7: Ελέγξτε αν υπάρχουν τιμές που βρίσκονται κάτω ή υψηλότερες από το εύρος που δημιουργήθηκε στο Βήμα 5.

Παράδειγμα

Εξετάστε ένα σύνολο δεδομένων των ακόλουθων αριθμών: 10, 2, 4, 7, 8, 5, 11, 3, 12. Πρέπει να υπολογίσετε όλα τα Outliers.

Λύση:

Πρώτον, πρέπει να τακτοποιήσουμε δεδομένα σε αύξουσα σειρά για να βρούμε τη διάμεση τιμή, η οποία θα είναι Q2 για εμάς.

2, 3, 4, 5, 7, 8, 10, 11, 12

Τώρα, καθώς ο αριθμός των παρατηρήσεων είναι περίεργος, δηλαδή 9, ο διάμεσος θα βρίσκεται στην θέση, που είναι 7, και το ίδιο θα είναι το Q2 για αυτό το παράδειγμα.

Επομένως, ο υπολογισμός του Q1 έχει ως εξής -

Q1 = ¼ (9 + 1)

= ¼ (10)

Το Q1 θα είναι -

Q1 = 2,5 όρος

Αυτό σημαίνει ότι το Q1 είναι ο μέσος όρος του 2 ου και 3 rd θέση των παρατηρήσεων, η οποία είναι 3 & 4 εδώ, και κατά μέσο όρο το ίδιο (3 + 4) / 2 = 3,5

Επομένως, ο υπολογισμός του Q3 έχει ως εξής -

Q3 = ¾ (9 + 1)

= ¾ (10)

Το τρίτο τρίμηνο θα είναι -

Q3 = 7,5 όρος

Αυτό σημαίνει ότι το Q3 είναι ο μέσος όρος του 7 ου και 8 ου θέση των παρατηρήσεων, η οποία είναι 10 & 11 εδώ, και κατά μέσο όρο το ίδιο (10 + 11) / 2 = 10,5

Τώρα, τα χαμηλά ακραία σημεία βρίσκονται κάτω από το Q1-1.5IQR και τα υψηλά ακραία σημεία βρίσκονται στο Q3 + 1.5IQR

Έτσι, οι τιμές είναι 3,5 - (1,5 * 7) = -7 και το υψηλότερο εύρος είναι 10,5 + (1,5 * 7) = 110,25.

Δεδομένου ότι δεν υπάρχουν παρατηρήσεις που βρίσκονται πάνω ή κάτω από 110,25 και -7, δεν έχουμε ακραία σημεία σε αυτό το δείγμα.

Παράδειγμα τύπου Outlier στο Excel (με πρότυπο Excel)

Τα μαθήματα δημιουργικής καθοδήγησης σκέφτονται να επιβραβεύσουν τους μαθητές που είναι στην κορυφή του 25%. Ωστόσο, θέλουν να αποφύγουν τυχόν outliers Τα δεδομένα αφορούν τους 25 μαθητές. Χρησιμοποιήστε την εξίσωση Outlier για να εξακριβώσετε εάν υπάρχει outlier;

Λύση:

Παρακάτω δίνονται δεδομένα για τον υπολογισμό του outlier.

Ο αριθμός των παρατηρήσεων εδώ είναι 25 και το πρώτο μας βήμα θα ήταν η μετατροπή των παραπάνω ανεπεξέργαστων δεδομένων σε αύξουσα σειρά.

Ο διάμεσος θα είναι -

Η διάμεση τιμή = ½ (n + 1)

= ½ = ½ (26)

= 13 ος όρος

Το Q2 ή η μέση τιμή είναι 68,00

Ποιο είναι το 50% του πληθυσμού.

Το Q1 θα είναι -

Q1 = ¼ (n + 1) όρος

= ¼ (25 + 1)

= ¼ (26)

= 6,5 ο όρος, που ισοδυναμεί με τον 7 ο όρο

Το Q1 είναι 56,00, το οποίο είναι κάτω 25%

Το τρίτο τρίμηνο θα είναι -

Τέλος, Q3 = ¾ (n + 1) όρος

= ¾ (26)

= 19.50 όρος

Εδώ χρειάζεται ο μέσος που πρέπει να ληφθούν, το οποίο είναι από 19 ου και 20 ου όρους που είναι 77 και 77 και ο μέσος όρος της ίδιας είναι (77 + 77) / 2 = 77,00

Το Q3 είναι 77, το οποίο είναι το κορυφαίο 25%

Χαμηλό εύρος

Τώρα, τα χαμηλά ακραία σημεία βρίσκονται κάτω από το Q1-1.5IQR και τα υψηλά ακραία σημεία βρίσκονται στο Q3 + 1.5IQR

Υψηλή εμβέλεια -

Έτσι, οι τιμές είναι 56 - (1,5 * 68) = -46 και το υψηλότερο εύρος είναι 77 + (1,5 * 68) = 179.

Δεν υπάρχουν ακραίες τιμές.

Συνάφεια και χρήσεις

Η φόρμουλα Outliers είναι πολύ σημαντικό να γνωρίζουμε, καθώς θα μπορούσαν να υπάρχουν δεδομένα που θα αποκλίνουν από τέτοια αξία. Πάρτε ένα παράδειγμα των παρατηρήσεων 2, 4, 6, 101, και τώρα εάν κάποιος λάβει έναν μέσο όρο από αυτές τις τιμές, θα είναι 28,25, αλλά το 75% των παρατηρήσεων βρίσκονται κάτω από το 7, και ως εκ τούτου θα ήταν μια λανθασμένη απόφαση σχετικά με τις παρατηρήσεις αυτό το δείγμα.

Μπορεί να παρατηρηθεί εδώ ότι το 101 φαίνεται σαφώς να σκιαγραφεί, και αν αυτό αφαιρεθεί, τότε ο μέσος όρος θα είναι 4, πράγμα που λέει για τις τιμές ή τις παρατηρήσεις που βρίσκονται εντός του εύρους των 4. Ως εκ τούτου, είναι πολύ σημαντικό να γίνει υπολογισμός για να αποφευχθεί οποιαδήποτε κακή χρήση οδηγών πληροφοριών των δεδομένων. Αυτά χρησιμοποιούνται ευρέως από στατιστικολόγους σε όλο τον κόσμο όποτε πραγματοποιούν οποιαδήποτε έρευνα.

ενδιαφέροντα άρθρα...