Statistische parameters zijn numerieke waarden die belangrijke kenmerken van een dataset samenvatten en ons helpen de daarin gevonden informatie te begrijpen en te beschrijven. In eenvoudige bewoordingen kunnen we zeggen dat het ‘labels’ zijn waarmee we de gegevens beter kunnen begrijpen en op basis daarvan beslissingen kunnen nemen.
Met andere woorden: statistische parameters zijn speciale metingen die door wiskundigen en wetenschappers worden gebruikt om gegevens op een eenvoudige manier te beschrijven . Kortom, het zijn hulpmiddelen die ons helpen cijfers gemakkelijker en duidelijker te begrijpen.
Stel dat u een zak vol snoep heeft en u wilt weten hoeveel snoepjes er in totaal zijn. Dit is waar statistische parameters een rol spelen. Het gemiddelde is het gemiddelde aantal snoepjes , dat wordt verkregen door alle snoepjes bij elkaar op te tellen en te delen door het totale aantal. Zo krijg je een idee van het gemiddelde aantal snoepjes dat je kunt verwachten.
Maar er is meer: een andere belangrijke parameter is de standaardafwijking , die je helpt te begrijpen hoe ver de snoepjes van het gemiddelde afwijken . Het laat zien hoe verschillend de snoepjes zijn vergeleken met het gemiddelde aantal.
Wat interessant is, is dat statistische parameters ook kunnen worden gebruikt om voorspellingen te doen . Als u bijvoorbeeld wilt weten hoeveel snoepjes er na een week in de zak zitten, kunt u statistische parameters gebruiken om dit te schatten. Je berekent het gemiddelde aantal snoepjes dat je nu hebt en gebruikt de standaarddeviatie om een idee te krijgen hoe dat gemiddelde over een week verandert.
Welke soorten statistische parameters zijn er?
In de statistiek zijn er twee hoofdtypen parameters: centrale tendensparameters en spreidingsparameters.
Centrale tendensparameters
Centrale tendensparameters vertellen ons welke waarde typisch of representatief is in een dataset . Onder de centrale tendensparameters hebben we drie belangrijke maatstaven:
- Gemiddelde : Het gemiddelde is de verhoudingswaarde van de populatie (steekproef).
- Mediaan : aan de andere kant hebben we de mediaan waarvan de functie is om de steekproef in twee delen te verdelen, een bovenste en een onderste. In eenvoudige bewoordingen splitst het gegevens in tweeën.
- Modus : Ten slotte is de modus niets anders dan de meest voorkomende waarde in de steekproef.
We zullen een numeriek voorbeeld gebruiken om de parameters van de centrale tendens uit te leggen met behulp van het gemiddelde, de mediaan en de modus.
Stel dat je van een groep mensen de volgende leeftijden hebt: 25, 30, 32, 35, 40, 40, 42, 45, 50.
Het gemiddelde is de gemiddelde leeftijd . Om het te berekenen, tellen we alle leeftijden bij elkaar op en delen we deze door het totale aantal leeftijden. In dit geval tellen we 25 + 30 + 32 + 35 + 40 + 40 + 42 + 45 + 50 = 339 op en delen we dit door 9 (wat is het totale aantal leeftijden). Het gemiddelde is dan 339 ÷ 9 = 37,67 jaar.
De mediaan is de middelste waarde wanneer de leeftijden worden gerangschikt van klein naar groot. In dit geval zouden de geordende leeftijden zijn: 25, 30, 32, 35, 40, 40, 42, 45, 50. Omdat er een oneven aantal leeftijden is, zou de mediaan de waarde in de middelste positie zijn, namelijk 40 jaar.
De modus is de waarde die het vaakst voorkomt in de dataset . In dit geval is de modus 40 jaar, aangezien deze twee keer voorkomt, terwijl de andere leeftijden slechts één keer voorkomen.
Samenvattend is het gemiddelde dus 37,67 jaar, de mediaan 40 jaar en de modus ook 40 jaar.
Verspreidingsparameters
Aan de andere kant vertellen spreidingsparameters ons hoe verspreid of gevarieerd de gegevens in een set zijn . De meest voorkomende zijn variantie en standaarddeviatie.
Variantie
Variantie meet hoeveel de gegevens kunnen afwijken van het kwadraat . In dit geval moet u eerst het betreffende gemiddelde kwadrateren en vervolgens berekenen. Laten we naar het volgende voorbeeld kijken om de uitleg beter te begrijpen:
Stel dat je voor vijf leerlingen de volgende toetsscores hebt: 80, 85, 90, 95, 100. Eerst vinden we het gemiddelde door alle scores bij elkaar op te tellen en te delen door het totaal aantal leerlingen: ( 80 + 85 + 90 + 95 + 100) ÷ 5 = 90.
Om de variantie te berekenen, trekken we vervolgens het gemiddelde van elke beoordeling af en kwadrateren we de resultaten. Vervolgens middelen we de gekwadrateerde resultaten. In dit geval zouden de berekeningen zijn:
(80 – 90) 2 = 100
(85 – 90) 2 = 25
(90 – 90) 2 = 0
(95 – 90) 2 = 25
(100 – 90) 2 = 100
We tellen de resultaten op: 100 + 25 + 0 + 25 + 100 = 250. En dan delen we door het totale aantal datapunten (5) om het gemiddelde te krijgen: 250 ÷ 5 = 50.
De variantie is in dit geval dus 50 . Dit vertelt ons dat de scores gemiddeld 50 kwadratische eenheden afwijken van het gemiddelde, wat de spreiding of variabiliteit van de gegevens ten opzichte van het gemiddelde weergeeft.
Standaardafwijking
Zoals we eerder hebben bestudeerd, wordt de standaardafwijking eenvoudigweg gedefinieerd als het resultaat van de vierkantswortel van de variantie . Vermeldenswaard is dat dit type spreidingsparameter veel efficiënter is voor het maken van schattingen vergeleken met de gemiddelde afwijking bij een normale verdeling.
Laten we het vorige voorbeeld van testscores nemen: 80, 85, 90, 95, 100. We hebben de variantie al berekend en deze is 50. Om de standaarddeviatie te krijgen, nemen we eenvoudigweg de wortel van de variantie.
√50 ≈ 7,07
De standaarddeviatie bedraagt in dit geval dus ongeveer 7,07 . Dit vertelt ons dat de scores gemiddeld ongeveer 7,07 eenheden verwijderd zijn van het gemiddelde, maar in dezelfde meeteenheid liggen als de oorspronkelijke scores. Deze maatstaf is gemakkelijker te interpreteren en te vergelijken met de oorspronkelijke gegevens, omdat deze zich op dezelfde schaal bevindt.
kwantielen
Naast de bovenstaande metingen houden we ook rekening met dispersieparameters. De kwantielfunctie is de verdeling van monster n in equivalente secties . Hierdoor is het mogelijk om de bereiken te schatten waarin er een grotere concentratie van waarden is. Afhankelijk van de waarde van n worden kwantielen op verschillende manieren gedefinieerd.
- Decielen : zijn verantwoordelijk voor het verdelen van de dataset in tien gelijke secties.
- Kwartielen : Werkt hetzelfde als het vorige model, behalve dat de plaats van tien in vier secties is verdeeld.
- Percentielen – Ten slotte worden percentielen gebruikt om gegevens in een set in 100 identieke secties te verdelen.
Waar worden statistische parameters voor gebruikt?
Zoals we eerder vermeldden, zijn statistische parameters erg belangrijk en wordt het gebruik ervan vrij breed. Vervolgens presenteren we enkele van de belangrijkste toepassingen.
Economie
Statistische parameters worden gebruikt om economische indicatoren te analyseren, zoals onder meer het bbp, het werkloosheidspercentage en de inflatie . Deze parameters maken het mogelijk om de economische gezondheid van een land of regio te meten, trends te identificeren en voorspellingen te doen voor de besluitvorming over het economisch beleid.
Gezondheidswetenschappen
In dit geval worden ze gebruikt in klinische en epidemiologische onderzoeken om gezondheidsgegevens te analyseren , zoals onder meer de prevalentie van een ziekte, de effectiviteit van een behandeling en de impact van risicofactoren. Deze parameters zijn essentieel voor de besluitvorming bij de preventie, diagnose en behandeling van ziekten.
sociale wetenschappen
Aan de andere kant zijn statistische parameters nuttig in disciplines als onder meer psychologie, sociologie en onderwijs om gegevens over menselijk gedrag, attitudes en meningen te analyseren . Deze parameters maken het mogelijk informatie te verkrijgen en conclusies te trekken over de bestudeerde populatie.
Marketing en reclame
Naast bovenstaande zijn ze in de reclamewereld ook erg belangrijk. In dit geval worden ze gebruikt om marktgegevens te analyseren , zoals klantsegmentatie, analyse van consumentenvoorkeuren en -gedrag, evaluatie van reclamecampagnes, onder meer. Deze statistieken helpen bij het begrijpen en nemen van weloverwogen beslissingen in marketing- en advertentiestrategieën.
Wetenschappelijk onderzoek
Bovendien worden ze gebruikt in verschillende gebieden van wetenschappelijk onderzoek, zoals onder meer biologie, natuurkunde en scheikunde, om experimentele gegevens te analyseren, conclusies te trekken en resultaten te valideren . Deze parameters zijn essentieel voor de nauwkeurigheid en validiteit van wetenschappelijk onderzoek.
Financiën
Ze worden ook gebruikt om financiële gegevens te analyseren, zoals onder meer de winstgevendheid van een belegging, de volatiliteit van een actief en risicobeoordeling . Deze parameters worden gebruikt voor besluitvorming op het gebied van beleggingsbeheer, financiële planning en risicobeoordeling.
Engineering
Ten slotte zijn ze ideaal op verschillende gebieden van de techniek, zoals onder meer kwaliteitstechniek, procestechniek en systeemtechniek, om productie, kwaliteit, prestaties en procesoptimalisatie te analyseren. Deze parameters worden gebruikt voor continue verbetering en besluitvorming bij projectbeheer en systeemoptimalisatie.
Voorbeeld van statistische parameters
Gezien de bovenstaande informatie is het tijd om een voorbeeld te gebruiken om het geleerde beter te versterken. Laten we eens kijken.
1. Voorbeeld Gemiddeld (gemiddeld)
Stel dat u een lijst heeft met de scores van vijf leerlingen op een wiskundetoets: 7, 8, 9, 6 en 10. Om het gemiddelde te vinden, tellen we alle scores bij elkaar op en delen we deze door het aantal leerlingen:
7 + 8 + 9 + 6 + 10 = 40
Gemiddeld = 40 ÷ 5 = 8
Het gemiddelde of gemiddelde cijfer van deze 5 studenten is dan ook een 8.
2. Mediaanvoorbeeld
Stel dat u een lijst met leeftijden heeft voor een groep van zeven personen: 12, 14, 15, 13, 12, 16 en 18. Om de mediaan te vinden, ordenen we de leeftijden eerst in oplopende volgorde: 12, 12, 13, 14, 15, 16, 18
Vervolgens vinden we de mediaanwaarde van de lijst, die in dit geval 14 jaar bedraagt. De gemiddelde leeftijd van deze groep mensen is dus 14 jaar.
3. Modevoorbeeld
Laten we zeggen dat je een lijst hebt met shirtkleuren die door een groep van tien mensen worden gedragen: rood, blauw, groen, rood, geel, blauw, groen, groen, rood, blauw. De modus is de waarde die het vaakst in de lijst voorkomt. In dit geval verschijnt de groene kleur 3 keer, terwijl andere kleuren slechts 2 keer of minder voorkomen. Daarom is de mode voor t-shirtkleuren groen.
4. Voorbeeld van percentielen
Stel dat je een dataset hebt die de lengtes in centimeters weergeeft van een groep van twintig middelbare scholieren. U wilt het 75e percentiel vinden, wat de waarde is waaronder 75% van de hoogten valt. Na het sorteren van de gegevens ziet u dat de waarde die overeenkomt met het 75e percentiel 168 cm is. Dit betekent dat 75% van de studenten 168 cm of minder is.
5. Voorbeeld van afwijking
Stel dat u een gegevensset heeft die het aantal uren weergeeft dat een groep van tien leerlingen elke dag voor een toets studeert. De gegevens zijn: 2, 3, 4, 2, 5, 3, 4, 1, 2, 3. Om de variantie te vinden, moet u eerst het gemiddelde vinden, dat is 2,7 uur. Vervolgens trekt u van elke waarde het gemiddelde af, kwadrateert u dit en telt u alles bij elkaar op. Tenslotte deel je de som door het aantal datapunten:
((2-2,7) 2 + (3-2,7) 2 + (4-2,7) 2 + (2-2,7) 2 + (5-2,7) 2 + (3-2,7) 2 + (4-2,7) 2 + (1-2,7) 2 + (2-2,7) 2 + ( 3-2,7 ) 2 ) ÷ 10 = 1,61
De variantie in studie-uren voor deze groep studenten is dus 1,61.
6. Voorbeeld Standaardafwijking
Als u verder wilt gaan met het vorige voorbeeld, neemt u, om de standaarddeviatie te vinden, eenvoudigweg de vierkantswortel van de variantie:
√1,61 ≈ 1,27
De standaardafwijking van studie-uren voor deze groep studenten bedraagt daarmee circa 1,27 uur.