Heeft u vragen? U kunt ons ook bellen op tel: 0318-695315

Handboek Verkeersveiligheid
Deze tekst is gepubliceerd op 21-06-13

Beschrijven van losse gegevens (een variabele tegelijk)

Vaak wil men de gemeten waarden op een variabele samenvatten. De bekendste samenvatter is het gemiddelde. In de vorige paragraaf is reeds aangegeven dat niet voor alle typen variabelen een gemiddelde waarde mag worden berekend. Andere samenvatters of centrummaten zijn de modus en de mediaan.
De waarden van nominale variabelen kunnen alleen worden samengevat aan de hand van de modus. Dit is de meest voorkomende waarde of categorie, dus de waarde met de hoogste frequentie. Stel dat bij metingen een variabele ‘voertuigtype’ is gebruikt. De waarden voor deze variabele kunnen variëren van 1 t/m 5, waarbij elke waarde gelijk staat aan een voertuigtype. Er zijn acht voertuigen gescoord en dit heeft de volgende reeks getallen opgeleverd: 1, 2, 2, 2, 3, 4, 4, 5. De modus is dan gelijk aan 2 (zie tabel 4.2 voor meer rekenvoorbeelden). Voor ordinale variabelen kan naast de modus ook de mediaan worden uitgerekend. Daarvoor worden eerst alle waarden van laag naar hoog geplaatst, waarna de middelste waarde wordt bepaald. Bij een even aantal getallen, zoals in de bovenstaande getallenreeks, is er geen middelste waarde. In een dergelijk geval is de mediaan het gemiddelde van de twee middelste waarden, hier dus 2,5.
Tabel 4.2. Overzicht van centrummaten per meetniveau
Modus Mediaan Gemiddelde
Nominaal
(voertuigtype: 1=fiets, 2=bromfiets, 3=auto)
1, 1, 1, 2, 2, 3, 3, 3, 3, 3
3 Niet zinvol Niet zinvol
Ordinaal
(jaarkm: 1= <10.000 2=10.000 – 14.999 3 = 15.000 – 19.999)
1, 1, 1, 2, 2, 2, 3, 3, 3, 3
3 2 Niet zinvol
Interval
(aantal bekeuringen)
1, 1, 1, 1, 1, 2, 2, 2, 3, 3
1 1,5 1,7
Voor interval- en ratio-variabelen kunnen zowel de modus, de mediaan als de gemiddelde waarde worden uitgerekend. Er zijn twee soorten gemiddelden: het rekenkundig gemiddelde en het gewogen gemiddelde. Het rekenkundig gemiddelde is het bekendst. Deze waarde wordt berekend door alle gemeten waarden bij elkaar op te tellen en te delen door het aantal gemeten waarden. De gemiddelde leeftijd van een groep van zes rijschoolleerlingen is bijvoorbeeld (18 + 18 + 18 + 18 + 19 + 20): 6 = 18,5.
Deze maat wordt meestal aangeduid met M of µ.
Het gewogen gemiddelde wordt berekend als de gegevens van twee steekproeven worden samengevat, maar de steekproeven zijn niet even groot. Stel dat er een tweede groep rijschoolleerlingen is van vier leerlingen met een gemiddelde leeftijd van 19,5 jaar. De gewogen gemiddelde leeftijd van deze twee groepen is dan niet (18,5 + 19,5): 2 = 19. De eerste groep is namelijk groter en daarom moet de gemiddelde waarde van die groep zwaarder meetellen. Dit wordt gedaan door per groep het gemiddelde te vermenigvuldigen met de groepsgrootte: 18,5 3 6 = 111 en 19,5 3 4 = 78. Vervolgens wordt de som van deze getallen gedeeld door de groepsgrootte van de totale groep die ontstaat als beide steekproeven samen worden genomen:
(111+ 78): (6 + 4) = 189: 10 = 18,9.
Voor variabelen van interval of ratio-niveau kan ook worden nagegaan wat de spreiding is van de waarden: hebben alle ongeveer dezelfde waarde of zijn er grote verschillen. Hiervoor wordt meestal de standaarddeviatie ofwel standaardafwijking gebruikt. Deze maat wordt meestal aangeduid met s, sd of σ. Hoe groter de standaardafwijking, des te groter zijn de onderlinge verschillen en des te minder waarden zijn gelijk aan het gemiddelde. Met andere woorden: de gemeten waarden zijn homogener naarmate de standaardafwijking kleiner is. Een andere maat die gebruikt wordt voor het bepalen van de spreiding is de variantie; dit is het kwadraat van de standaarddeviatie.
Met behulp van de standaardafwijking en het rekenkundig gemiddelde kan worden bepaald wanneer een losse waarde als extreem beschouwd kan worden. In de sociale wetenschappen gaat men vaak uit van een normale verdeling van de waarden op een variabele.
Bij een normale verdeling ligt ruim 68% van alle gemeten waarden tussen het gemiddelde plus en min een standaardafwijking. Verder geldt voor een normale verdeling dat 95% van de gemeten waarden ongeveer binnen tweemaal de standaardafwijking van het gemiddelde ligt. Om precies te zijn: 95% van de waarden ligt binnen µ ± 1.96σ. Figuur 4.1 toont een aantal voorbeelden van normale verdelingen. De verschillen tussen deze verdelingen worden bepaald door het gemiddelde (µ) en de standaardafwijking (σ).
Om te weten of er sprake is van een normale verdeling, kunnen de centrummaten worden vergeleken. Bij een zuivere normale verdeling hebben het rekenkundig gemiddelde, de modus en de mediaan van een reeks getallen dezelfde waarde. Als deze centrummaten van elkaar verschillen, is er dus een andersoortige verdeling. Deze heeft volgens de terminologie een afwijkende scheefheid en/of gepiektheid (kurtosis).
Een voorbeeld van een afwijkende verdeling is een rechtsscheve verdeling. Hierbij is de modus kleiner dan de mediaan en deze beide zijn kleiner dan het rekenkundig gemiddelde. De top van de curve zit dan niet in het midden, maar aan de linkerkant. Tegelijkertijd is er sprake van een grotere staart aan de rechterkant van de curve. Bij een linksscheve verdeling is de modus groter dan de mediaan en deze beide zijn groter dan het rekenkundig gemiddelde. In dat geval zit de top van de curve aan de rechterkant van de verdeling en is er aan de linkerkant van de curve een onevenredig grote (of lange) staart.
De eigenschappen van een normale verdeling kunnen worden gebruikt om te bepalen of een bepaalde waarde als extreem kan worden beschouwd. Een waarde die verder afwijkt van het gemiddelde dan 1,96 3 de standaardafwijking is extreem. Een dergelijke waarde komt slechts in 5% van de waarnemingen voor. Stel dat van een groep automobilisten een rijtest is afgenomen en de gemiddelde score op die test is 110 en de standaardafwijking is 20. Dan ligt 95% van de scores tussen 110 − 1,96 3 20 = 70,8 en 110 + 1,96 3 20 = 149,2. Scores die daarbuiten liggen zijn relatief zeldzaam. Slechts 2,5% van de automobilisten zal een score hebben die lager ligt dan 70,8 en eveneens slechts 2,5% van de automobilisten zal een score hebben die hoger ligt dan 149,2. Een nieuwe score van 60 komt dus waarschijnlijk niet uit dezelfde groep. Gezegd wordt dan dat een dergelijke score significant afwijkt.
[ link ]

Figuur 4.1. Enkele voorbeelden van normale verdelingen

Wat als extreem wordt beschouwd bij de normale verdeling wordt ook bij andere fenomenen in de statistiek als extreem beschouwd. Bijvoorbeeld bij het toetsen van de verschillen tussen twee groepen (rijschoolleerlingen of provincies). Is het op basis van hun prestaties (op een rijtest of in termen van ongevalsrisico) aannemelijk dat ze gelijk zijn, of doet de ene groep het beter dan de andere en zijn ze dus verschillend? In de statistiek wordt vaak gezegd dat een verschil significant is als de kans dat een dergelijk verschil bij toeval optreedt (terwijl de groepen eigenlijk gelijk zijn), kleiner is dan 5%. Of de groepen verschillen is dus niet 100% zeker, maar een foutenkans van 5% wordt geaccepteerd. In 5% van de gevallen zal worden gezegd dat de groepen verschillen terwijl dat in werkelijkheid niet zo is. Als de kans op fouten nog kleiner moet zijn, dan wordt een significantieniveau aangehouden van 1%. De grenswaarden liggen dan bij µ ± 2.58σ. Het significantieniveau geeft dus de kans aan dat iets voor waar wordt aangenomen terwijl dat in werkelijkheid niet zo is.
Als een resultaat statistisch significant is, hoeft dit niet automatisch te betekenen dat het resultaat ook praktisch van belang is. Significant moet dus niet worden verward met belangrijk. Of een bepaald resultaat significant is, hangt sterk samen met de steekproefgrootte. Hoe groter de steekproef, des te eerder een resultaat significant is. Bij grote steekproeven kunnen verschillen die geen wezenlijke betekenis hebben toch significant zijn. Moet bijvoorbeeld waarde worden gehecht aan een afname van het gordeldraagpercentage van 0,2% wanneer dit gemeten is in een steekproef van 100.000 automobilisten? Significant betekent alleen dat een resultaat niet op toeval berust. Of men aan een significant verschil altijd praktische consequenties moet verbinden (bijvoorbeeld een campagne opzetten over het belang van het dragen van een gordel), is maar de vraag [4.19].