October 28, 2025
Heb je ooit naar een verzameling ruwe gegevens gestaard, en niet wist waar je moest beginnen? Of je afgevraagd hoe de netjes gecategoriseerde gegevens in statistische rapporten werden berekend? In de wereld van data-analyse is de presentatie van gegevens cruciaal. Ruwe, onbewerkte gegevens worden ongegroepeerde gegevens genoemd, terwijl gecategoriseerde en samengevatte gegevens gegroepeerde gegevens worden genoemd. Dit artikel onderzoekt deze concepten, hun verschillen en geeft een praktisch voorbeeld van het schatten van het gemiddelde uit gegroepeerde gegevens om je begrip van statistische toepassingen te verbeteren.
Ongegroepeerde gegevens zijn, zoals de naam al aangeeft, ruwe gegevens die niet zijn georganiseerd of gecategoriseerd. Ze komen rechtstreeks uit experimenten, enquêtes of andere gegevensverzamelingsprocessen in hun meest originele vorm. Stel je een blanco vel papier voor met individuele getallen of waarnemingen erop. Als je bijvoorbeeld de testscores van 10 studenten registreerde: 75, 82, 90, 68, 88, 72, 95, 80, 78, 85, zou dit een reeks ongegroepeerde gegevens zijn. De kenmerken zijn onder meer:
Het voordeel van ongegroepeerde gegevens ligt in de uitgebreide informatie, waardoor gedetailleerde analyse mogelijk is. Met grote datasets worden ongegroepeerde gegevens echter omslachtig om te beheren en te analyseren. Het direct analyseren van de testscores van 10.000 studenten zou bijvoorbeeld tijdrovend zijn en foutgevoelig.
Om de uitdagingen van het verwerken van grote hoeveelheden ongegroepeerde gegevens aan te pakken, werden gegroepeerde gegevens geïntroduceerd. Gegroepeerde gegevens organiseren ruwe gegevens in afzonderlijke categorieën (ook wel klassen of intervallen genoemd) en tellen het aantal datapunten binnen elke categorie. Deze presentatie wordt meestal gevisualiseerd met behulp van histogrammen of frequentieverdelingstabellen. De testscores van de 10 eerder genoemde studenten kunnen bijvoorbeeld als volgt worden gegroepeerd:
| Scorebereik | Aantal studenten (frequentie) |
|---|---|
| 60-69 | 1 |
| 70-79 | 3 |
| 80-89 | 4 |
| 90-99 | 2 |
Dit is een voorbeeld van gegroepeerde gegevens. De kenmerken zijn onder meer:
Gegroepeerde gegevens vereenvoudigen de analyse van grote datasets en bieden een snel overzicht van de gegevensverdeling. Vanwege informatieverlies kan het echter geen bepaalde gedetailleerde analyses ondersteunen, zoals het berekenen van de exacte variantie van de originele gegevens. Bovendien kan de keuze van intervalbereiken de analyse-uitkomsten beïnvloeden.
| Kenmerk | Ongegroepeerde gegevens | Gegroepeerde gegevens |
|---|---|---|
| Bron | Ruwe gegevens | Verwerkte en gecategoriseerde gegevens |
| Vorm | Individuele waarden of waarnemingen | Categorieën met frequentietellingen |
| Informatie | Volledige originele gegevens | Gedeeltelijk verlies van originele gegevens |
| Gebruiksscenario | Kleine datasets die gedetailleerde analyse vereisen | Grote datasets die snelle inzichten in de verdeling nodig hebben |
| Voordelen | Volledige informatie voor precieze analyse | Vereenvoudigt de analyse en onthult verdelingspatronen |
| Nadelen | Moeilijk te beheren met grote datasets | Mist precisie voor bepaalde analyses |
Omdat gegroepeerde gegevens geen originele gegevensdetails bevatten, kunnen we het exacte gemiddelde niet direct berekenen. We kunnen het echter schatten met behulp van methoden zoals de midpoint-benadering, waarbij het midden van elk interval de waarden binnen die groep vertegenwoordigt. De formule voor dit gewogen gemiddelde is:
Waar:
Beschouw de volgende frequentieverdelingstabel van testscores van studenten:
| Scorebereik | Frequentie (f) |
|---|---|
| Tussen 5 en 10 | 1 |
| 10 ≤ t < 15 | 4 |
| 15 ≤ t < 20 | 6 |
| 20 ≤ t < 25 | 4 |
| 25 ≤ t < 30 | 2 |
| 30 ≤ t < 35 | 3 |
| TOTALEN | 20 |
Stap 1: Vind middens (x)
| Scorebereik | Frequentie (f) | Midden (x) |
|---|---|---|
| Tussen 5 en 10 | 1 | 7.5 |
| 10 ≤ t < 15 | 4 | 12.5 |
| 15 ≤ t < 20 | 6 | 17.5 |
| 20 ≤ t < 25 | 4 | 22.5 |
| 25 ≤ t < 30 | 2 | 27.5 |
| 30 ≤ t < 35 | 3 | 32.5 |
| TOTALEN | 20 |
Stap 2: Bereken frequentie × midden (f × x)
| Scorebereik | Frequentie (f) | Midden (x) | Frequentie × Midden (f × x) |
|---|---|---|---|
| Tussen 5 en 10 | 1 | 7.5 | 7.5 |
| 10 ≤ t < 15 | 4 | 12.5 | 50 |
| 15 ≤ t < 20 | 6 | 17.5 | 105 |
| 20 ≤ t < 25 | 4 | 22.5 | 90 |
| 25 ≤ t < 30 | 2 | 27.5 | 55 |
| 30 ≤ t < 35 | 3 | 32.5 | 97.5 |
| TOTALEN | 20 | 405 |
Stap 3: Bereken het gemiddelde
Het geschatte gemiddelde van deze gegroepeerde gegevens is dus 20,25.
Gegroepeerde en ongegroepeerde gegevens zijn fundamenteel voor statistische analyse. Ongegroepeerde gegevens bieden volledige informatie voor gedetailleerde analyse, terwijl gegroepeerde gegevens grote datasets vereenvoudigen voor snelle inzichten in de verdeling. Het schatten van het gemiddelde uit gegroepeerde gegevens omvat het gebruik van middens, maar de nauwkeurigheid hangt af van de intervalkeuzes en de middenrepresentatie. Het beheersen van deze concepten en methoden verbetert je statistische toolkit en rust je uit voor meer geavanceerde data-analyse.