October 28, 2025
آیا تا به حال به مجموعهای از دادههای خام خیره شدهاید، بدون اینکه بدانید از کجا شروع کنید؟ یا اینکه تعجب کردهاید که چگونه دادههای طبقهبندیشده در گزارشهای آماری محاسبه شدهاند؟ در دنیای تحلیل دادهها، ارائه دادهها بسیار مهم است. دادههای خام و پردازشنشده، دادههای طبقهبندینشده نامیده میشوند، در حالی که دادههای طبقهبندیشده و خلاصهشده، دادههای دستهبندیشده نامیده میشوند. این مقاله به بررسی این مفاهیم، تفاوتهای آنها و ارائه یک مثال عملی از تخمین میانگین از دادههای دستهبندیشده برای افزایش درک شما از کاربردهای آماری میپردازد.
دادههای طبقهبندینشده، همانطور که از نامش پیداست، دادههای خامی هستند که سازماندهی یا طبقهبندی نشدهاند. این دادهها مستقیماً از آزمایشها، نظرسنجیها یا سایر فرآیندهای جمعآوری دادهها در اصلیترین شکل خود به دست میآیند. یک برگه کاغذ خالی را تصور کنید که اعداد یا مشاهدات فردی روی آن ثبت شده است. به عنوان مثال، اگر نمرات آزمون 10 دانشآموز را ثبت کنید: 75، 82، 90، 68، 88، 72، 95، 80، 78، 85، این یک مجموعه از دادههای طبقهبندینشده خواهد بود. ویژگیهای آن عبارتند از:
مزیت دادههای طبقهبندینشده در اطلاعات جامع آن نهفته است که امکان تجزیه و تحلیل دقیق را فراهم میکند. با این حال، با مجموعهدادههای بزرگ، دادههای طبقهبندینشده مدیریت و تجزیه و تحلیل آن دشوار میشود. به عنوان مثال، تجزیه و تحلیل مستقیم نمرات آزمون 10000 دانشآموز زمانبر و مستعد خطا خواهد بود.
برای رفع چالشهای مربوط به مدیریت حجم زیادی از دادههای طبقهبندینشده، دادههای دستهبندیشده معرفی شدند. دادههای دستهبندیشده، دادههای خام را در دستههای مجزا (که کلاس یا بازه نیز نامیده میشوند) سازماندهی کرده و تعداد نقاط داده را در هر دسته شمارش میکنند. این ارائه معمولاً با استفاده از هیستوگرامها یا جداول توزیع فراوانی تجسم میشود. به عنوان مثال، نمرات آزمون 10 دانشآموز ذکر شده در بالا را میتوان به صورت زیر دستهبندی کرد:
| محدوده نمره | تعداد دانشآموزان (فراوانی) |
|---|---|
| 60-69 | 1 |
| 70-79 | 3 |
| 80-89 | 4 |
| 90-99 | 2 |
این یک نمونه از دادههای دستهبندیشده است. ویژگیهای آن عبارتند از:
دادههای دستهبندیشده، تجزیه و تحلیل مجموعهدادههای بزرگ را ساده میکند و یک نمای کلی سریع از توزیع دادهها ارائه میدهد. با این حال، به دلیل از دست رفتن اطلاعات، نمیتواند از تجزیه و تحلیلهای دقیق خاصی مانند محاسبه واریانس دقیق دادههای اصلی پشتیبانی کند. علاوه بر این، انتخاب محدودههای بازه میتواند بر نتایج تجزیه و تحلیل تأثیر بگذارد.
| ویژگی | دادههای طبقهبندینشده | دادههای دستهبندیشده |
|---|---|---|
| منبع | دادههای خام | دادههای پردازششده و طبقهبندیشده |
| فرم | مقادیر یا مشاهدات فردی | دستهها با شمارش فراوانی |
| اطلاعات | دادههای اصلی کامل | از دست رفتن جزئی دادههای اصلی |
| موارد استفاده | مجموعهدادههای کوچک که نیاز به تجزیه و تحلیل دقیق دارند | مجموعهدادههای بزرگ که نیاز به بینشهای توزیع سریع دارند |
| مزایا | اطلاعات کامل برای تجزیه و تحلیل دقیق | تجزیه و تحلیل را ساده میکند و الگوهای توزیع را نشان میدهد |
| معایب | مدیریت آن با مجموعهدادههای بزرگ دشوار است | فاقد دقت برای تجزیه و تحلیلهای خاص است |
از آنجایی که دادههای دستهبندیشده فاقد جزئیات دادههای اصلی هستند، نمیتوانیم میانگین دقیق را مستقیماً محاسبه کنیم. با این حال، میتوانیم آن را با استفاده از روشهایی مانند رویکرد نقطه میانی تخمین بزنیم، جایی که نقطه میانی هر بازه نشاندهنده مقادیر موجود در آن گروه است. فرمول این میانگین وزنی به شرح زیر است:
که در آن:
جدول توزیع فراوانی نمرات آزمون دانشآموزان زیر را در نظر بگیرید:
| محدوده نمره | فراوانی (f) |
|---|---|
| بین 5 و 10 | 1 |
| 10 ≤ t < 15 | 4 |
| 15 ≤ t < 20 | 6 |
| 20 ≤ t < 25 | 4 |
| 25 ≤ t < 30 | 2 |
| 30 ≤ t < 35 | 3 |
| مجموع | 20 |
مرحله 1: یافتن نقاط میانی (x)
| محدوده نمره | فراوانی (f) | نقطه میانی (x) |
|---|---|---|
| بین 5 و 10 | 1 | 7.5 |
| 10 ≤ t < 15 | 4 | 12.5 |
| 15 ≤ t < 20 | 6 | 17.5 |
| 20 ≤ t < 25 | 4 | 22.5 |
| 25 ≤ t < 30 | 2 | 27.5 |
| 30 ≤ t < 35 | 3 | 32.5 |
| مجموع | 20 |
مرحله 2: محاسبه فراوانی × نقطه میانی (f × x)
| محدوده نمره | فراوانی (f) | نقطه میانی (x) | فراوانی × نقطه میانی (f × x) |
|---|---|---|---|
| بین 5 و 10 | 1 | 7.5 | 7.5 |
| 10 ≤ t < 15 | 4 | 12.5 | 50 |
| 15 ≤ t < 20 | 6 | 17.5 | 105 |
| 20 ≤ t < 25 | 4 | 22.5 | 90 |
| 25 ≤ t < 30 | 2 | 27.5 | 55 |
| 30 ≤ t < 35 | 3 | 32.5 | 97.5 |
| مجموع | 20 | 405 |
مرحله 3: محاسبه میانگین
بنابراین، میانگین تخمینی این دادههای دستهبندیشده 20.25 است.
دادههای دستهبندیشده و طبقهبندینشده برای تجزیه و تحلیل آماری اساسی هستند. دادههای طبقهبندینشده اطلاعات کاملی را برای تجزیه و تحلیل دقیق ارائه میدهند، در حالی که دادههای دستهبندیشده مجموعهدادههای بزرگ را برای بینشهای توزیع سریع ساده میکنند. تخمین میانگین از دادههای دستهبندیشده شامل استفاده از نقاط میانی است، اما دقت به انتخاب بازه و نمایش نقطه میانی بستگی دارد. تسلط بر این مفاهیم و روشها، ابزار آماری شما را افزایش میدهد و شما را برای تجزیه و تحلیل دادههای پیشرفتهتر مجهز میکند.