October 28, 2025
क्या आपने कभी कच्चे डेटा के संग्रह को घूरकर देखा है, यह सुनिश्चित नहीं है कि कहां से शुरू करें? या यह सोचा है कि सांख्यिकीय रिपोर्ट में सुव्यवस्थित डेटा की गणना कैसे की गई थी? डेटा विश्लेषण की दुनिया में, डेटा की प्रस्तुति महत्वपूर्ण है। कच्चे, असंसाधित डेटा को अवर्गीकृत डेटा कहा जाता है, जबकि वर्गीकृत और संक्षेपित डेटा को वर्गीकृत डेटा कहा जाता है। यह लेख इन अवधारणाओं, उनके अंतरों की पड़ताल करता है, और सांख्यिकीय अनुप्रयोगों की अपनी समझ को बढ़ाने के लिए वर्गीकृत डेटा से माध्य का अनुमान लगाने का एक व्यावहारिक उदाहरण प्रदान करता है।
अवर्गीकृत डेटा, जैसा कि नाम से पता चलता है, कच्चा डेटा है जिसे व्यवस्थित या वर्गीकृत नहीं किया गया है। यह सीधे प्रयोगों, सर्वेक्षणों, या अन्य डेटा संग्रह प्रक्रियाओं से अपनी सबसे मूल रूप में आता है। एक खाली कागज की कल्पना करें जिस पर व्यक्तिगत संख्याएँ या अवलोकन दर्ज किए गए हों। उदाहरण के लिए, यदि आपने 10 छात्रों के टेस्ट स्कोर रिकॉर्ड किए: 75, 82, 90, 68, 88, 72, 95, 80, 78, 85, तो यह अवर्गीकृत डेटा का एक सेट होगा। इसकी विशेषताओं में शामिल हैं:
अवर्गीकृत डेटा का लाभ इसकी व्यापक जानकारी में निहित है, जो विस्तृत विश्लेषण की अनुमति देता है। हालाँकि, बड़े डेटासेट के साथ, अवर्गीकृत डेटा का प्रबंधन और विश्लेषण करना बोझिल हो जाता है। उदाहरण के लिए, 10,000 छात्रों के टेस्ट स्कोर का सीधे विश्लेषण करना समय लेने वाला होगा और त्रुटियों की संभावना होगी।
अवर्गीकृत डेटा की बड़ी मात्रा को संभालने की चुनौतियों का समाधान करने के लिए, वर्गीकृत डेटा पेश किया गया था। वर्गीकृत डेटा कच्चे डेटा को अलग-अलग श्रेणियों (जिन्हें वर्ग या अंतराल भी कहा जाता है) में व्यवस्थित करता है और प्रत्येक श्रेणी के भीतर डेटा बिंदुओं की संख्या की गणना करता है। यह प्रस्तुति आमतौर पर हिस्टोग्राम या आवृत्ति वितरण तालिकाओं का उपयोग करके कल्पना की जाती है। उदाहरण के लिए, 10 छात्रों के टेस्ट स्कोर को इस प्रकार समूहीकृत किया जा सकता है:
| स्कोर रेंज | छात्रों की संख्या (आवृत्ति) |
|---|---|
| 60-69 | 1 |
| 70-79 | 3 |
| 80-89 | 4 |
| 90-99 | 2 |
यह वर्गीकृत डेटा का एक उदाहरण है। इसकी विशेषताओं में शामिल हैं:
वर्गीकृत डेटा बड़े डेटासेट के विश्लेषण को सरल करता है, जो डेटा वितरण का त्वरित अवलोकन प्रदान करता है। हालाँकि, जानकारी के नुकसान के कारण, यह कुछ विस्तृत विश्लेषणों का समर्थन नहीं कर सकता है, जैसे कि मूल डेटा के सटीक विचरण की गणना करना। इसके अतिरिक्त, अंतराल श्रेणियों का चुनाव विश्लेषण परिणामों को प्रभावित कर सकता है।
| फ़ीचर | अवर्गीकृत डेटा | वर्गीकृत डेटा |
|---|---|---|
| स्रोत | कच्चा डेटा | प्रसंस्कृत और वर्गीकृत डेटा |
| रूप | व्यक्तिगत मान या अवलोकन | आवृत्ति गणना के साथ श्रेणियाँ |
| जानकारी | पूर्ण मूल डेटा | मूल डेटा का आंशिक नुकसान |
| उपयोग का मामला | विस्तृत विश्लेषण की आवश्यकता वाले छोटे डेटासेट | त्वरित वितरण अंतर्दृष्टि की आवश्यकता वाले बड़े डेटासेट |
| लाभ | सटीक विश्लेषण के लिए पूरी जानकारी | विश्लेषण को सरल बनाता है और वितरण पैटर्न को प्रकट करता है |
| नुकसान | बड़े डेटासेट के साथ प्रबंधित करना मुश्किल है | कुछ विश्लेषणों के लिए सटीकता का अभाव |
चूंकि वर्गीकृत डेटा में मूल डेटा विवरण का अभाव होता है, इसलिए हम सीधे सटीक माध्य की गणना नहीं कर सकते हैं। हालाँकि, हम मध्यबिंदु दृष्टिकोण जैसे तरीकों का उपयोग करके इसका अनुमान लगा सकते हैं, जहाँ प्रत्येक अंतराल का मध्यबिंदु उस समूह के भीतर के मानों का प्रतिनिधित्व करता है। इस भारित औसत का सूत्र है:
जहां:
छात्रों के टेस्ट स्कोर की निम्नलिखित आवृत्ति वितरण तालिका पर विचार करें:
| स्कोर रेंज | आवृत्ति (f) |
|---|---|
| 5 और 10 के बीच | 1 |
| 10 ≤ t < 15 | 4 |
| 15 ≤ t < 20 | 6 |
| 20 ≤ t < 25 | 4 |
| 25 ≤ t < 30 | 2 |
| 30 ≤ t < 35 | 3 |
| कुल | 20 |
चरण 1: मध्यबिंदु ज्ञात करें (x)
| स्कोर रेंज | आवृत्ति (f) | मध्यबिंदु (x) |
|---|---|---|
| 5 और 10 के बीच | 1 | 7.5 |
| 10 ≤ t < 15 | 4 | 12.5 |
| 15 ≤ t < 20 | 6 | 17.5 |
| 20 ≤ t < 25 | 4 | 22.5 |
| 25 ≤ t < 30 | 2 | 27.5 |
| 30 ≤ t < 35 | 3 | 32.5 |
| कुल | 20 |
चरण 2: आवृत्ति × मध्यबिंदु (f × x) की गणना करें
| स्कोर रेंज | आवृत्ति (f) | मध्यबिंदु (x) | आवृत्ति × मध्यबिंदु (f × x) |
|---|---|---|---|
| 5 और 10 के बीच | 1 | 7.5 | 7.5 |
| 10 ≤ t < 15 | 4 | 12.5 | 50 |
| 15 ≤ t < 20 | 6 | 17.5 | 105 |
| 20 ≤ t < 25 | 4 | 22.5 | 90 |
| 25 ≤ t < 30 | 2 | 27.5 | 55 |
| 30 ≤ t < 35 | 3 | 32.5 | 97.5 |
| कुल | 20 | 405 |
चरण 3: माध्य की गणना करें
इस प्रकार, इस वर्गीकृत डेटा का अनुमानित माध्य 20.25 है।
वर्गीकृत और अवर्गीकृत डेटा सांख्यिकीय विश्लेषण के लिए मौलिक हैं। अवर्गीकृत डेटा विस्तृत विश्लेषण के लिए पूरी जानकारी प्रदान करता है, जबकि वर्गीकृत डेटा त्वरित वितरण अंतर्दृष्टि के लिए बड़े डेटासेट को सरल करता है। वर्गीकृत डेटा से माध्य का अनुमान लगाने में मध्यबिंदुओं का उपयोग शामिल है, लेकिन सटीकता अंतराल विकल्पों और मध्यबिंदु प्रतिनिधित्व पर निर्भर करती है। इन अवधारणाओं और विधियों में महारत हासिल करने से आपके सांख्यिकीय टूलकिट में वृद्धि होती है, जो आपको अधिक उन्नत डेटा विश्लेषण के लिए सुसज्जित करता है।