October 28, 2025
আপনি কি কখনও কাঁচা ডেটার একটি সংগ্রহের দিকে অপলক দৃষ্টিতে তাকিয়ে থেকেছেন, বুঝতে পারছিলেন না যে কোথা থেকে শুরু করবেন? অথবা পরিসংখ্যানগত প্রতিবেদনে সুন্দরভাবে শ্রেণীবদ্ধ ডেটা কীভাবে গণনা করা হয়েছিল তা ভেবে দেখেছেন? ডেটা বিশ্লেষণের জগতে, ডেটার উপস্থাপনা অত্যন্ত গুরুত্বপূর্ণ। কাঁচা, অপ্রক্রিয়াজাত ডেটাকে অসংগঠিত ডেটা বলা হয়, যেখানে শ্রেণীবদ্ধ এবং সংক্ষিপ্ত ডেটাকে দলবদ্ধ ডেটা হিসাবে উল্লেখ করা হয়। এই নিবন্ধটি এই ধারণাগুলি, তাদের পার্থক্যগুলি নিয়ে আলোচনা করে এবং পরিসংখ্যানগত অ্যাপ্লিকেশনগুলির আপনার বোধগম্যতা বাড়ানোর জন্য দলবদ্ধ ডেটা থেকে গড়ের একটি ব্যবহারিক উদাহরণ প্রদান করে।
অসংগঠিত ডেটা, যেমনটি নামটি বোঝায়, কাঁচা ডেটা যা সংগঠিত বা শ্রেণীবদ্ধ করা হয়নি। এটি সরাসরি পরীক্ষা, সমীক্ষা বা অন্যান্য ডেটা সংগ্রহ প্রক্রিয়া থেকে তার সবচেয়ে আসল আকারে আসে। একটি খালি কাগজের শীটের কল্পনা করুন যাতে পৃথক সংখ্যা বা পর্যবেক্ষণ রেকর্ড করা আছে। উদাহরণস্বরূপ, আপনি যদি 10 জন শিক্ষার্থীর পরীক্ষার স্কোর রেকর্ড করেন: 75, 82, 90, 68, 88, 72, 95, 80, 78, 85, তবে এটি অসংগঠিত ডেটার একটি সেট হবে। এর বৈশিষ্ট্যগুলির মধ্যে রয়েছে:
অসংগঠিত ডেটার সুবিধা হল এর ব্যাপক তথ্য, যা বিস্তারিত বিশ্লেষণের অনুমতি দেয়। যাইহোক, বৃহৎ ডেটাসেটের সাথে, অসংগঠিত ডেটা পরিচালনা এবং বিশ্লেষণ করা কঠিন হয়ে পড়ে। উদাহরণস্বরূপ, সরাসরি 10,000 শিক্ষার্থীর পরীক্ষার স্কোর বিশ্লেষণ করা সময়সাপেক্ষ এবং ত্রুটিপূর্ণ হবে।
বৃহৎ পরিমাণে অসংগঠিত ডেটা হ্যান্ডেল করার চ্যালেঞ্জগুলি মোকাবেলা করার জন্য, দলবদ্ধ ডেটা চালু করা হয়েছিল। দলবদ্ধ ডেটা কাঁচা ডেটাকে আলাদা বিভাগে (শ্রেণী বা ব্যবধানও বলা হয়) সংগঠিত করে এবং প্রতিটি বিভাগের মধ্যে ডেটা পয়েন্টের সংখ্যা গণনা করে। এই উপস্থাপনাটি সাধারণত হিস্টোগ্রাম বা ফ্রিকোয়েন্সি বিতরণ টেবিল ব্যবহার করে দৃশ্যমান করা হয়। উদাহরণস্বরূপ, পূর্বে উল্লিখিত 10 জন শিক্ষার্থীর পরীক্ষার স্কোরগুলি নিম্নরূপ দলবদ্ধ করা যেতে পারে:
| স্কোর পরিসীমা | শিক্ষার্থীর সংখ্যা (ফ্রিকোয়েন্সি) |
|---|---|
| 60-69 | 1 |
| 70-79 | 3 |
| 80-89 | 4 |
| 90-99 | 2 |
এটি দলবদ্ধ ডেটার একটি উদাহরণ। এর বৈশিষ্ট্যগুলির মধ্যে রয়েছে:
দলবদ্ধ ডেটা বৃহৎ ডেটাসেটের বিশ্লেষণকে সহজ করে, ডেটা বিতরণের একটি দ্রুত ওভারভিউ প্রদান করে। যাইহোক, তথ্য হারানোর কারণে, এটি কিছু বিস্তারিত বিশ্লেষণ সমর্থন করতে পারে না, যেমন মূল ডেটার সঠিক ভিন্নতা গণনা করা। এছাড়াও, ব্যবধানের পরিসীমা নির্বাচন বিশ্লেষণের ফলাফলের উপর প্রভাব ফেলতে পারে।
| বৈশিষ্ট্য | অসংগঠিত ডেটা | দলবদ্ধ ডেটা |
|---|---|---|
| সূত্র | কাঁচা ডেটা | প্রক্রিয়াজাত এবং শ্রেণীবদ্ধ ডেটা |
| ফর্ম | পৃথক মান বা পর্যবেক্ষণ | ফ্রিকোয়েন্সি গণনা সহ বিভাগ |
| তথ্য | সম্পূর্ণ আসল ডেটা | আসল ডেটার আংশিক ক্ষতি |
| ব্যবহারের উদাহরণ | ছোট ডেটাসেট যার বিস্তারিত বিশ্লেষণ প্রয়োজন | বৃহৎ ডেটাসেট যার দ্রুত বিতরণ অন্তর্দৃষ্টি প্রয়োজন |
| সুবিধা | সঠিক বিশ্লেষণের জন্য সম্পূর্ণ তথ্য | বিশ্লেষণকে সহজ করে এবং বিতরণের নিদর্শন প্রকাশ করে |
| অসুবিধা | বৃহৎ ডেটাসেটের সাথে পরিচালনা করা কঠিন | কিছু বিশ্লেষণের জন্য নির্ভুলতার অভাব |
যেহেতু দলবদ্ধ ডেটার আসল ডেটার বিবরণ নেই, তাই আমরা সরাসরি গড় গণনা করতে পারি না। যাইহোক, আমরা মধ্যবিন্দু পদ্ধতির মতো পদ্ধতি ব্যবহার করে এটি অনুমান করতে পারি, যেখানে প্রতিটি ব্যবধানের মধ্যবিন্দু সেই গোষ্ঠীর মধ্যেকার মানগুলি উপস্থাপন করে। এই ওজনযুক্ত গড়ের সূত্রটি হল:
যেখানে:
শিক্ষার্থীদের পরীক্ষার স্কোরের নিম্নলিখিত ফ্রিকোয়েন্সি বিতরণ টেবিলটি বিবেচনা করুন:
| স্কোর পরিসীমা | ফ্রিকোয়েন্সি (f) |
|---|---|
| 5 এবং 10 এর মধ্যে | 1 |
| 10 ≤ t < 15 | 4 |
| 15 ≤ t < 20 | 6 |
| 20 ≤ t < 25 | 4 |
| 25 ≤ t < 30 | 2 |
| 30 ≤ t < 35 | 3 |
| মোট | 20 |
ধাপ 1: মধ্যবিন্দু খুঁজুন (x)
| স্কোর পরিসীমা | ফ্রিকোয়েন্সি (f) | মধ্যবিন্দু (x) |
|---|---|---|
| 5 এবং 10 এর মধ্যে | 1 | 7.5 |
| 10 ≤ t < 15 | 4 | 12.5 |
| 15 ≤ t < 20 | 6 | 17.5 |
| 20 ≤ t < 25 | 4 | 22.5 |
| 25 ≤ t < 30 | 2 | 27.5 |
| 30 ≤ t < 35 | 3 | 32.5 |
| মোট | 20 |
ধাপ 2: ফ্রিকোয়েন্সি গণনা করুন × মধ্যবিন্দু (f × x)
| স্কোর পরিসীমা | ফ্রিকোয়েন্সি (f) | মধ্যবিন্দু (x) | ফ্রিকোয়েন্সি × মধ্যবিন্দু (f × x) |
|---|---|---|---|
| 5 এবং 10 এর মধ্যে | 1 | 7.5 | 7.5 |
| 10 ≤ t < 15 | 4 | 12.5 | 50 |
| 15 ≤ t < 20 | 6 | 17.5 | 105 |
| 20 ≤ t < 25 | 4 | 22.5 | 90 |
| 25 ≤ t < 30 | 2 | 27.5 | 55 |
| 30 ≤ t < 35 | 3 | 32.5 | 97.5 |
| মোট | 20 | 405 |
ধাপ 3: গড় গণনা করুন
সুতরাং, এই দলবদ্ধ ডেটার আনুমানিক গড় হল 20.25।
দলবদ্ধ এবং অসংগঠিত ডেটা পরিসংখ্যানগত বিশ্লেষণের জন্য মৌলিক। অসংগঠিত ডেটা বিস্তারিত বিশ্লেষণের জন্য সম্পূর্ণ তথ্য সরবরাহ করে, যেখানে দলবদ্ধ ডেটা দ্রুত বিতরণ অন্তর্দৃষ্টির জন্য বৃহৎ ডেটাসেটকে সহজ করে। দলবদ্ধ ডেটা থেকে গড় অনুমান করার মধ্যে মধ্যবিন্দু ব্যবহার করা জড়িত, তবে নির্ভুলতা ব্যবধানের পছন্দ এবং মধ্যবিন্দু উপস্থাপনার উপর নির্ভর করে। এই ধারণা এবং পদ্ধতিগুলি আয়ত্ত করা আপনার পরিসংখ্যানগত সরঞ্জামগুলিকে উন্নত করে, আপনাকে আরও উন্নত ডেটা বিশ্লেষণের জন্য সজ্জিত করে।