داده‌ به زبان ساده: مروری بر آمار توصیفی

داده‌ به زبان ساده: مروری بر آمار توصیفی
آنچه در این مقاله مطالعه میکنید:
    برای شروع تولید فهرست مطالب ، یک هدر اضافه کنید
    Scroll to Top

    در این بخش از سری مقالات کلاور، مروری بر اصول اولیه آمار توصیفی، یکی از بخش‌های بنیادی علم داده، خواهیم داشت. Descriptive Statistics بخش مهمی از تحلیل داده‌ها است که به صورت گسترده در حوزه‌هایی مانند دیجیتال مارکتینگ داده‌محور، مورد استفاده قرار می‌گیرد.

    آمار توصیفی چیست؟

    آمار توصیفی ابزار اصلی تحلیل توصیفی است، که یکی از چهار نوع تحلیل داده به شمار می‌رود. برای درک بهتر آمار توصیفی، ابتدا باید مفهوم متغیر را بشناسیم.

    متغیر مقداری است که می‌توان آن را اندازه‌گیری یا شمارش کرد. به عنوان مثال، اگر گروهی از افراد را در نظر بگیریم، می‌توانیم قد هر فرد را اندازه‌گیری کنیم. این مقدار به عنوان یک متغیر شناخته می‌شود. به همین ترتیب، می‌توان تعداد افرادی که هر رنگ مو را دارند شمارش کرد، و رنگ مو نیز به عنوان یک متغیر در نظر گرفته می‌شود.

    آمار توصیفی شامل اعدادی است که متغیرها را خلاصه می‌کنند. محاسبه آمار توصیفی به قدری رایج است که اصطلاحات مختلفی برای آن استفاده می‌شود. در بخش‌های بعدی، تکنیک‌های اصلی آمار توصیفی را توضیح خواهیم داد.

    شمارش و تناسب‌ها

    برای متغیرهای دسته‌ای (مانند داده‌هایی که از گروه‌های مجزا مثل رنگ مو تشکیل شده‌اند)، طبیعی‌ترین روش برای خلاصه‌سازی آن‌ها، شمارش مقادیر یا بیان آن‌ها به صورت تناسب است.

    به عنوان مثال:
    چهار نفر موهای مشکی دارند، دو نفر موهای قهوه‌ای، دو نفر موهای بلوند، یک نفر موهای قرمز و یک نفر موهای خاکستری.
    به صورت تناسب: 40٪ افراد موهای مشکی دارند، 20٪ قهوه‌ای، 20٪ بلوند، 10٪ قرمز و 10٪ خاکستری.

    رنگ مو تعداد نسبت
    مشکی 4 40٪
    قهوه‌ای 2 20٪
    بلوند 2 20٪
    قرمز 1 10٪
    خاکستری 1 10٪

    معیارهای مرکزی

    اندازه‌های مرکزی که بیشتر با عنوان میانگین شناخته می‌شوند، داده‌ها را با ارائه یک مقدار که مرکز توزیع را توصیف می‌کند خلاصه می‌کنند. در اینجا رایج‌ترین اندازه‌های مرکزی معرفی شده‌اند.

    مد (Mode)

    نما ساده‌ترین نوع میانگین برای محاسبه است. این مقدار تنها رایج‌ترین مقدار در مجموعه داده‌هاست. برای مثال، در مورد رنگ موها، مشکی رایج‌ترین رنگ است، بنابراین نما برابر با “مشکی” است.

    میانگین حسابی (Arithmetic Mean)

    شاید شناخته‌شده‌ترین نوع میانگین، میانگین حسابی باشد. اگر افراد به طور معمول درباره میانگین چیزی صحبت کنند، بدون مشخص کردن نوع میانگین، منظور آن‌ها معمولاً میانگین حسابی است.

    فرمول محاسبه میانگین حسابی به این صورت است: تمامی مقادیر را جمع کنید و سپس بر تعداد مقادیر تقسیم کنید. به عنوان مثال، اگر متغیری دارید که قد 10 نفر را ثبت کرده است، برای محاسبه میانگین، باید قد تمامی افراد را جمع کرده و بر 10 تقسیم کنید.

    یکی از نقاط قوت (و البته ضعف‌ها، که در ادامه توضیح داده خواهد شد) میانگین این است که در محاسبه، از تمام نقاط داده استفاده می‌کند؛ یعنی از بیشترین اطلاعات ممکن بهره می‌گیرد.

    سایر انواع میانگین مانند میانگین هندسی (Geometric Mean) و میانگین هارمونیک (Harmonic Mean) نیز وجود دارند که موارد استفاده خاص‌تری دارند.

    میانه (Median)

    میانه با مرتب‌سازی مقادیر از کوچک‌ترین تا بزرگ‌ترین مقدار و انتخاب مقدار میانی محاسبه می‌شود.

    برای مثال قد، مقادیر را از کمترین به بیشترین مرتب کنید و نقطه میانی در متغیر قد را انتخاب کنید. در این مورد، میانه مقدار پنجم خواهد بود. میانه به عنوان یک شاخص مقاوم شناخته می‌شود، زیرا با تغییر یکی از مقادیر تغییر زیادی نمی‌کند.

    برای توضیح بیشتر، فرض کنید یک مقدار جدید از فردی بسیار بلندقد یا کوتاه قد دریافت کرده‌ایم. میانگین حسابی قدها ممکن است به شدت تغییر کند، زیرا مقادیر استثنایی (Outliers) می‌توانند میانگین نهایی را تحت تأثیر قرار دهند. با این حال، میانه تنها کمی تغییر خواهد کرد زیرا موقعیت میانی تغییر چندانی نخواهد داشت.

    سایر معیارهای موقعیت

    گاهی ممکن است یک مقدار میانی خلاصه مناسبی برای متغیر شما نباشد. شاید به حداقل (کمترین مقدار) یا حداکثر (بیشترین مقدار) اهمیت بیشتری بدهید. این اندازه‌های دیگر از مقادیر، اندازه‌های موقعیت نامیده می‌شوند.

    یکی از اندازه‌های مهم دیگر، صدک (Percentile) است. صدک‌ها از نقاط برش استفاده می‌کنند که داده‌ها را به 100 بخش مساوی تقسیم می‌کند. صدک 100 معادل حداکثر مقدار و صدک 50 معادل میانه است. صدک‌ها برای مجموعه داده‌های کوچک مانند 10 نقطه داده اهمیت زیادی ندارند اما برای مجموعه داده‌های بزرگ مفید هستند.

    یک نوع تغییر یافته از صدک‌ها، چارک‌ها (Quartiles) هستند که داده‌ها را به چهار بخش به جای 100 بخش تقسیم می‌کنند.

    معیارهای پراکندگی (Measures of Spread)

    گاهی به جای اهمیت دادن به اندازه مقادیر، می‌خواهید بدانید مقادیر چقدر متفاوت هستند. آمار توصیفی که تفاوت مقادیر را محاسبه می‌کند، اندازه‌های پراکندگی یا تنوع نامیده می‌شوند.

    دامنه (Range)

    ساده‌ترین اندازه پراکندگی، دامنه است که برابر با بیشترین مقدار منهای کمترین مقدار است. برای مثال در مورد قد، دامنه برابر است با قد بلندترین فرد منهای قد کوتاه‌ترین فرد.

    واریانس (Variance)

    واریانس اندازه‌ای فنی‌تر از پراکندگی است که اغلب در کنار میانگین حسابی استفاده می‌شود. فرمول محاسبه آن به این صورت است: مجموع مربعات تفاوت مقادیر با میانگین، تقسیم بر یک واحد کمتر از تعداد داده‌ها.

    برای توضیح، فرض کنید قد چهار نفر را ثبت کرده‌ایم، همان‌طور که در جدول زیر نشان داده شده است:

    نام قد
    کتایون دادمهر 158
    پوران یزدانی 172
    آرش سپنتا 177
    فرهاد مهرگان 183

    میانگین حسابی قد افراد در اینجا برابر با 172.5 سانتی‌متر است (که با جمع کردن تمامی قدها و تقسیم بر 4 محاسبه می‌شود).

    در این مثال، واریانس به صورت زیر محاسبه می‌شود:

    ((158 – 172.5) ^ 2 + (172 – 172.5) ^ 2 + (177 – 172.5) ^ 2 + (183 – 172.5) ^ 2) / (4 – 1) = 113 cm2.

    مانند میانگین، این واقعیت که واریانس از تمام نقاط داده در محاسبه استفاده می‌کند، آن را بسیار قدرتمند می‌سازد اما همچنین ممکن است با تغییر داده‌ها دستخوش تغییرات زیادی شود.

    همبستگی (Correlation)

    همبستگی اندازه‌ای از رابطه خطی بین دو متغیر است. به این معنا که وقتی یک متغیر افزایش می‌یابد، آیا متغیر دیگر نیز افزایش یا کاهش می‌یابد؟ الگوریتم‌های متعددی برای محاسبه همبستگی وجود دارند، اما نتیجه همواره عددی بین منفی یک و یک خواهد بود.

    برای دو متغیر و ، همبستگی به صورت زیر تفسیر می‌شود:

    نمره همبستگی تفسیر
    1 وقتی افزایش می‌یابد، کاهش می‌یابد. هرچه مقدار همبستگی به 1 نزدیک‌تر باشد، رابطه قوی‌تر است.
    بین 1− و 0
    وقتی افزایش می‌یابد، کاهش می‌یابد. هرچه به نزدیک‌تر باشد، رابطه ضعیف‌تر است.
    0 هیچ رابطه خطی بین و وجود ندارد، بنابراین همبستگی وجود ندارد.
    بین 0 و 1 وقتی افزایش می‌یابد، نیز افزایش می‌یابد. هرچه به نزدیک‌تر باشد، رابطه ضعیف‌تر است.
    1 وقتی افزایش می‌یابد، نیز افزایش می‌یابد. هرچه مقدار همبستگی به نزدیک‌تر باشد، رابطه قوی‌تر است.

    توجه داشته باشید که همبستگی اثرات غیرخطی را در نظر نمی‌گیرد، بنابراین اگر X و رابطه‌ای غیر از یک خط مستقیم داشته باشند، مقدار همبستگی ممکن است معنی‌دار نباشد.

    تحلیل داده در شیراز

    وقت آن رسیده که از قدرت تحلیل داده بهره‌ ببرید و بازاریابی خود را متحول کنید. آژانس کلاور، به‌عنوان بهترین آژانس دیجیتال مارکتینگ در شیراز، با ارائه خدمات دیجیتال مارکتینگ داده‌محور، به شما کمک می‌کند تا تصمیمات بهتری بگیرید و استراتژی‌های موفق‌تری طراحی کنید.

    همین حالا با ما تماس بگیرید و یا به صفحه خدمات و تماس با ما مراجعه کنید تا مشاوره‌ای رایگان دریافت کنید و اولین گام را در مسیر موفقیت بردارید!

    5/5 - (3 امتیاز)

    دیدگاهتان را بنویسید

    نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

    این فیلد را پر کنید
    این فیلد را پر کنید
    لطفاً یک نشانی ایمیل معتبر بنویسید.
    برای ادامه، شما باید با قوانین موافقت کنید