در این بخش از سری مقالات کلاور، مروری بر اصول اولیه آمار توصیفی، یکی از بخشهای بنیادی علم داده، خواهیم داشت. Descriptive Statistics بخش مهمی از تحلیل دادهها است که به صورت گسترده در حوزههایی مانند دیجیتال مارکتینگ دادهمحور، مورد استفاده قرار میگیرد.
آمار توصیفی چیست؟
آمار توصیفی ابزار اصلی تحلیل توصیفی است، که یکی از چهار نوع تحلیل داده به شمار میرود. برای درک بهتر آمار توصیفی، ابتدا باید مفهوم متغیر را بشناسیم.
متغیر مقداری است که میتوان آن را اندازهگیری یا شمارش کرد. به عنوان مثال، اگر گروهی از افراد را در نظر بگیریم، میتوانیم قد هر فرد را اندازهگیری کنیم. این مقدار به عنوان یک متغیر شناخته میشود. به همین ترتیب، میتوان تعداد افرادی که هر رنگ مو را دارند شمارش کرد، و رنگ مو نیز به عنوان یک متغیر در نظر گرفته میشود.
آمار توصیفی شامل اعدادی است که متغیرها را خلاصه میکنند. محاسبه آمار توصیفی به قدری رایج است که اصطلاحات مختلفی برای آن استفاده میشود. در بخشهای بعدی، تکنیکهای اصلی آمار توصیفی را توضیح خواهیم داد.
شمارش و تناسبها
برای متغیرهای دستهای (مانند دادههایی که از گروههای مجزا مثل رنگ مو تشکیل شدهاند)، طبیعیترین روش برای خلاصهسازی آنها، شمارش مقادیر یا بیان آنها به صورت تناسب است.
به عنوان مثال:
چهار نفر موهای مشکی دارند، دو نفر موهای قهوهای، دو نفر موهای بلوند، یک نفر موهای قرمز و یک نفر موهای خاکستری.
به صورت تناسب: 40٪ افراد موهای مشکی دارند، 20٪ قهوهای، 20٪ بلوند، 10٪ قرمز و 10٪ خاکستری.
رنگ مو | تعداد | نسبت |
مشکی | 4 | 40٪ |
قهوهای | 2 | 20٪ |
بلوند | 2 | 20٪ |
قرمز | 1 | 10٪ |
خاکستری | 1 | 10٪ |
معیارهای مرکزی
اندازههای مرکزی که بیشتر با عنوان میانگین شناخته میشوند، دادهها را با ارائه یک مقدار که مرکز توزیع را توصیف میکند خلاصه میکنند. در اینجا رایجترین اندازههای مرکزی معرفی شدهاند.
مد (Mode)
نما سادهترین نوع میانگین برای محاسبه است. این مقدار تنها رایجترین مقدار در مجموعه دادههاست. برای مثال، در مورد رنگ موها، مشکی رایجترین رنگ است، بنابراین نما برابر با “مشکی” است.
میانگین حسابی (Arithmetic Mean)
شاید شناختهشدهترین نوع میانگین، میانگین حسابی باشد. اگر افراد به طور معمول درباره میانگین چیزی صحبت کنند، بدون مشخص کردن نوع میانگین، منظور آنها معمولاً میانگین حسابی است.
فرمول محاسبه میانگین حسابی به این صورت است: تمامی مقادیر را جمع کنید و سپس بر تعداد مقادیر تقسیم کنید. به عنوان مثال، اگر متغیری دارید که قد 10 نفر را ثبت کرده است، برای محاسبه میانگین، باید قد تمامی افراد را جمع کرده و بر 10 تقسیم کنید.
یکی از نقاط قوت (و البته ضعفها، که در ادامه توضیح داده خواهد شد) میانگین این است که در محاسبه، از تمام نقاط داده استفاده میکند؛ یعنی از بیشترین اطلاعات ممکن بهره میگیرد.
سایر انواع میانگین مانند میانگین هندسی (Geometric Mean) و میانگین هارمونیک (Harmonic Mean) نیز وجود دارند که موارد استفاده خاصتری دارند.
میانه (Median)
میانه با مرتبسازی مقادیر از کوچکترین تا بزرگترین مقدار و انتخاب مقدار میانی محاسبه میشود.
برای مثال قد، مقادیر را از کمترین به بیشترین مرتب کنید و نقطه میانی در متغیر قد را انتخاب کنید. در این مورد، میانه مقدار پنجم خواهد بود. میانه به عنوان یک شاخص مقاوم شناخته میشود، زیرا با تغییر یکی از مقادیر تغییر زیادی نمیکند.
برای توضیح بیشتر، فرض کنید یک مقدار جدید از فردی بسیار بلندقد یا کوتاه قد دریافت کردهایم. میانگین حسابی قدها ممکن است به شدت تغییر کند، زیرا مقادیر استثنایی (Outliers) میتوانند میانگین نهایی را تحت تأثیر قرار دهند. با این حال، میانه تنها کمی تغییر خواهد کرد زیرا موقعیت میانی تغییر چندانی نخواهد داشت.
سایر معیارهای موقعیت
گاهی ممکن است یک مقدار میانی خلاصه مناسبی برای متغیر شما نباشد. شاید به حداقل (کمترین مقدار) یا حداکثر (بیشترین مقدار) اهمیت بیشتری بدهید. این اندازههای دیگر از مقادیر، اندازههای موقعیت نامیده میشوند.
یکی از اندازههای مهم دیگر، صدک (Percentile) است. صدکها از نقاط برش استفاده میکنند که دادهها را به 100 بخش مساوی تقسیم میکند. صدک 100 معادل حداکثر مقدار و صدک 50 معادل میانه است. صدکها برای مجموعه دادههای کوچک مانند 10 نقطه داده اهمیت زیادی ندارند اما برای مجموعه دادههای بزرگ مفید هستند.
یک نوع تغییر یافته از صدکها، چارکها (Quartiles) هستند که دادهها را به چهار بخش به جای 100 بخش تقسیم میکنند.
معیارهای پراکندگی (Measures of Spread)
گاهی به جای اهمیت دادن به اندازه مقادیر، میخواهید بدانید مقادیر چقدر متفاوت هستند. آمار توصیفی که تفاوت مقادیر را محاسبه میکند، اندازههای پراکندگی یا تنوع نامیده میشوند.
دامنه (Range)
سادهترین اندازه پراکندگی، دامنه است که برابر با بیشترین مقدار منهای کمترین مقدار است. برای مثال در مورد قد، دامنه برابر است با قد بلندترین فرد منهای قد کوتاهترین فرد.
واریانس (Variance)
واریانس اندازهای فنیتر از پراکندگی است که اغلب در کنار میانگین حسابی استفاده میشود. فرمول محاسبه آن به این صورت است: مجموع مربعات تفاوت مقادیر با میانگین، تقسیم بر یک واحد کمتر از تعداد دادهها.
برای توضیح، فرض کنید قد چهار نفر را ثبت کردهایم، همانطور که در جدول زیر نشان داده شده است:
نام | قد |
کتایون دادمهر | 158 |
پوران یزدانی | 172 |
آرش سپنتا | 177 |
فرهاد مهرگان | 183 |
میانگین حسابی قد افراد در اینجا برابر با 172.5 سانتیمتر است (که با جمع کردن تمامی قدها و تقسیم بر 4 محاسبه میشود).
در این مثال، واریانس به صورت زیر محاسبه میشود:
((158 – 172.5) ^ 2 + (172 – 172.5) ^ 2 + (177 – 172.5) ^ 2 + (183 – 172.5) ^ 2) / (4 – 1) = 113 cm2.
مانند میانگین، این واقعیت که واریانس از تمام نقاط داده در محاسبه استفاده میکند، آن را بسیار قدرتمند میسازد اما همچنین ممکن است با تغییر دادهها دستخوش تغییرات زیادی شود.
همبستگی (Correlation)
همبستگی اندازهای از رابطه خطی بین دو متغیر است. به این معنا که وقتی یک متغیر افزایش مییابد، آیا متغیر دیگر نیز افزایش یا کاهش مییابد؟ الگوریتمهای متعددی برای محاسبه همبستگی وجود دارند، اما نتیجه همواره عددی بین منفی یک و یک خواهد بود.
برای دو متغیر و ، همبستگی به صورت زیر تفسیر میشود:
نمره همبستگی | تفسیر |
−1 | وقتی افزایش مییابد، کاهش مییابد. هرچه مقدار همبستگی به 1 نزدیکتر باشد، رابطه قویتر است. |
بین 1− و 0 |
وقتی افزایش مییابد، کاهش مییابد. هرچه به نزدیکتر باشد، رابطه ضعیفتر است. |
0 | هیچ رابطه خطی بین و وجود ندارد، بنابراین همبستگی وجود ندارد. |
بین 0 و 1 | وقتی افزایش مییابد، نیز افزایش مییابد. هرچه به نزدیکتر باشد، رابطه ضعیفتر است. |
1 | وقتی افزایش مییابد، نیز افزایش مییابد. هرچه مقدار همبستگی به نزدیکتر باشد، رابطه قویتر است. |
توجه داشته باشید که همبستگی اثرات غیرخطی را در نظر نمیگیرد، بنابراین اگر X و رابطهای غیر از یک خط مستقیم داشته باشند، مقدار همبستگی ممکن است معنیدار نباشد.
تحلیل داده در شیراز
وقت آن رسیده که از قدرت تحلیل داده بهره ببرید و بازاریابی خود را متحول کنید. آژانس کلاور، بهعنوان بهترین آژانس دیجیتال مارکتینگ در شیراز، با ارائه خدمات دیجیتال مارکتینگ دادهمحور، به شما کمک میکند تا تصمیمات بهتری بگیرید و استراتژیهای موفقتری طراحی کنید.
همین حالا با ما تماس بگیرید و یا به صفحه خدمات و تماس با ما مراجعه کنید تا مشاورهای رایگان دریافت کنید و اولین گام را در مسیر موفقیت بردارید!