راهنمای کامل هیستوگرام ها

ساخت وبلاگ

هیستوگرام نموداری است که توزیع مقادیر یک متغیر عددی را به صورت یک سری میله ترسیم می کند. هر نوار معمولاً محدوده ای از مقادیر عددی به نام bin یا کلاس را پوشش می دهد. ارتفاع یک نوار نشان دهنده بسامد نقاط داده با مقدار درون bin مربوطه است.

Basic histogram: distribution of response times by hour

هیستوگرام بالا یک توزیع فرکانس برای زمان تا پاسخ برای بلیط های ارسال شده به یک سیستم پشتیبانی ساختگی را نشان می دهد. هر نوار یک ساعت از زمان را پوشش می دهد و ارتفاع نشان دهنده تعداد بلیط ها در هر بازه زمانی است. می‌توانیم ببینیم که بیشترین فرکانس پاسخ‌ها در محدوده 2 تا 3 ساعت بود، با دم بلندتر به سمت راست نسبت به چپ. همچنین یک تپه کوچکتر وجود دارد که اوج آن (حالت) در محدوده 13-14 ساعت است. اگر فقط به آمارهای عددی مانند میانگین و انحراف معیار نگاه کنیم، ممکن است این واقعیت را از دست بدهیم که این دو قله در آمار کلی نقش داشته اند.

زمانی که باید از هیستوگرام استفاده کنید

هیستوگرام ها برای نشان دادن ویژگی های توزیع کلی متغیرهای مجموعه داده خوب هستند. تقریباً می‌توانید ببینید که قله‌های توزیع کجا هستند، آیا توزیع اریب است یا متقارن، و آیا نقاط پرت وجود دارد.

Histograms can be described as symmetric, skewed, uniform, unimodal, bimodal, and multimodal

برای استفاده از هیستوگرام، ما به سادگی به متغیری نیاز داریم که مقادیر عددی پیوسته را بگیرد. این بدان معنی است که تفاوت بین مقادیر بدون توجه به مقادیر مطلق آنها سازگار است. به عنوان مثال، حتی اگر نمره یک آزمون فقط مقادیر صحیح بین 0 تا 100 را به خود اختصاص دهد، یک شکاف با اندازه یکسان صرف نظر از اینکه در کجای مقیاس قرار داریم، معنی یکسانی دارد: تفاوت بین 60 و 65 همان 5 امتیاز است. اندازه تفاوت بین 90 تا 95.

اطلاعات مربوط به تعداد سطل ها و مرزهای آنها برای جمع آوری نقاط داده، ذاتی خود داده نیست. درعوض، تنظیم سطل ها یک تصمیم جداگانه است که باید هنگام ساخت یک هیستوگرام بگیریم. روشی که ما بن‌ها را مشخص می‌کنیم تأثیر عمده‌ای بر نحوه تفسیر هیستوگرام خواهد داشت، همانطور که در زیر مشاهده می‌شود.

هنگامی که یک مقدار در مرز bin قرار دارد، به طور مداوم به bin در سمت راست یا چپ آن اختصاص داده می شود (یا اگر در نقاط انتهایی باشد به سطل های انتهایی). کدام سمت انتخاب می شود به ابزار تجسم بستگی دارد. برخی از ابزارها این گزینه را دارند که ترجیحات پیش فرض خود را لغو کنند. در این مقاله فرض می شود که مقادیر روی یک مرز bin به bin سمت راست اختصاص داده می شود.

نمونه ای از ساختار داده

Summarized tables for histograms: one column indicates bin edges, and the other the frequency of observations in each bin

یکی از راه هایی که ابزارهای تجسم می توانند با داده ها به عنوان یک هیستوگرام تجسم شوند ، از یک شکل خلاصه مانند بالا است. در اینجا ، ستون اول مرزهای سطل را نشان می دهد ، و دوم تعداد مشاهدات در هر سطل. از طرف دیگر ، برخی از ابزارها فقط می توانند با ستون داده های اصلی و غیرمجاز کار کنند ، سپس در هنگام ایجاد هیستوگرام ، پارامترهای مشخص شده را برای داده ها اعمال کنند.

Some tools can work directly from the raw data column and apply binning parameters separately.

بهترین روشها برای استفاده از هیستوگرام

از یک پایه با ارزش صفر استفاده کنید

جنبه مهم هیستوگرام این است که آنها باید با یک پایه با ارزش صفر ترسیم شوند. از آنجا که فرکانس داده ها در هر سطل به ارتفاع هر نوار دلالت دارد ، تغییر پایه یا معرفی شکاف در مقیاس ، درک توزیع داده ها را کاهش می دهد.

Comparing histogram curves when a zero-baseline is used vs. a non-zero baseline

پیرایش 80 امتیاز از محور عمودی باعث می شود توزیع نمرات عملکرد بسیار بهتر از آنچه در واقع وجود دارد.

تعداد مناسبی از سطل ها را انتخاب کنید

در حالی که ابزارهایی که می توانند هیستوگرام ایجاد کنند ، معمولاً الگوریتم های پیش فرض برای انتخاب مرزهای سطحی دارند ، احتمالاً می خواهید با پارامترهای binning بازی کنید تا چیزی را انتخاب کنید که نماینده داده های شما باشد. ویکی پدیا بخش گسترده ای در مورد قوانین شست برای انتخاب تعداد مناسب سطل و اندازه آنها دارد ، اما در نهایت ، ارزش استفاده از دانش دامنه را به همراه یک مقدار منصفانه بازی با گزینه های مختلف دارد تا بدانید چه چیزی برای اهداف شما بهتر خواهد بود.

انتخاب اندازه سطل با تعداد سطل ها رابطه معکوس دارد. هرچه اندازه سطل بزرگتر باشد ، سطل های کمتری برای پوشش کل داده ها وجود خواهد داشت. با اندازه سطل کوچکتر ، سطل های بیشتری نیاز به وجود دارد. ارزش آن را دارد که برای آزمایش اندازه های سطل مختلف کمی وقت بگذارید تا ببینید که چگونه توزیع در هر یک به نظر می رسد ، سپس نقشه ای را انتخاب کنید که بهترین داده ها را نشان می دهد. اگر سطل های زیادی داشته باشید ، توزیع داده ها خشن به نظر می رسد و تشخیص سیگنال از سر و صدا دشوار خواهد بود. از طرف دیگر ، با سطل های بسیار کمی ، هیستوگرام از جزئیات مورد نیاز برای تشخیص هرگونه الگوی مفید از داده ها برخوردار نیست.

Histogram shapes compared for bin sizes of 0.2, 1, and 5

سطل های پانل سمت چپ بسیار کوچک هستند و حاکی از قله ها و فرورفتگی های زیادی هستند. سطل های پنل سمت راست خیلی بزرگ هستند و هرگونه نشانه ای از قله دوم را پنهان می کنند.

مرزهای سطل قابل تفسیر را انتخاب کنید

علائم و برچسب ها به طور معمول باید روی مرزهای سطل قرار بگیرند تا به بهترین وجه در مورد محدودیت های هر نوار مشخص شود. نیازی به برچسب ها برای هر نوار نیست ، اما داشتن آنها بین هر چند میله به خواننده کمک می کند تا ارزش را ردیابی کند. علاوه بر این ، اگر برچسب ها فقط با تعداد کمی از ارقام قابل توجه باشند ، مفید است تا خواندن آنها آسان شود.

این نشان می دهد که سطل های اندازه 1 ، 2 ، 2. 5 ، 4 یا 5 (که 5 ، 10 و 20 به طور مساوی تقسیم می شوند) یا قدرت آنها ده نفر از اندازه سطل خوب هستند تا بتوانند به عنوان یک قاعده شست شروع به کار کنند. این همچنین بدان معنی است که سطل های اندازه 3 ، 7 یا 9 احتمالاً خواندن آن دشوارتر خواهد بود و نباید مورد استفاده قرار گیرد مگر اینکه زمینه برای آنها معنی داشته باشد.

A strange bin size will require more explanation than a clear, nicely-divisible bin size.

بالا: تقسیم بی احتیاطی داده ها را به ده سطل از Min تا Max می تواند با برخی از بخش های سطل بسیار عجیب و غریب به پایان برسد. پایین: هنگامی که اندازه سطل به راحتی دنبال شود ، علائم کنه کمتری لازم است.

یک کلمه کوچک احتیاط: اطمینان حاصل کنید که انواع مقادیری را که متغیر علاقه شما در نظر می گیرد در نظر بگیرید. در مورد اندازه سطل کسری مانند 2. 5 ، اگر متغیر شما فقط مقادیر عدد صحیح را در نظر بگیرد ، این می تواند یک مشکل باشد. یک سطل که از 0 تا 2. 5 در حال اجرا است ، فرصتی برای جمع آوری سه مقدار مختلف (0 ، 1 ، 2) دارد اما سطل زیر از 2. 5 به 5 فقط می تواند دو مقدار مختلف را جمع کند (3 ، 4 - 5 در سطل زیر قرار می گیرد). این بدان معنی است که هیستوگرام شما به دلیل تعداد مقادیری که هر سطل ممکن است از آن استفاده کند ، می تواند به طور غیر طبیعی "برآمد" به نظر برسد.

Histogram shapes compared for bin sizes of 1, 1.5, 2, and 2.5.

شکل بالا توزیع نتایج را هنگام جمع آوری نتیجه پنج رول قالب ، 20 000 بار تکرار می کند. شکل زنگ مورد انتظار هنگام اندازه سطل که مقادیر مختلفی از نتایج عدد صحیح را ضبط می کند ، لکه دار و یا به نظر می رسد.

سوء استفاده های مشترک

متغیر اندازه گیری عددی مداوم نیست

همانطور که در بخش های افتتاحیه ذکر شد ، یک هیستوگرام برای نشان دادن توزیع فرکانس یک متغیر عددی مداوم است. هنگامی که متغیر مورد علاقه ما متناسب با این خاصیت نیست ، ما باید به جای آن از نوع نمودار دیگری استفاده کنیم: نمودار نوار. متغیری که مقادیر طبقه ای را می گیرد ، مانند نوع کاربر (به عنوان مثال مهمان ، کاربر) یا مکان به وضوح غیر عددی است و بنابراین باید از نمودار نوار استفاده کند. با این حال ، انواع متغیر خاصی وجود دارد که می توانند طبقه بندی شوند: مواردی که مقادیر عددی گسسته را به خود اختصاص می دهند و مقادیر مبتنی بر زمان را به خود اختصاص می دهند.

متغیرهایی که مقادیر عددی گسسته (به عنوان مثال اعداد صحیح 1 ، 2 ، 3 و غیره) را می گیرند ، بسته به متن ، می توانند با نمودار نوار یا هیستوگرام ترسیم شوند. استفاده از هیستوگرام در مواردی که مقادیر مختلف زیادی برای ترسیم وجود داشته باشد ، بیشتر خواهد بود. هنگامی که دامنه مقادیر عددی بزرگ باشد ، این واقعیت که مقادیر گسسته هستند ، مهم نیستند و گروه بندی مداوم ایده خوبی خواهد بود.

نکته اصلی که باید مراقب باشید این است که اعداد نماینده ارزش واقعی هستند. اگر اعداد در واقع کد برای یک متغیر طبقه بندی شده یا مرتب هستند ، این نشانه ای از استفاده از نمودار نوار است. به عنوان مثال ، اگر پاسخ های نظرسنجی را در مقیاس از 1 تا 5 دارید ، و مقادیر "کاملاً مخالف" تا "کاملاً موافق" را رمزگذاری می کنید ، توزیع فرکانس باید به عنوان نمودار نوار تجسم شود. دلیل این امر این است که تفاوت بین ارزشهای فردی ممکن است سازگار نباشد: ما واقعاً نمی دانیم که تفاوت معنی دار بین 1 و 2 ("کاملاً مخالف" با "مخالف" است) همان تفاوت بین 2 و 3 است("مخالف" با "نه موافق و نه مخالف").

Bar chart used to depict frequencies of an ordered variable regarding level of agreement/disagreement

یک مورد پیچیده تر زمانی است که متغیر علاقه ما یک ویژگی مبتنی بر زمان است. هنگامی که مقادیر با دوره های نسبی زمان مطابقت دارند (به عنوان مثال 30 ثانیه ، 20 دقیقه) ، سپس به دوره های زمانی برای یک هیستوگرام می پردازد. با این حال ، هنگامی که مقادیر با زمان های مطلق مطابقت دارند (به عنوان مثال 10 ژانویه ، 12:15) تمایز مبهم می شود. هنگامی که نقاط داده جدید ثبت می شود ، مقادیر معمولاً به جای در محدوده موجود از سطل های موجود ، به سطل های تازه ایجاد شده می روند. علاوه بر این ، برخی از گزینه های گروه بندی طبیعی ، مانند ماه یا چهارم ، اندازه سطل کمی نابرابر را معرفی می کنند. به همین دلایل ، دیدن یک نوع نمودار متفاوت مانند نمودار نوار یا نمودار خط مورد استفاده بسیار غیرمعمول نیست.

Bar chart used to depict pageview frequency across months

با استفاده از اندازه سطل نابرابر

در حالی که تمام نمونه های تاکنون هیستوگرام ها را با استفاده از سطل های اندازه مساوی نشان داده اند ، این در واقع یک نیاز فنی نیست. هنگامی که داده ها پراکنده هستند ، مانند زمانی که یک دم طولانی داده وجود دارد ، ممکن است این ایده به ذهن متبادر شود که از عرض سطل بزرگتر برای پوشاندن آن فضا استفاده کنید. با این حال ، ایجاد یک هیستوگرام با سطل های اندازه نابرابر کاملاً اشتباه نیست ، اما انجام این کار نیاز به تغییرات اساسی در نحوه ایجاد هیستوگرام دارد و می تواند در تفسیر مشکلات زیادی ایجاد کند.

نکته فنی در مورد هیستوگرام این است که مساحت کل میله ها کل را نشان می دهد و منطقه اشغال شده توسط هر نوار نشان دهنده نسبت کل موجود در هر سطل است. هنگامی که اندازه سطل سازگار است ، این امر باعث می شود اندازه گیری نوار و ارتفاع معادل آن باشد. در یک هیستوگرام با اندازه سطل متغیر ، با این حال ، ارتفاع دیگر نمی تواند با فرکانس کل وقایع مطابقت داشته باشد. انجام این کار باعث می شود درک چند امتیاز در هر سطل باشد ، زیرا افزایش اندازه سطل فقط باعث می شود بزرگتر به نظر برسد. در نقشه مرکزی شکل زیر ، سطل های 5-6 ، 6-7 و 7-10 به نظر می رسد که به نظر می رسد که دارای امتیاز بیشتری نسبت به آنچه در واقع انجام می دهند.

Histogram examples with equal and unequal bin sizes including an improperly scaled axis example

سمت چپ: هیستوگرام با سطل های اندازه برابر ؛مرکز: هیستوگرام با سطل های نابرابر اما واحدهای محور عمودی نادرست. سمت راست: هیستوگرام با سطل های نابرابر با ارتفاع چگالی

در عوض ، محور عمودی نیاز به رمزگذاری چگالی فرکانس در هر واحد اندازه سطل دارد. به عنوان مثال ، در صفحه سمت راست شکل فوق ، سطل از 2-2. 5 دارای ارتفاع حدود 0. 32 است. با عرض سطل ، 0. 5 ضرب کنید و می توانیم حدود 16 ٪ از داده های موجود در آن سطل را تخمین بزنیم. ارتفاع سطل های وسیع در مقایسه با صفحه مرکزی کاهش یافته است: توجه داشته باشید که چگونه شکل کلی شبیه به هیستوگرام اصلی با اندازه سطل مساوی است. چگالی یک مفهوم آسان برای درک نیست ، و چنین نقشه ای که به دیگران ناآشنا با این مفهوم ارائه شده است ، تفسیر آن را دشوار خواهد کرد.

به دلیل همه اینها ، بهترین توصیه این است که سعی کنید و فقط با اندازه سطل کاملاً برابر بچسبید. وجود سطل های خالی و برخی از سر و صدای افزایش یافته در محدوده با داده های پراکنده معمولاً ارزش افزایش تفسیر هیستوگرام شما را دارد. از طرف دیگر ، اگر جنبه های ذاتی متغیر ترسیم شده وجود داشته باشد که اندازه سطل ناهموار را نشان می دهد ، پس به جای استفاده از هیستوگرام سطل ناهموار ، ممکن است به جای آن با یک نوار نوار بهتر باشید.

گزینه های مشترک هیستوگرام

فرکانس مطلق در مقابل فرکانس نسبی

بسته به اهداف تجسم خود ، ممکن است بخواهید واحدهای موجود در محور عمودی طرح را از نظر فرکانس مطلق یا فرکانس نسبی تغییر دهید. فرکانس مطلق فقط تعداد طبیعی وقایع در هر سطل است ، در حالی که فرکانس نسبی نسبت وقایع در هر سطل است. انتخاب واحدهای محور بستگی به نوع مقایسه هایی دارد که می خواهید در مورد توزیع داده ها تأکید کنید.

Histogram of response time presented in terms of relative frequency.

با تبدیل اولین مثال از نظر فرکانس نسبی ، اضافه کردن پنج میله اول بسیار ساده تر است تا دریابید که حدود نیمی از بلیط ها در طی پنج ساعت به آن پاسخ داده می شود.

نمایش داده های ناشناخته یا گمشده

این در واقع یک گزینه مخصوصاً متداول نیست ، اما شایان ذکر است که در سفارشی کردن توطئه های شما پایین می آید. اگر یک ردیف داده برای متغیر مورد علاقه یک مقدار را از دست ندهد ، اغلب برای هر سطل در قسمت زیرین پرش می شود. اگر نشان دادن مقدار مقادیر گمشده یا ناشناخته مهم باشد ، می توانید هیستوگرام را با یک نوار اضافی ترکیب کنید که فرکانس این ناشناخته ها را نشان می دهد. هنگام ترسیم این نوار ، ایده خوبی است که آن را در یک محور موازی از هیستوگرام اصلی و با رنگ متفاوت و خنثی قرار دهید تا نقاط جمع آوری شده در آن نوار با داشتن یک مقدار عددی اشتباه گرفته نشوند.

Histogram of race completion time including a bar for participants who did not finish (DNF).

توطئه های مرتبط

نمودار میله ای

همانطور که در بالا ذکر شد ، اگر متغیر علاقه مداوم و عددی نباشد ، بلکه در عوض گسسته یا طبقه بندی شده است ، به جای آن ما یک نمودار نوار می خواهیم. بر خلاف یک هیستوگرام ، میله های موجود در نمودار نوار به طور معمول شکاف کمی بین یکدیگر خواهند داشت: این بر ماهیت گسسته متغیر که ترسیم می شود تأکید می کند.

Example bar chart showing purchases by user type.

نمودار خط

اگر داده های عددی را BINNED دارید اما می خواهید محور عمودی طرح شما چیزی غیر از اطلاعات فرکانس را منتقل کند ، پس باید به دنبال استفاده از نمودار خط باشید. موقعیت عمودی نقاط در یک نمودار خط می تواند مقادیر یا خلاصه های آماری یک متغیر دوم را به تصویر بکشد. هنگامی که از نمودار خط برای به تصویر کشیدن توزیع فرکانس مانند هیستوگرام استفاده می شود ، به این روش چند ضلعی فرکانس گفته می شود.

Example line chart showing number of user accounts over time.

منحنی چگالی

منحنی چگالی یا برآورد چگالی هسته (KDE) جایگزینی برای هیستوگرام است که به هر نقطه داده سهم مداوم در توزیع می دهد. در یک هیستوگرام ، شما ممکن است از هر نقطه داده به عنوان ریختن مایع از مقدار آن در یک سری سیلندرهای زیر (سطل ها) فکر کنید. در یک KDE ، هر نقطه داده یک توده کوچک از حجم را در اطراف مقدار واقعی خود اضافه می کند ، که برای تولید منحنی نهایی در نقاط داده جمع می شود. شکل توده حجم "هسته" است و گزینه های بی حد و حصر در دسترس است. به دلیل تعداد زیادی از گزینه ها هنگام انتخاب هسته و پارامترهای آن ، منحنی های چگالی به طور معمول دامنه ابزارهای تجسم برنامه ای هستند.

How the same dataset can be depicted by a histogram or density curve

خطوط سیاه ضخیم نقاط داده ای را نشان می دهد که به هیستوگرام (سمت چپ) و منحنی چگالی (سمت راست) کمک می کنند. توجه داشته باشید که چگونه هر نقطه یک منحنی زنگ کوچک شکل را به شکل کلی کمک می کند.

طرح جعبه و طرح ویولن

هیستوگرام در نشان دادن توزیع یک متغیر واحد خوب است ، اما اگر بخواهیم آن متغیر را بین گروه های مختلف مقایسه کنیم ، مقایسه بین هیستوگرام تا حدودی مشکل است. با دو گروه ، یک راه حل ممکن ترسیم هیستوگرام دو گروه به پشت به عقب است. یک نسخه خاص دامنه از این نوع طرح ، هرم جمعیت است که توزیع سنی یک کشور یا منطقه دیگر را برای مردان و زنان به عنوان هیستوگرام عمودی برگشت به عقب ترسیم می کند.

Population pyramid of the population of the US in 2017

با این حال ، اگر ما سه یا چند گروه داریم ، راه حل برگشت به عقب کار نمی کند. یک راه حل می تواند ایجاد هیستوگرام صورتی ، ترسیم یک در هر گروه در یک ردیف یا ستون باشد. گزینه دیگر استفاده از یک نوع طرح متفاوت مانند طرح جعبه یا طرح ویولن است. هر دوی این نوع نقشه ها به طور معمول هنگامی مورد استفاده قرار می گیرند که می خواهیم توزیع یک متغیر عددی را در سطوح یک متغیر طبقه بندی مقایسه کنیم. در مقایسه با هیستوگرام های صورت ، این توطئه ها تصویر دقیق فرکانس مطلق را برای مقایسه نسبی جمع و جور تر از توزیع ها تجارت می کنند.

Example of a box plot and violin plot on a dataset split across three groups

ابزارهای تجسم

به عنوان یک نوع تجسم نسبتاً مشترک ، بیشتر ابزارهایی که قادر به تولید تجسم هستند ، به عنوان یک گزینه هیستوگرام خواهند داشت. در جایی که یک هیستوگرام در دسترس نیست ، نمودار نوار باید به عنوان یک جایگزین نزدیک در دسترس باشد. ایجاد هیستوگرام به دلیل نیاز به تست گزینه های مختلف Binning برای یافتن بهترین گزینه ، می تواند به کار کمی بیشتر از سایر انواع نمودارهای اساسی نیاز داشته باشد. با این حال ، این تلاش اغلب ارزش آن را دارد ، زیرا یک هیستوگرام خوب می تواند روشی بسیار سریع برای انتقال دقیق شکل و توزیع کلی یک متغیر داده باشد.

هیستوگرام یکی از انواع مختلف نمودارهای مختلف است که می تواند برای تجسم داده ها مورد استفاده قرار گیرد. از مقالات ما در مورد انواع نمودار ضروری ، نحوه انتخاب یک نوع تجسم داده یا با مرور مجموعه کامل مقالات در گروه نمودارها بیشتر بدانید.

فارکس حرفه ای...
ما را در سایت فارکس حرفه ای دنبال می کنید

برچسب : نویسنده : مرتضی احباب بازدید : 80 تاريخ : دوشنبه 29 اسفند 1401 ساعت: 21:01