هیستوگرام نموداری است که توزیع مقادیر یک متغیر عددی را به صورت یک سری میله ترسیم می کند. هر نوار معمولاً محدوده ای از مقادیر عددی به نام bin یا کلاس را پوشش می دهد. ارتفاع یک نوار نشان دهنده بسامد نقاط داده با مقدار درون bin مربوطه است.
هیستوگرام بالا یک توزیع فرکانس برای زمان تا پاسخ برای بلیط های ارسال شده به یک سیستم پشتیبانی ساختگی را نشان می دهد. هر نوار یک ساعت از زمان را پوشش می دهد و ارتفاع نشان دهنده تعداد بلیط ها در هر بازه زمانی است. میتوانیم ببینیم که بیشترین فرکانس پاسخها در محدوده 2 تا 3 ساعت بود، با دم بلندتر به سمت راست نسبت به چپ. همچنین یک تپه کوچکتر وجود دارد که اوج آن (حالت) در محدوده 13-14 ساعت است. اگر فقط به آمارهای عددی مانند میانگین و انحراف معیار نگاه کنیم، ممکن است این واقعیت را از دست بدهیم که این دو قله در آمار کلی نقش داشته اند.
هیستوگرام ها برای نشان دادن ویژگی های توزیع کلی متغیرهای مجموعه داده خوب هستند. تقریباً میتوانید ببینید که قلههای توزیع کجا هستند، آیا توزیع اریب است یا متقارن، و آیا نقاط پرت وجود دارد.
برای استفاده از هیستوگرام، ما به سادگی به متغیری نیاز داریم که مقادیر عددی پیوسته را بگیرد. این بدان معنی است که تفاوت بین مقادیر بدون توجه به مقادیر مطلق آنها سازگار است. به عنوان مثال، حتی اگر نمره یک آزمون فقط مقادیر صحیح بین 0 تا 100 را به خود اختصاص دهد، یک شکاف با اندازه یکسان صرف نظر از اینکه در کجای مقیاس قرار داریم، معنی یکسانی دارد: تفاوت بین 60 و 65 همان 5 امتیاز است. اندازه تفاوت بین 90 تا 95.
اطلاعات مربوط به تعداد سطل ها و مرزهای آنها برای جمع آوری نقاط داده، ذاتی خود داده نیست. درعوض، تنظیم سطل ها یک تصمیم جداگانه است که باید هنگام ساخت یک هیستوگرام بگیریم. روشی که ما بنها را مشخص میکنیم تأثیر عمدهای بر نحوه تفسیر هیستوگرام خواهد داشت، همانطور که در زیر مشاهده میشود.
هنگامی که یک مقدار در مرز bin قرار دارد، به طور مداوم به bin در سمت راست یا چپ آن اختصاص داده می شود (یا اگر در نقاط انتهایی باشد به سطل های انتهایی). کدام سمت انتخاب می شود به ابزار تجسم بستگی دارد. برخی از ابزارها این گزینه را دارند که ترجیحات پیش فرض خود را لغو کنند. در این مقاله فرض می شود که مقادیر روی یک مرز bin به bin سمت راست اختصاص داده می شود.
یکی از راه هایی که ابزارهای تجسم می توانند با داده ها به عنوان یک هیستوگرام تجسم شوند ، از یک شکل خلاصه مانند بالا است. در اینجا ، ستون اول مرزهای سطل را نشان می دهد ، و دوم تعداد مشاهدات در هر سطل. از طرف دیگر ، برخی از ابزارها فقط می توانند با ستون داده های اصلی و غیرمجاز کار کنند ، سپس در هنگام ایجاد هیستوگرام ، پارامترهای مشخص شده را برای داده ها اعمال کنند.
جنبه مهم هیستوگرام این است که آنها باید با یک پایه با ارزش صفر ترسیم شوند. از آنجا که فرکانس داده ها در هر سطل به ارتفاع هر نوار دلالت دارد ، تغییر پایه یا معرفی شکاف در مقیاس ، درک توزیع داده ها را کاهش می دهد.
پیرایش 80 امتیاز از محور عمودی باعث می شود توزیع نمرات عملکرد بسیار بهتر از آنچه در واقع وجود دارد.
در حالی که ابزارهایی که می توانند هیستوگرام ایجاد کنند ، معمولاً الگوریتم های پیش فرض برای انتخاب مرزهای سطحی دارند ، احتمالاً می خواهید با پارامترهای binning بازی کنید تا چیزی را انتخاب کنید که نماینده داده های شما باشد. ویکی پدیا بخش گسترده ای در مورد قوانین شست برای انتخاب تعداد مناسب سطل و اندازه آنها دارد ، اما در نهایت ، ارزش استفاده از دانش دامنه را به همراه یک مقدار منصفانه بازی با گزینه های مختلف دارد تا بدانید چه چیزی برای اهداف شما بهتر خواهد بود.
انتخاب اندازه سطل با تعداد سطل ها رابطه معکوس دارد. هرچه اندازه سطل بزرگتر باشد ، سطل های کمتری برای پوشش کل داده ها وجود خواهد داشت. با اندازه سطل کوچکتر ، سطل های بیشتری نیاز به وجود دارد. ارزش آن را دارد که برای آزمایش اندازه های سطل مختلف کمی وقت بگذارید تا ببینید که چگونه توزیع در هر یک به نظر می رسد ، سپس نقشه ای را انتخاب کنید که بهترین داده ها را نشان می دهد. اگر سطل های زیادی داشته باشید ، توزیع داده ها خشن به نظر می رسد و تشخیص سیگنال از سر و صدا دشوار خواهد بود. از طرف دیگر ، با سطل های بسیار کمی ، هیستوگرام از جزئیات مورد نیاز برای تشخیص هرگونه الگوی مفید از داده ها برخوردار نیست.
سطل های پانل سمت چپ بسیار کوچک هستند و حاکی از قله ها و فرورفتگی های زیادی هستند. سطل های پنل سمت راست خیلی بزرگ هستند و هرگونه نشانه ای از قله دوم را پنهان می کنند.
علائم و برچسب ها به طور معمول باید روی مرزهای سطل قرار بگیرند تا به بهترین وجه در مورد محدودیت های هر نوار مشخص شود. نیازی به برچسب ها برای هر نوار نیست ، اما داشتن آنها بین هر چند میله به خواننده کمک می کند تا ارزش را ردیابی کند. علاوه بر این ، اگر برچسب ها فقط با تعداد کمی از ارقام قابل توجه باشند ، مفید است تا خواندن آنها آسان شود.
این نشان می دهد که سطل های اندازه 1 ، 2 ، 2. 5 ، 4 یا 5 (که 5 ، 10 و 20 به طور مساوی تقسیم می شوند) یا قدرت آنها ده نفر از اندازه سطل خوب هستند تا بتوانند به عنوان یک قاعده شست شروع به کار کنند. این همچنین بدان معنی است که سطل های اندازه 3 ، 7 یا 9 احتمالاً خواندن آن دشوارتر خواهد بود و نباید مورد استفاده قرار گیرد مگر اینکه زمینه برای آنها معنی داشته باشد.
بالا: تقسیم بی احتیاطی داده ها را به ده سطل از Min تا Max می تواند با برخی از بخش های سطل بسیار عجیب و غریب به پایان برسد. پایین: هنگامی که اندازه سطل به راحتی دنبال شود ، علائم کنه کمتری لازم است.
یک کلمه کوچک احتیاط: اطمینان حاصل کنید که انواع مقادیری را که متغیر علاقه شما در نظر می گیرد در نظر بگیرید. در مورد اندازه سطل کسری مانند 2. 5 ، اگر متغیر شما فقط مقادیر عدد صحیح را در نظر بگیرد ، این می تواند یک مشکل باشد. یک سطل که از 0 تا 2. 5 در حال اجرا است ، فرصتی برای جمع آوری سه مقدار مختلف (0 ، 1 ، 2) دارد اما سطل زیر از 2. 5 به 5 فقط می تواند دو مقدار مختلف را جمع کند (3 ، 4 - 5 در سطل زیر قرار می گیرد). این بدان معنی است که هیستوگرام شما به دلیل تعداد مقادیری که هر سطل ممکن است از آن استفاده کند ، می تواند به طور غیر طبیعی "برآمد" به نظر برسد.
شکل بالا توزیع نتایج را هنگام جمع آوری نتیجه پنج رول قالب ، 20 000 بار تکرار می کند. شکل زنگ مورد انتظار هنگام اندازه سطل که مقادیر مختلفی از نتایج عدد صحیح را ضبط می کند ، لکه دار و یا به نظر می رسد.
همانطور که در بخش های افتتاحیه ذکر شد ، یک هیستوگرام برای نشان دادن توزیع فرکانس یک متغیر عددی مداوم است. هنگامی که متغیر مورد علاقه ما متناسب با این خاصیت نیست ، ما باید به جای آن از نوع نمودار دیگری استفاده کنیم: نمودار نوار. متغیری که مقادیر طبقه ای را می گیرد ، مانند نوع کاربر (به عنوان مثال مهمان ، کاربر) یا مکان به وضوح غیر عددی است و بنابراین باید از نمودار نوار استفاده کند. با این حال ، انواع متغیر خاصی وجود دارد که می توانند طبقه بندی شوند: مواردی که مقادیر عددی گسسته را به خود اختصاص می دهند و مقادیر مبتنی بر زمان را به خود اختصاص می دهند.
متغیرهایی که مقادیر عددی گسسته (به عنوان مثال اعداد صحیح 1 ، 2 ، 3 و غیره) را می گیرند ، بسته به متن ، می توانند با نمودار نوار یا هیستوگرام ترسیم شوند. استفاده از هیستوگرام در مواردی که مقادیر مختلف زیادی برای ترسیم وجود داشته باشد ، بیشتر خواهد بود. هنگامی که دامنه مقادیر عددی بزرگ باشد ، این واقعیت که مقادیر گسسته هستند ، مهم نیستند و گروه بندی مداوم ایده خوبی خواهد بود.
نکته اصلی که باید مراقب باشید این است که اعداد نماینده ارزش واقعی هستند. اگر اعداد در واقع کد برای یک متغیر طبقه بندی شده یا مرتب هستند ، این نشانه ای از استفاده از نمودار نوار است. به عنوان مثال ، اگر پاسخ های نظرسنجی را در مقیاس از 1 تا 5 دارید ، و مقادیر "کاملاً مخالف" تا "کاملاً موافق" را رمزگذاری می کنید ، توزیع فرکانس باید به عنوان نمودار نوار تجسم شود. دلیل این امر این است که تفاوت بین ارزشهای فردی ممکن است سازگار نباشد: ما واقعاً نمی دانیم که تفاوت معنی دار بین 1 و 2 ("کاملاً مخالف" با "مخالف" است) همان تفاوت بین 2 و 3 است("مخالف" با "نه موافق و نه مخالف").
یک مورد پیچیده تر زمانی است که متغیر علاقه ما یک ویژگی مبتنی بر زمان است. هنگامی که مقادیر با دوره های نسبی زمان مطابقت دارند (به عنوان مثال 30 ثانیه ، 20 دقیقه) ، سپس به دوره های زمانی برای یک هیستوگرام می پردازد. با این حال ، هنگامی که مقادیر با زمان های مطلق مطابقت دارند (به عنوان مثال 10 ژانویه ، 12:15) تمایز مبهم می شود. هنگامی که نقاط داده جدید ثبت می شود ، مقادیر معمولاً به جای در محدوده موجود از سطل های موجود ، به سطل های تازه ایجاد شده می روند. علاوه بر این ، برخی از گزینه های گروه بندی طبیعی ، مانند ماه یا چهارم ، اندازه سطل کمی نابرابر را معرفی می کنند. به همین دلایل ، دیدن یک نوع نمودار متفاوت مانند نمودار نوار یا نمودار خط مورد استفاده بسیار غیرمعمول نیست.
در حالی که تمام نمونه های تاکنون هیستوگرام ها را با استفاده از سطل های اندازه مساوی نشان داده اند ، این در واقع یک نیاز فنی نیست. هنگامی که داده ها پراکنده هستند ، مانند زمانی که یک دم طولانی داده وجود دارد ، ممکن است این ایده به ذهن متبادر شود که از عرض سطل بزرگتر برای پوشاندن آن فضا استفاده کنید. با این حال ، ایجاد یک هیستوگرام با سطل های اندازه نابرابر کاملاً اشتباه نیست ، اما انجام این کار نیاز به تغییرات اساسی در نحوه ایجاد هیستوگرام دارد و می تواند در تفسیر مشکلات زیادی ایجاد کند.
نکته فنی در مورد هیستوگرام این است که مساحت کل میله ها کل را نشان می دهد و منطقه اشغال شده توسط هر نوار نشان دهنده نسبت کل موجود در هر سطل است. هنگامی که اندازه سطل سازگار است ، این امر باعث می شود اندازه گیری نوار و ارتفاع معادل آن باشد. در یک هیستوگرام با اندازه سطل متغیر ، با این حال ، ارتفاع دیگر نمی تواند با فرکانس کل وقایع مطابقت داشته باشد. انجام این کار باعث می شود درک چند امتیاز در هر سطل باشد ، زیرا افزایش اندازه سطل فقط باعث می شود بزرگتر به نظر برسد. در نقشه مرکزی شکل زیر ، سطل های 5-6 ، 6-7 و 7-10 به نظر می رسد که به نظر می رسد که دارای امتیاز بیشتری نسبت به آنچه در واقع انجام می دهند.
سمت چپ: هیستوگرام با سطل های اندازه برابر ؛مرکز: هیستوگرام با سطل های نابرابر اما واحدهای محور عمودی نادرست. سمت راست: هیستوگرام با سطل های نابرابر با ارتفاع چگالی
در عوض ، محور عمودی نیاز به رمزگذاری چگالی فرکانس در هر واحد اندازه سطل دارد. به عنوان مثال ، در صفحه سمت راست شکل فوق ، سطل از 2-2. 5 دارای ارتفاع حدود 0. 32 است. با عرض سطل ، 0. 5 ضرب کنید و می توانیم حدود 16 ٪ از داده های موجود در آن سطل را تخمین بزنیم. ارتفاع سطل های وسیع در مقایسه با صفحه مرکزی کاهش یافته است: توجه داشته باشید که چگونه شکل کلی شبیه به هیستوگرام اصلی با اندازه سطل مساوی است. چگالی یک مفهوم آسان برای درک نیست ، و چنین نقشه ای که به دیگران ناآشنا با این مفهوم ارائه شده است ، تفسیر آن را دشوار خواهد کرد.
به دلیل همه اینها ، بهترین توصیه این است که سعی کنید و فقط با اندازه سطل کاملاً برابر بچسبید. وجود سطل های خالی و برخی از سر و صدای افزایش یافته در محدوده با داده های پراکنده معمولاً ارزش افزایش تفسیر هیستوگرام شما را دارد. از طرف دیگر ، اگر جنبه های ذاتی متغیر ترسیم شده وجود داشته باشد که اندازه سطل ناهموار را نشان می دهد ، پس به جای استفاده از هیستوگرام سطل ناهموار ، ممکن است به جای آن با یک نوار نوار بهتر باشید.
بسته به اهداف تجسم خود ، ممکن است بخواهید واحدهای موجود در محور عمودی طرح را از نظر فرکانس مطلق یا فرکانس نسبی تغییر دهید. فرکانس مطلق فقط تعداد طبیعی وقایع در هر سطل است ، در حالی که فرکانس نسبی نسبت وقایع در هر سطل است. انتخاب واحدهای محور بستگی به نوع مقایسه هایی دارد که می خواهید در مورد توزیع داده ها تأکید کنید.
با تبدیل اولین مثال از نظر فرکانس نسبی ، اضافه کردن پنج میله اول بسیار ساده تر است تا دریابید که حدود نیمی از بلیط ها در طی پنج ساعت به آن پاسخ داده می شود.
این در واقع یک گزینه مخصوصاً متداول نیست ، اما شایان ذکر است که در سفارشی کردن توطئه های شما پایین می آید. اگر یک ردیف داده برای متغیر مورد علاقه یک مقدار را از دست ندهد ، اغلب برای هر سطل در قسمت زیرین پرش می شود. اگر نشان دادن مقدار مقادیر گمشده یا ناشناخته مهم باشد ، می توانید هیستوگرام را با یک نوار اضافی ترکیب کنید که فرکانس این ناشناخته ها را نشان می دهد. هنگام ترسیم این نوار ، ایده خوبی است که آن را در یک محور موازی از هیستوگرام اصلی و با رنگ متفاوت و خنثی قرار دهید تا نقاط جمع آوری شده در آن نوار با داشتن یک مقدار عددی اشتباه گرفته نشوند.
همانطور که در بالا ذکر شد ، اگر متغیر علاقه مداوم و عددی نباشد ، بلکه در عوض گسسته یا طبقه بندی شده است ، به جای آن ما یک نمودار نوار می خواهیم. بر خلاف یک هیستوگرام ، میله های موجود در نمودار نوار به طور معمول شکاف کمی بین یکدیگر خواهند داشت: این بر ماهیت گسسته متغیر که ترسیم می شود تأکید می کند.
اگر داده های عددی را BINNED دارید اما می خواهید محور عمودی طرح شما چیزی غیر از اطلاعات فرکانس را منتقل کند ، پس باید به دنبال استفاده از نمودار خط باشید. موقعیت عمودی نقاط در یک نمودار خط می تواند مقادیر یا خلاصه های آماری یک متغیر دوم را به تصویر بکشد. هنگامی که از نمودار خط برای به تصویر کشیدن توزیع فرکانس مانند هیستوگرام استفاده می شود ، به این روش چند ضلعی فرکانس گفته می شود.
منحنی چگالی یا برآورد چگالی هسته (KDE) جایگزینی برای هیستوگرام است که به هر نقطه داده سهم مداوم در توزیع می دهد. در یک هیستوگرام ، شما ممکن است از هر نقطه داده به عنوان ریختن مایع از مقدار آن در یک سری سیلندرهای زیر (سطل ها) فکر کنید. در یک KDE ، هر نقطه داده یک توده کوچک از حجم را در اطراف مقدار واقعی خود اضافه می کند ، که برای تولید منحنی نهایی در نقاط داده جمع می شود. شکل توده حجم "هسته" است و گزینه های بی حد و حصر در دسترس است. به دلیل تعداد زیادی از گزینه ها هنگام انتخاب هسته و پارامترهای آن ، منحنی های چگالی به طور معمول دامنه ابزارهای تجسم برنامه ای هستند.
خطوط سیاه ضخیم نقاط داده ای را نشان می دهد که به هیستوگرام (سمت چپ) و منحنی چگالی (سمت راست) کمک می کنند. توجه داشته باشید که چگونه هر نقطه یک منحنی زنگ کوچک شکل را به شکل کلی کمک می کند.
هیستوگرام در نشان دادن توزیع یک متغیر واحد خوب است ، اما اگر بخواهیم آن متغیر را بین گروه های مختلف مقایسه کنیم ، مقایسه بین هیستوگرام تا حدودی مشکل است. با دو گروه ، یک راه حل ممکن ترسیم هیستوگرام دو گروه به پشت به عقب است. یک نسخه خاص دامنه از این نوع طرح ، هرم جمعیت است که توزیع سنی یک کشور یا منطقه دیگر را برای مردان و زنان به عنوان هیستوگرام عمودی برگشت به عقب ترسیم می کند.
با این حال ، اگر ما سه یا چند گروه داریم ، راه حل برگشت به عقب کار نمی کند. یک راه حل می تواند ایجاد هیستوگرام صورتی ، ترسیم یک در هر گروه در یک ردیف یا ستون باشد. گزینه دیگر استفاده از یک نوع طرح متفاوت مانند طرح جعبه یا طرح ویولن است. هر دوی این نوع نقشه ها به طور معمول هنگامی مورد استفاده قرار می گیرند که می خواهیم توزیع یک متغیر عددی را در سطوح یک متغیر طبقه بندی مقایسه کنیم. در مقایسه با هیستوگرام های صورت ، این توطئه ها تصویر دقیق فرکانس مطلق را برای مقایسه نسبی جمع و جور تر از توزیع ها تجارت می کنند.
به عنوان یک نوع تجسم نسبتاً مشترک ، بیشتر ابزارهایی که قادر به تولید تجسم هستند ، به عنوان یک گزینه هیستوگرام خواهند داشت. در جایی که یک هیستوگرام در دسترس نیست ، نمودار نوار باید به عنوان یک جایگزین نزدیک در دسترس باشد. ایجاد هیستوگرام به دلیل نیاز به تست گزینه های مختلف Binning برای یافتن بهترین گزینه ، می تواند به کار کمی بیشتر از سایر انواع نمودارهای اساسی نیاز داشته باشد. با این حال ، این تلاش اغلب ارزش آن را دارد ، زیرا یک هیستوگرام خوب می تواند روشی بسیار سریع برای انتقال دقیق شکل و توزیع کلی یک متغیر داده باشد.
هیستوگرام یکی از انواع مختلف نمودارهای مختلف است که می تواند برای تجسم داده ها مورد استفاده قرار گیرد. از مقالات ما در مورد انواع نمودار ضروری ، نحوه انتخاب یک نوع تجسم داده یا با مرور مجموعه کامل مقالات در گروه نمودارها بیشتر بدانید.
فارکس حرفه ای...برچسب : نویسنده : مرتضی احباب بازدید : 80