خانه / بایگانی برچسب: آمار

بایگانی برچسب: آمار

کاربرد اصل پارتو در علم داده — به زبان ساده

در این مطلب، راهکارهایی بیان شده که با بهره‌گیری از آن‌ها، «دانشمندان داده» (Data Scientists) می‌توانند از قدرت «اصل پارتو» (Pareto Principle) برای انجام فعالیت‌های خود بهره‌مند شوند. در ادامه، ابتدا به بیان مفاهیم و تعاریف و سپس، کاربرد اصل پارتو در علم داده پرداخته خواهد شد. اصل پارتو چیست؟ بیش از یک قرن پیش، «ویلفردو پارتو» (Vilfredo Pareto)، مهندس، جامعه‌شناس، اقتصاددان و فیلسوف، نتایج تحقیقات خود پیرامون توزیع ثروت در جامعه را منتشر کرد. نتایج این پژوهش حاکی از آن بود که ٪۸۰ از ثروت، در اختیار ٪2۰ از افراد جامعه است. این نتیجه، اقتصاددان‌ها، جامعه‌شناس‌ها و دانشمندان علوم سیاسی را شگفت‌زده کرد. در طول قرن گذشته، پیشگامان متعددی در زمینه‌های گوناگون شاهد این توزیع غیر متناسب در چندین زمینه از جمله کسب و کار بودند. این نظریه که تعداد بسیار کمی از ورودی‌ها/علت‌ها (برای مثال ٪2۰) به طور مستقیم روی بخش قابل توجهی از خروجی‌ها/معلول‌ها (برای مثال ٪۸۰) تاثیر می‌گذارد، تحت عنوان «اصل پارتو» (Pareto Principle) شناخته شده است؛ که به آن، قانون 2۰-۸۰ نیز می‌گویند. اصل پارتو بسیار ساده و در ..

توضیحات بیشتر »

آمار پارامتری و ناپارامتری — انتخاب روش های تحلیل

در تحلیل‌های آماری بخصوص مباحث مربوط به آزمون‌های فرض آماری، بر وجود توزیع برای داده‌ها تکیه داریم. در این حالت برای داده‌های کمی، «توزیع نرمال» (Normal Distribution) و برای داده‌های کیفی، توزیع «دوجمله‌ای» (Binomial Distribution) یا «چند جمله‌ای» (Multinomial) در نظر گرفته می‌شود. به این ترتیب هنگام استفاده از روش‌های آماری هرچه قیدهای بیشتری در مورد توزیع داده‌ها داشته باشیم به «روش‌های پارامتری» (Parametric Methods) نزدیک‌تر شده‌ایم. مشخصا این شیوه و روش‌ها در «آمار پارامتری» (Parametric Statistics) مورد بحث و بررسی قرار می‌گیرند. برعکس هر چه قیدهای کمتری در مورد توزیع داده‌ها وجود داشته باشد، روش‌های تحلیلی به سمت «روش‌های ناپارامتری» (Non-Parametric methods) می‌روند و به شاخه «آمار ناپارامتری» (Non-Parametric Statistics) نزدیک می‌شوند. در این نوشتار به بررسی تفاوت روش‌های پارامتری و ناپارامتری در آمار می‌پردازیم و نقاط ضعف و قوت هر یک را مرور خواهیم کرد. برای مطالعه بیشتر در زمینه تحلیل‌ها و آزمون‌های فرض آماری مطلب آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات مناسب به نظر ..

توضیحات بیشتر »

فرایند تصادفی (Random Process) — مفاهیم اولیه

در تئوری احتمالات، «فرایند تصادفی» (Random Process)، براساس دنباله‌ای از متغیرهای تصادفی شکل می‌گیرد که برحسب یک شاخص دارای ترتیب رخ‌داد هستند. معمولا این شاخص را اندیس زمانی در نظر می‌گیرند. به این ترتیب مقدار متغیر تصادفی هم به زمان و هم به توزیع احتمالی متغیر تصادفی وابسته است. در بیشتر مواقع، فرایند تصادفی به بررسی پدیده‌های تصادفی می‌پردازد که برحسب زمان اندیس‌گذاری شده‌اند یا به بیان دیگر تغییراتی وابسته به زمان دارند. فرایندهای تصادفی در زمینه‌های مختلف علوم بخصوص در زیست‌شناسی (فرایند رشد باکتری‌ها در طول زمان)، فیزیک (حرکت براونی ملکول‌ها و فیزیک کوانتم) و حتی بازار سهام و تجارت به کار می‌روند. در این نوشتار به معرفی فرایند تصادفی و بعضی از گونه‌های آن خواهیم پرداخت که در شاخه‌های مختلف علم کاربرد دارند. برای درک بهتر این مطلب بهتر است نوشتارهای متغیر تصادفی، تابع احتمال و تابع توزیع احتمال و آزمایش تصادفی، پیشامد و تابع احتمال را از قبل مطالعه کرده باشید. همچنین خواندن مطلب متغیر تصادفی و توزیع نمایی — به زبان ساده نیز خالی از لطف نیست. فرایند تصادفی (Random Process) یک فر..

توضیحات بیشتر »

تابع Outlier در اکسل و مدیریت مقادیر پرت با آن — راهنمای کاربردی

یک مقدار پرت یا به اصطلاح «Outlier»، مقداری است که از بیشتر داده‌های موجود در لیست بسیار بیشتر یا بسیار کمتر است. زمانی که از اکسل برای بررسی داده‌های خود استفاده می‌کنید، این مقادیر پرت می‌توانند نتیجه را به سمت دیگری سوق دهند. برای مثال ممکن است مقدار متوسط مجموعه‌ای از داده‌ها دقیقا منعکس کننده‌ی مقادیر شما باشد. اکسل تعدادی تابع کاربردی در اختیار شما قرار داده است تا با استفاده از آن‌ها بتوانید این مقادیر را مدیریت کنید. در ادامه نگاهی به این توابع می‌اندازیم. یک مثال سریع در تصویر زیر، مقادیر پرت به سادگی قابل مشاهده هستند. مقدار 2 به «Eric» و مقدار 173 نیز به «Ryan» نسبت داده شده است. در یک مجموعه داده‌ای نظیر شکل زیر، پیدا کردن و مدیریت مقادیر پرت به صورت دستی کاری آسان است. در یک مجموعه داده‌ای بزرگتر، ممکن است شرایط طور دیگری باشد. پیدا کردن و حذف این مقادیر از محاسبات آماری بسیار ضروری است و به همین دلیل است که در این مطلب به چنین مساله‌ای پرداخته‌ایم. پیدا کردن مقادیر پرت در داده‌ها برای پیدا کردن مقادیر پرت در یک مجموعه داده‌ای، گام‌های زیر را دنبال کنید: چارک اول و سو..

توضیحات بیشتر »

تحلیل تشخیص خطی فیشر (Fisher’s Linear Discriminant) — پیاده سازی در پایتون

در بیشتر موارد به منظور حل مسائل ساده، الگوریتم‌های مختلف «یادگیری ماشین» (Machine Learning) با استفاده از تکنیک‌ها مختلف به جواب واحدی می‌رسند. ولی بوسیله بعضی از تبدیلات، می‌توان سرعت و دقت انجام عملیات یادگیری ماشین را بهبود بخشید. در این نوشتار به بررسی یکی از این تبدیلات به نام «تحلیل تشخیص خطی فیشر» (Fisher’s Linear Discriminant) می‌پردازیم و از آن برای حل مسائل یادگیری ماشین بهره می‌بریم. از آنجایی که آنالیز یا تحلیل تشخیص خطی فیشر، الهام گرفته از یکی دیگر از ابتکارات دیگر این دانشمند آمار یعنی «تحلیل واریانس» (Analysis of Variance) است، با خواندن مطلب تحلیل واریانس (Anova) — مفاهیم و کاربردها پیش‌نیازهای لازم برای این نوشتار را کسب خواهید کرد. همچنین در این نوشتار به مفاهیم احتمال پسین و پیشین برخورد خواهیم کرد. برای آشنایی بیشتر با این مفاهیم بهتر است مطلب احتمال پسین (Posterior Probability) و احتمال پیشین (Prior Probability) — به زبان ساده را از قبل مطالعه کرده باشید. همچنین خواندن متن تابع درستنمایی (Likelihood Function) و کاربردهای آن — به زبان ساده و بردار ویژه و مقدار وی..

توضیحات بیشتر »

اعداد تصادفی (Random Numbers) — تاریخچه و کاربردها

ضرورت استفاده از «اعداد تصادفی» (Random Number) در صنعت، نمونه‌گیری و توزیع‌های آماری و بخصوص «رمزنگاری» (Cryptography) اطلاعات رایانه‌ای برهیچ کس پوشیده نیست. ولی سوالی که مطرح می‌شود این است که چگونه مطمئن هستیم که روش‌های مختلف تولید عدد تصادفی، واقعا اعداد تصادفی تولید کرده‌اند. آیا واقعا اعداد تصادفی تولید شده توسط الگوریتم‌ها، دستگاه‌های الکترونیکی و … تصادفی هستند. در این نوشتار به بررسی علت نیاز به اعداد تصادفی، تاریخچه تولید آن‌ها و کاربردهایشان می‌پردازیم. از آنجایی که معمولا در تولید اعداد تصادفی از توزیع یکنواخت (گسسته) استفاده می‌شود، مطالعه نوشتار توزیع یکنواخت گسسته و پیوسته — مفاهیم و کاربردها خالی از لطف نیست. اعداد تصادفی (Random Numbers) چگونه می‌توان پدیده تصادفی (Random Phenomena) را تشخیص داد؟ آیا همه پدیده‌های طبیعی تصادفی هستند؟ از آنجایی که پدیده‌های تصادفی، غیرقابل پیش‌بینی هستند، زیبا به نظر می رسند ولی مشکل آن است که استخراج و تشخیص پدیده‌های تصادفی طبیعی کاری سخت و پیچیده است. یکی از قدیمی‌ترین وسایل ایجاد پدیده‌های (اعداد) تصادفی که به دست انسان ساخته ش..

توضیحات بیشتر »

تحلیل سری زمانی با پایتون — مقدمات و مفاهیم اولیه

تحلیل سری زمانی، مرتبط با داده‌هایی است که به نحوی با زمان در ارتباط هستند. تشخیص رفتار و بخصوص پیش‌بینی این داده‌ها از مباحث مربوط به سری زمانی است. در این نوشتار به بررسی روش‌های تحلیل سری زمانی با پایتون خواهیم پرداخت. تحلیل سری زمانی با پایتون به صورت دنباله‌ای از نوشتارها در سه بخش ارائه می‌شود. بخش نخست: تحلیل سری زمانی با پایتون — مقدمات و مفاهیم اولیه بخش دوم: تحلیل سری زمانی با پایتون — معرفی انواع مدل‌ها بخش سوم: تحلیل سری زمانی با پایتون — مدل‌های ترکیبی و پیچیده برای آشنایی بیشتر با مقدمات مربوط به مبحث سری زمانی بهتر است نوشتار تحلیل سری زمانی — تعریف و مفاهیم اولیه را بخوانید. همچنین خواندن مطلب سری زمانی در علم داده — از صفر تا صد نیز خالی از لطف نیست. تحلیل سری زمانی تحلیل سری‌های زمانی در بسیاری از زمینه‌ها بخصوص صنعت کسب و کار و بنگاه‌های مالی گرفته تا علوم اجتماعی به کار می‌رود. از آنجایی که رفتار داده‌ها در بستر زمان یکسان نیست، الگو‌ها و شیوه‌های مختلفی برای پیش‌بینی سری‌های زمانی ابداع و تعریف شده است. در این نوشتار به معرفی بعضی از این الگو‌ها خواهیم پرداخت و ش..

توضیحات بیشتر »

آماره بسنده (Sufficient Statistic) و بسنده مینیمال — به زبان ساده

در تئوری آمار، موضوع برآوردیابی از اهمیت خاصی برخوردار است. منظور از برآوردیابی، بدست آوردن تابعی از نمونه تصادفی است که بتوان به کمک آن پارامتر جامعه را مشخص کرد. به نظر می‌رسد برای رسیدن به این منظور آماره نباید تابعی از پارامتر باشد. در این حالت فرض کنید $$T_n(X)$$ تابعی از نمونه تصادفی n تایی باشد، علاقمند هستیم که این آماره بتواند بیشترین اطلاعات را در مورد پارامتر مجهول جامعه در اختیارمان قرار دهد، بطوری که هر آماره دیگر، قادر به ارائه این میزان اطلاعات در مورد پارامتر نباشد. چنین تابعی از نمونه تصادفی را به عنوان «آماره بسنده» (Sufficient Statistic) می‌شناسیم. به نظر می‌رسد بهترین پاسخ برای چنین وضعیتی می‌تواند خود نمونه تصادفی $$X_1,X_2, cdots , X_n$$ باشد. ولی در بعضی از مواقع می‌توان توابعی دیگر مانند حاصل جمع یا میانگین نمونه تصادفی را هم به عنوان آماره بسنده برای پارامتر جامعه در نظر گرفت. به این ترتیب این آماره‌ها میزان اطلاعات یکسانی از پارامتر جامعه در خود دارند. همانطور که مشخص شد، آماره بسنده یکتا نیست و ممکن است آماره‌ها مختلفی پیدا کرد که در مورد پارامتر، اطلاعات ی..

توضیحات بیشتر »

خوشه بندی سلسله مراتبی در SPSS — راهنمای کاربردی

تحلیل خوشه‌بندی، یک تحلیل اکتشافی محسوب می‌شود. به وسیله این روش، امکان کشف ساختار داده‌ها بوجود می‌آید. به این ترتیب داده‌های متجانس و یک شکل مشخص شده و در یک دسته قرار می‌گیرند. از طرفی بین دسته‌ها، کمترین شباهت وجود دارد. یکی از روش‌های مرسوم در دسته‌بندی داده‌ها خوشه بندی سلسله مراتبی (Hierarchical Clustering) است. خوشبختانه در بیشتر نرم‌افزارهای محاسبات آماری مانند SPSS امکان اجرای روش‌های مختلف خوشه‌بندی وجود دارد. در این نوشتار به بررسی شیوه اجرای خوشه‌بندی سلسله مراتبی در SPSS خواهیم پرداخت. برای آشنایی بیشتر با شیوه‌های مختلف خوشه‌بندی و سنجش فاصله، مطلب آشنایی با خوشه‌بندی (Clustering) و شیوه‌های مختلف آن و فاصله اقلیدسی، منهتن و مینکوفسکی ــ معرفی و کاربردها در داده‌کاوی را بخوانید. همچنین خواندن نوشتار ماتریس مشابهت (Similarity) و فاصله (Distance) به همراه کدهای محاسباتی در R — راهنمای گام به گام نیز خالی از لطف نیست. خوشه بندی سلسله مراتبی در دیگر نوشتارهای فرادرس با مفهوم خوشه‌بندی آشنا شده‌اید. یکی از پرکاربردترین روش‌های خوشه‌بندی، «خوشه‌بندی سلسله مراتبی» (Hierarchic..

توضیحات بیشتر »

سری زمانی در علم داده — از صفر تا صد

مبحث «سری‌های زمانی» (Time Series) به داده‌های وابسته به زمان مربوط می‌شود. تحلیل سری زمانی نیز یک از روش‌های تحلیل چنین داده‌هایی است. برای مثال تشخیص روند تغییرات ارزش سهام با توجه به داده‌های جمع‌آوری شده در طول یک سال می‌تواند تحلیل سری زمانی نامیده شود. معمولا در تحلیل سری زمانی، هدف ایجاد مدلی است که رفتار داده‌های مرتبط با زمان را تشخیص دهد. به این ترتیب می‌توان عمل پیش‌بینی را برای آینده صورت داد. به نظر می‌رسد تحلیل سری زمانی، کمک می‌کند که با مطالعه گذشته و درس گرفتن از آن، آینده را پیش‌بینی کرد و به بهتر شدن آن دست زد. برای آشنایی با مفاهیم اولیه و آماری این مبحث می‌توانید به نوشتار تحلیل سری زمانی — تعریف و مفاهیم اولیه مراجعه کنید. همچنین برای آشنایی با ابزارهای تحلیل سری زمانی بهتر است نوشتار فرادرس در این زمینه با نام تابع خودهمبستگی (Autocorrelation Function) — مفاهیم و کاربردها را نیز مطالعه کنید. سری زمانی در علم داده گاهی می‌توان سری زمانی را به صورت یک مسئله رگرسیون با متغیر مستقل «زمان» در نظر گرفت. در این حالت هدف از انجام تحلیل سری زمان، محاسبه مقدار متغیر واب..

توضیحات بیشتر »