خانه / بایگانی برچسب: داده کاوی

بایگانی برچسب: داده کاوی

آشنایی با کتابخانه Jenetics در جاوا — راهنمای کاربردی

در این مقاله یک کتابخانه بسیار قدرتمند جاوا به نام Jenetics را توصیف می‌کنیم که برای حل کردن مسائل مختلف بهینه‌سازی مورد استفاده قرار می‌گیرد. اگر می‌خواهید با مبانی ابتدایی الگوریتم‌های ژنتیک در جاوا آشنا شوید، پیشنهاد می‌کنیم به مقاله زیر رجوع کنید: طراحی الگوریتم ژنتیک در جاوا — به زبان ساده 1. طرز کار کتابخانه Jenetics چگونه است؟ بر اساس مستندات رسمی (+) کتابخانه Jenetics بر مبنای الگوریتم‌های تکاملی نوشته شده در جاوا عمل می‌کند. الگوریتم‌های تکاملی ریشه در علم زیست‌شناسی دارند، چون سازوکارهای آن‌ها از موضوع تکامل یا فرگشت زیست‌شناختی مانند تولیدمثل، جهش، بازترکیب و انتخاب، الهام گرفته است. Jenetics با استفاده از رابط Stream جاوا پیاده‌سازی شده است و از این رو با بقیه بخش‌های API Stream جاوا به خوبی کار می‌کند. ویژگی‌های اصلی آن به صورت زیر هستند: کمینه‌سازی بی اصطکاک در «کمینه‌سازی بی اصطکاک» (frictionless minimization) نیازی به تغییر دادن یا دستکاری تابع‌های برازش وجود ندارد و می‌توان صرفاً به پیکربندی کلاس Engine پرداخت و بدین ترتیب آماده آغاز نخستین اپلیکیشن شد. بدون وابستگ..

توضیحات بیشتر »

ساخت سیستم توصیه گر در پایتون — به زبان ساده

در این مطلب، ابتدا مفهوم سیستم توصیه گر (Recommendation System) بیان می‌شود و سپس در یک راهنمای گام به گام، روش ساخت یک «سیستم پالایش» برای پیشنهاد فیلم به کاربران، مورد بررسی قرار می‌گیرد. سیستم‌های توصیه‌گر یکی از برجسته‌ترین مثال‌های یادگیری ماشین در زندگی انسان‌ها هستند. آن‌ها تعیین می‌کنند که چه مطالبی در «خوراک خبری» حساب کاربری فیس‌بوک افراد نمایش داده شوند، محصولات با چه ترتیبی در آمازون به نمایش دربیایند، چه ویدئوهایی در نتفلیکس به افراد پیشنهاد شوند و مثال‌های بیشمار دیگر. اما، سیستم‌های توصیه‌گر واقعا چه هستند و چگونه کار می‌کنند؟ در این مطلب، ضمن ارائه مفاهیم اولیه، روش ساخت یک سیستم توصیه‌گر فیلم به همراه کدهای پیاده‌سازی آن ارائه شده است. سیستم توصیه گر چیست؟ یک سیستم توصیه‌گر، یک مدل پالایش اطلاعات است که آیتم‌ها را برای کاربر، امتیازدهی یا رتبه‌دهی می‌کند. این سیستم‌ها غالبا از دو روش رتبه‌بندی استفاده می‌کنند که هر یک در ادامه بیان شده است. پالایش مبتنی بر محتوا (Content-Based Filtering): در روش رتبه‌بندی پالایش مبتنی بر محتوا، آیتم‌های توصیه شده بر مبنای مشابهت آیتم..

توضیحات بیشتر »

کاربرد اصل پارتو در علم داده — به زبان ساده

در این مطلب، راهکارهایی بیان شده که با بهره‌گیری از آن‌ها، «دانشمندان داده» (Data Scientists) می‌توانند از قدرت «اصل پارتو» (Pareto Principle) برای انجام فعالیت‌های خود بهره‌مند شوند. در ادامه، ابتدا به بیان مفاهیم و تعاریف و سپس، کاربرد اصل پارتو در علم داده پرداخته خواهد شد. اصل پارتو چیست؟ بیش از یک قرن پیش، «ویلفردو پارتو» (Vilfredo Pareto)، مهندس، جامعه‌شناس، اقتصاددان و فیلسوف، نتایج تحقیقات خود پیرامون توزیع ثروت در جامعه را منتشر کرد. نتایج این پژوهش حاکی از آن بود که ٪۸۰ از ثروت، در اختیار ٪2۰ از افراد جامعه است. این نتیجه، اقتصاددان‌ها، جامعه‌شناس‌ها و دانشمندان علوم سیاسی را شگفت‌زده کرد. در طول قرن گذشته، پیشگامان متعددی در زمینه‌های گوناگون شاهد این توزیع غیر متناسب در چندین زمینه از جمله کسب و کار بودند. این نظریه که تعداد بسیار کمی از ورودی‌ها/علت‌ها (برای مثال ٪2۰) به طور مستقیم روی بخش قابل توجهی از خروجی‌ها/معلول‌ها (برای مثال ٪۸۰) تاثیر می‌گذارد، تحت عنوان «اصل پارتو» (Pareto Principle) شناخته شده است؛ که به آن، قانون 2۰-۸۰ نیز می‌گویند. اصل پارتو بسیار ساده و در ..

توضیحات بیشتر »

رسم نمودار داده ها در پایتون — راهنمای تخصصی

اغلب هنگامی که بخواهیم نمودارهای آماری را در پایتون رسم کنیم، از کتابخانه matplotlib استفاده می‌کنیم. در این نوشتار از کتابخانه plotly از pandas استفاده خواهیم کرد که قادر به ترسیم نمودارهای جذاب‌تر و البته با امکانات بهتر و موثر از توابع matplotlib است. با استفاده از این کتابخانه می‌توانید حتی با یک خط کد، نمودار زیبا و گویایی از داده‌ها ترسیم کنید. اگر می‌خواهید با انواع نمودارها و نحوه نمایش داده‌ها آشنا شوید، بهتر است ابتدا مطلب نمایش و رسم نمودار برای داده‌ها — معرفی و کاربردها را مطالعه کرده باشید. البته برای ترسیم بعضی از نمودارهای مختلف آماری در زبان برنامه نویسی R به مطلب نمودار میله‌ای (Bar Chart) در R — راهنمای کاربردی و نمودار نقطه‌ای (Scatter Plot) در R — راهنمای کاربردی مراجعه کنید. همچنین برای آشنایی با نحوه ترسیم نمودار جعبه‌ای در پایتون خواندن مطلب نمودار جعبه ای (Boxplot) و رسم آن در پایتون – به زبان ساده نیز خالی از لطف نیست. ترسیم و نمایش داده در پایتون هر چند کتابخانه‌های مختلفی در پایتون برای ترسیم و رسم نمودار وجود دارد ولی شاید کتابخانه plotly یکی از بهترین اب..

توضیحات بیشتر »

آمار پارامتری و ناپارامتری — انتخاب روش های تحلیل

در تحلیل‌های آماری بخصوص مباحث مربوط به آزمون‌های فرض آماری، بر وجود توزیع برای داده‌ها تکیه داریم. در این حالت برای داده‌های کمی، «توزیع نرمال» (Normal Distribution) و برای داده‌های کیفی، توزیع «دوجمله‌ای» (Binomial Distribution) یا «چند جمله‌ای» (Multinomial) در نظر گرفته می‌شود. به این ترتیب هنگام استفاده از روش‌های آماری هرچه قیدهای بیشتری در مورد توزیع داده‌ها داشته باشیم به «روش‌های پارامتری» (Parametric Methods) نزدیک‌تر شده‌ایم. مشخصا این شیوه و روش‌ها در «آمار پارامتری» (Parametric Statistics) مورد بحث و بررسی قرار می‌گیرند. برعکس هر چه قیدهای کمتری در مورد توزیع داده‌ها وجود داشته باشد، روش‌های تحلیلی به سمت «روش‌های ناپارامتری» (Non-Parametric methods) می‌روند و به شاخه «آمار ناپارامتری» (Non-Parametric Statistics) نزدیک می‌شوند. در این نوشتار به بررسی تفاوت روش‌های پارامتری و ناپارامتری در آمار می‌پردازیم و نقاط ضعف و قوت هر یک را مرور خواهیم کرد. برای مطالعه بیشتر در زمینه تحلیل‌ها و آزمون‌های فرض آماری مطلب آزمون های فرض و استنباط آماری — مفاهیم و اصطلاحات مناسب به نظر ..

توضیحات بیشتر »

حملات تخاصمی (Adversarial Attacks) با چارچوب PyTorch — راهنمای کاربردی

در سال‌های اخیر از «هوش مصنوعی» (Artificial Intelligence) و «یادگیری ماشین» (Machine Learning) در زمینه‌های گوناگونی استفاده شده است. برخی از دانشمندان نسبت به رشد بی‌وقفه هوش مصنوعی ابراز نگرانی کرده‌اند و برخی دیگر این نگرانی‌ها را بی‌دلیل می‌دانند. اما جنس دیگری از نگرانی‌ها اخیرا در رابطه با مدل‌های یادگیری ماشین مطرح شده که با آنچه پیش‌تر بیان می‌شد متفاوت است. گمراه کردن مدل‌های یادگیری ماشین و یا به عبارتی هک کردن آن‌ها امکان‌پذیر است و شاید این همان موضوعی باشد که واقعا باید نگران آن بود. در ادامه، به موضوع «حملات تخاصمی» (Adversarial Attacks)، مفهوم و چگونگی پیاده‌سازی آن‌ها با استفاده از «زبان برنامه‌نویسی پایتون» (Python Programming Language) پرداخته شده است. حملات تخاصمی (Adversarial Attacks) با وجود آنکه مدل‌های «یادگیری عمیق» (Deep Learning) در بسیاری از وظایف پیچیده موفقیت‌های قابل توجهی کسب کرده‌اند، اما آنقدرها هم که بشر ممکن است فکر کند، هوشمند نیستند. پژوهش‌ها حاکی از آن است که مدل‌های یادگیری عمیق به چیزی با عنوان «نمونه‌های تخاصمی» (Adversarial Examples) آسیب‌پذیر..

توضیحات بیشتر »

هوش تجاری چیست؟ — به زبان ساده

«هوش تجاری» (Business intelligence | BI)، یک فرایند فناوری محور برای تحلیل داده‌ها و ارائه اطلاعات کاربردی به مدیران اجرایی، مدیران بخش‌ها و تصمیم‌سازان یک سازمان و دیگر کاربران نهایی درون سازمانی محسوب می‌شود که به تصمیم‌گیری مبتنی بر اطلاعات کمک می‌کند. این مبحث گستره وسیعی از ابزارها، کاربردها و روش‌ها را در بر می‌گیرد که سازمان‌ها را قادر به گردآوری داده‌ها از سیستم‌های خارجی و منابع داخلی، آماده‌سازی این داده‌ها برای تحلیل، توسعه و اجرای کوئری‌ها روی آن‌ها و ساخت گزارش‌ها، دشبوردها و بصری‌سازی داده‌ها می‌سازد. چنین دشبوردها و بصری‌سازی‌هایی به منظور در دسترس قرار دادن نتایج تحلیلی برای تصمیم‌گیرندگان سازمان و همچنین نیروهای عملیاتی انجام می‌شود. هوش تجاری و تحلیل داده استفاده از اصطلاح هوش تجاری برای اولین بار، دستکم به اواخر 1۸۶۰ باز می‌گردد. این در حالی است که «هاوارد درسنر» (Howard Dresner) برای اولین بار در سال 1۹۸۹، این واژه را به عنوان یک عبارت پوششی برای اعمال روش‌های تحلیل داده به منظور پشتیبانی از فرایندهای تصمیم‌گیری تجاری مطرح کرد. آنچه با عنوان ابزارهای هوش تجاری از آ..

توضیحات بیشتر »

تحلیل تشخیص خطی فیشر (Fisher’s Linear Discriminant) — پیاده سازی در پایتون

در بیشتر موارد به منظور حل مسائل ساده، الگوریتم‌های مختلف «یادگیری ماشین» (Machine Learning) با استفاده از تکنیک‌ها مختلف به جواب واحدی می‌رسند. ولی بوسیله بعضی از تبدیلات، می‌توان سرعت و دقت انجام عملیات یادگیری ماشین را بهبود بخشید. در این نوشتار به بررسی یکی از این تبدیلات به نام «تحلیل تشخیص خطی فیشر» (Fisher’s Linear Discriminant) می‌پردازیم و از آن برای حل مسائل یادگیری ماشین بهره می‌بریم. از آنجایی که آنالیز یا تحلیل تشخیص خطی فیشر، الهام گرفته از یکی دیگر از ابتکارات دیگر این دانشمند آمار یعنی «تحلیل واریانس» (Analysis of Variance) است، با خواندن مطلب تحلیل واریانس (Anova) — مفاهیم و کاربردها پیش‌نیازهای لازم برای این نوشتار را کسب خواهید کرد. همچنین در این نوشتار به مفاهیم احتمال پسین و پیشین برخورد خواهیم کرد. برای آشنایی بیشتر با این مفاهیم بهتر است مطلب احتمال پسین (Posterior Probability) و احتمال پیشین (Prior Probability) — به زبان ساده را از قبل مطالعه کرده باشید. همچنین خواندن متن تابع درستنمایی (Likelihood Function) و کاربردهای آن — به زبان ساده و بردار ویژه و مقدار وی..

توضیحات بیشتر »

کاربردهای کلان داده و تاثیر آن بر کسب و کار — راهنمای جامع

«تحلیل کلان داده» (Big Data Analytics) توسط کسب‌و‌کارها، دولت‌ها و پژوهشگران با اهداف گوناگونی انجام می‌شود. بسیاری از کسب‌و‌کارها، به منظور افزایش فروش، از تحلیل کلان داده‌ها بهره می‌برند. اما امروزه، کاربرد تحلیل کلان داده‌ها در کسب و‌ کار، پای را فراتر از این حوزه گذاشته و حتی به منظور ساخت مدل‌های جدید کسب و کار، طراحی کارکردها و تعریف نقش‌های جدید در سازمان، از تحلیل کلان داده‌ها استفاده می‌شود. بسیاری از دولت‌ها و پژوهشگران حوزه مطالعات اجتماعی از تحلیل کلان داده‌ها به منظور پیش‌بینی رخدادهای اجتماعی بهره می‌برند. در حوزه بهداشت و درمان، برای تشخیص، درمان و حتی پیش‌بینی وقوع و شیوع بیماری‌ از تحلیل داده‌های انبوه استفاده می‌شود. هدف از این مطلب، بررسی تاثیرات کلان داده در صنایع مختلف است. در این نوشتار، ابتدا به بررسی کاربردهای کلان داده بر اساس نوع داده پرداخته شده و سپس تاثیرات کلان داده بر حوزه‌های گوناگون مورد بررسی قرار گرفته است. در نهایت به بررسی تاثیرات کلان داده بر کارکردها و مدل‌های کسب‌و‌کار پرداخته شده است. کاربردهای کلان داده بر اساس نوع داده برخی از کاربردهای کلان..

توضیحات بیشتر »

حاکمیت کلان داده (Big Data Governance) — به زبان ساده

رشد روزافزون داده‌ها، منجر به طرح مفهوم «کلان داده» (مِه داده | Big Data) داده شده است. این مبحث، در فضای کنونی کسب و کارها، یکی از موضوعات داغ و کاربردی محسوب می‌شود. از همین رو، در وبلاگ فرادرس طی چندین مطلب به این موضوع پرداخته شده است. در این نوشتار، مفهوم «حاکمیت کلان داده» (Big Data Governance) مورد بررسی قرار گرفته است. علاقمندان به آشنایی بیشتر با مفهوم کلان داده، تحلیل کلان داده، ابزارها، چالش‌ها و فناوری‌های مرتبط، می‌توانند مطالب زیر را مطالعه کنند: کلان داده یا مِه داده (Big Data) — از صفر تا صد مفاهیم کلان داده (Big Data) و انواع تحلیل داده — راهنمای جامع تحلیل کلان داده (Big Data)، چالش‌ها و فناوری‌های مرتبط — راهنما به زبان ساده ابزارهای تحلیل کلان‌داده (Big Data) — راهنمای کامل حاکمیت کلان داده با توجه به رشد انفجاری داده‌ها در حوزه «فناوری اطلاعات و ارتباطات» (Information and Communications Technology | ICT)، سازمان‌ها و شرکت‌ها هم در بخش خصوصی و هم در بخش دولتی، نیاز به مدیریت کارآمد داده‌ها، «تحلیل داده‌ها» (Data Analytics)، استخراج دانش از آن‌ها و همچنین، تصمیم‌ساز..

توضیحات بیشتر »