زنگ

کسانی هستند که این خبر را قبل از شما می خوانند.
برای دریافت مطالب تازه مشترک شوید.
پست الکترونیک
نام
نام خانوادگی
چگونه می خواهید The Bell را بخوانید
بدون اسپم

ارسال کارهای خوب خود در پایگاه دانش ساده است. از فرم زیر استفاده کنید

دانشجویان ، دانشجویان فارغ التحصیل ، دانشمندان جوانی که از پایگاه دانش در مطالعات و کار خود استفاده می کنند از شما بسیار سپاسگزار خواهند بود.

اسناد مشابه

    شرح عملکرد فناوری داده کاوی به عنوان یک فرآیند کشف داده ناشناخته. مطالعه سیستم های استنتاج برای قوانین انجمنی و مکانیسم های الگوریتم های شبکه عصبی. شرح الگوریتم های خوشه بندی و کاربردهای داده کاوی.

    آزمون ، اضافه شده 06/14/2013

    مبنای خوشه بندی. استفاده از داده کاوی به عنوان روشی برای "کشف دانش در پایگاههای داده". انتخاب الگوریتم های خوشه بندی. بازیابی داده ها از یک پایگاه داده مخزن یک کارگاه راه دور. خوشه بندی دانش آموزان و وظایف.

    مقاله ترم ، اضافه شده 07/10/2017

    بهبود فن آوری برای ضبط و ذخیره داده ها. مشخصات مورد نیاز مدرن برای پردازش داده های اطلاعات. مفهوم قالبهایی که منعکس کننده قطعاتی از روابط چند وجهی در داده ها در هسته فناوری مدرن داده کاوی هستند.

    آزمون ، اضافه شده 09/02/2010

    داده کاوی ، تاریخچه توسعه داده کاوی و کشف دانش. عناصر فن آوری و روش های داده کاوی. مراحل کشف دانش. تغییر و تشخیص انحراف. رشته های مرتبط ، بازیابی اطلاعات و استخراج متن.

    گزارش اضافه شده در 06/16/2012

    داده کاوی به عنوان یک فرایند پشتیبانی تصمیم گیری مبتنی بر جستجوی الگوهای پنهان (الگوهای اطلاعات) در داده ها. قوانین و مراحل اجرای آن ، تاریخچه توسعه این فناوری ، ارزیابی مزایا و معایب ، فرصت ها.

    مقاله اضافه شده 12/17/2014

    طبقه بندی وظایف DataMining. گزارش ها و جمع بندی ها را ایجاد کنید ویژگی های Data Miner در Statistica. وظیفه طبقه بندی ، خوشه بندی و رگرسیون. ابزارهای تجزیه و تحلیل داده کاوی Statistica. ماهیت مسئله جستجوی قوانین انجمنی است. تجزیه و تحلیل پیش بینی کننده بقا.

    مقاله ترم ، اضافه شده در 19/19/2011

    زمینه های امیدوار کننده تجزیه و تحلیل داده ها: تجزیه و تحلیل اطلاعات متن ، داده کاوی. تجزیه و تحلیل اطلاعات ساختاری ذخیره شده در پایگاه داده ها. روند تحلیل اسناد متنی. ویژگی های پردازش داده ها.

    چکیده ، اضافه شده 2013/3/13

    طبقه بندی وظایف داده کاوی. وظیفه خوشه بندی و جستجوی قوانین انجمنی. تعریف کلاس یک شی با توجه به خصوصیات و خصوصیات آن. یافتن وابستگی های مکرر بین اشیا یا رویدادها. پردازش داده های عملیاتی و تحلیلی.

    کار آزمایشی ، اضافه شده 1/13/2013

وزارت آموزش و علوم فدراسیون روسیه

موسسه آموزشی بودجه ایالتی آموزش عالی حرفه ای

"دانشگاه تحقيقات فلسفي TOMSK تحقيقات ملي"

موسسه سایبرنتیک

رشته علوم کامپیوتر و مهندسی کامپیوتر

گروه VT

تست

رشته علوم کامپیوتر و مهندسی کامپیوتر

موضوع: روش های داده کاوی

مقدمه

داده کاوی. مفاهیم اساسی و تعاریف

1 مرحله در داده کاوی

2 اجزای سیستم معدن

3 روش داده کاوی در داده کاوی

روشهای داده کاوی

1 نتیجه گیری از قوانین انجمنی

2 الگوریتم شبکه عصبی

3 روش نزدیکترین همسایه و k-نزدیکترین همسایگان

4 درخت تصمیم گیری

5 الگوریتم خوشه بندی

6 الگوریتم ژنتیکی

زمینه های برنامه

تولید کنندگان داده کاوی

نقد روشها

نتیجه

کتابشناسی - فهرست کتب

مقدمه

نتیجه توسعه فن آوری اطلاعات ، حجم عظیمی از داده های انباشته شده به صورت الکترونیکی ، به سرعت در حال رشد است. علاوه بر این ، داده ها ، به عنوان یک قاعده ، از ساختار ناهمگن (متون ، تصاویر ، صدا ، فیلم ، اسناد ابر متن ، پایگاه داده های رابطه) برخوردار هستند. داده های جمع آوری شده در مدت زمان طولانی می توانند شامل الگوهای ، گرایش ها و روابط باشند که اطلاعات ارزشمندی در برنامه ریزی ، پیش بینی ، تصمیم گیری و فرآیندهای نظارت دارند. با این حال ، یک فرد از نظر جسمی قادر به تجزیه و تحلیل مؤثر چنین حجم از داده های ناهمگن نیست. روش های آماری سنتی ریاضی مدتی است که ادعا می شود ابزار اصلی برای تجزیه و تحلیل داده ها است. با این حال ، آنها سنتز فرضیه های جدید را مجاز نمی دانند ، بلکه فقط می توانند برای تأیید فرضیه های از پیش فرموده شده و تحلیل اکتشافی "خام" ، که پایه پردازش تحلیلی آنلاین (OLAP) است ، مورد استفاده قرار گیرند. غالباً این فرضیه فرضیه است که معلوم می شود دشوارترین کار در طول تجزیه و تحلیل برای تصمیم گیری بعدی است ، زیرا همه الگوهای موجود در داده ها در نگاه اول آشکار نیستند. بنابراین ، فناوری های داده کاوی به عنوان یکی از مهمترین و امیدوار کننده ترین مباحث تحقیق و کاربرد در صنعت فناوری اطلاعات در نظر گرفته می شوند. در این حالت ، داده کاوی به عنوان فرآیند تعیین دانش جدید ، صحیح و بالقوه مفید بر اساس آرایه های بزرگ داده درک می شود. بنابراین ، بررسی فناوری MIT ، داده کاوی را یکی از ده فناوری نوظهور توصیف کرده است که باعث تغییر جهان خواهد شد.

1. داده کاوی. مفاهیم اساسی و تعاریف

داده کاوی فرایندی است برای کشف تفسیر قبلاً ناشناخته ، غیر مهم ، عملی و مفید و در دسترس از داده های "خام" که برای تصمیم گیری در حوزه های مختلف فعالیت های انسانی ضروری است.

ماهیت و هدف فناوری Data Mining را می توان به صورت زیر تنظیم کرد: این فناوری است که برای جستجوی مقادیر زیادی از داده های الگوهای غیر واضح ، عینی و مفید در عمل طراحی شده است.

الگوهای غیر واضح آن دسته از الگوهایی هستند که با روشهای استاندارد پردازش اطلاعات یا به وسیله کارشناسی قابل تشخیص نیستند.

براساس قوانین عینی باید قوانینی فهمیده شود که کاملاً با واقعیت مطابقت داشته باشند ، برخلاف نظر متخصص ، که همیشه ذهنی است.

این مفهوم تحلیل داده فرض می کند که:

§ داده ها می توانند نادرست ، ناقص (حاوی شکاف) ، متناقض ، ناهمگن ، غیرمستقیم و در عین حال حجم غول پیکر باشند. بنابراین ، درک داده ها در برنامه های خاص نیاز به تلاش معنوی قابل توجهی دارد.

themselves خود الگوریتم های تجزیه و تحلیل داده ها ممکن است دارای "عناصر اطلاعاتی" باشند ، به ویژه توانایی یادگیری از موارد قبلی ، یعنی نتیجه گیری کلی بر اساس مشاهدات خصوصی. توسعه چنین الگوریتمهایی نیز نیازمند تلاش معنوی قابل توجهی است.

§ فرآیندهای پردازش داده های خام به اطلاعات ، و اطلاعات به دانش نمی توانند به صورت دستی انجام شوند و نیاز به اتوماسیون دارند.

فناوری داده کاوی مبتنی بر مفهوم الگوهای (الگوهای) است که منعکس کننده قطعاتی از روابط چند وجهی در داده ها است. این الگوهای الگوهای ذاتی در زیر نمونه های داده هایی هستند که می توانند به شکل قابل خواندن توسط انسان بیان شوند.

الگوهای با استفاده از روش هایی جستجو می شوند که با فرضیات پیشینی در مورد ساختار نمونه و نوع توزیع مقادیر شاخص های تحلیل شده محدود نمی شوند.

ویژگی مهم Data Mining عدم استاندارد بودن و غیر واضح بودن الگوهای دلخواه است. به عبارت دیگر ، ابزارهای داده کاوی با ابزارهای پردازش دادههای آماری و ابزارهای OLAP متفاوت هستند به این ترتیب که به جای بررسی وابستگیهای متقابل که قبلاً توسط کاربران پیش بینی شده بود ، می توانند براساس دادههای موجود ، چنین وابستگیهای متفاوتی را بطور مستقل پیدا کنند و ماهیت خود را فرض کنند. پنج نوع استاندارد استاندارد وجود دارد که با روش های داده کاوی مشخص می شوند:

· انجمن - احتمال زیاد وقایع ارتباطی با یکدیگر. نمونه ای از انجمن کالاهای موجود در یک فروشگاه است که اغلب با هم خریداری می شوند.

دنباله - احتمال زیاد زنجیره ای از وقایع مرتبط با زمان. نمونه ای از توالی وضعیتی است که در طی مدت معینی پس از دستیابی به یک محصول ، احتمالاً کالای دیگری به دست می آید.

طبقه بندی - علائمی وجود دارد که گروهی را که این یا آن واقعه یا شیء به آن تعلق دارد مشخص می کند.

· خوشه بندی - الگویی شبیه به طبقه بندی و متفاوت از آن است زیرا گروه ها به طور همزمان تعریف نمی شوند - در پردازش داده ها بطور خودکار شناسایی می شوند.

· الگوهای موقتی - حضور الگوهای در پویایی رفتار برخی از داده ها. نمونه بارز الگوی موقت نوسانات فصلی در تقاضا برای کالاها یا خدمات خاص است.

مراحل مرحله فرآیند داده کاوی

به طور سنتی ، مراحل زیر در فرآیند داده کاوی مشخص می شود:

1. مطالعه حوزه موضوع ، در نتیجه اهداف اصلی تحلیل تدوین می شود.

2. جمع آوری داده ها.

پردازش داده ها:

آ. تمیز کردن داده ها - رفع ناسازگاری ها و "نویز" تصادفی از داده های منبع

ب ادغام داده ها - ترکیب داده ها از چندین منبع ممکن در یک ذخیره سازی. تبدیل داده. در این مرحله داده ها به شکلی مناسب برای تجزیه و تحلیل تبدیل می شوند. اغلب از جمع آوری داده ها ، گسسته سازی ویژگی ها ، فشرده سازی داده ها و کاهش ابعاد استفاده می شود.

4- تجزیه و تحلیل داده ها. به عنوان بخشی از این مرحله ، از الگوریتم های استخراج برای استخراج الگوهای استفاده می شود.

5- تفسیر الگوهای یافت شده. این مرحله ممکن است شامل تجسم الگوهای استخراج شده ، شناسایی الگوهای واقعاً مفید بر اساس برخی عملکردهای ابزار باشد.

استفاده از دانش جدید.

1.2 مؤلفه های سیستم های معدن

به طور معمول ، مؤلفه های اصلی زیر در سیستم های داده کاوی متمایز می شوند:

1. یک بانک اطلاعاتی ، انبار داده یا مخزن اطلاعات دیگر. این می تواند یک یا چند بانک اطلاعاتی ، ذخیره سازی داده ها ، صفحه گسترده ، انواع دیگر مخازن باشد که بر روی آنها می توان تمیز کردن و ادغام را انجام داد.

2. سرور پایگاه داده یا انبار داده. سرور مشخص شده وظیفه بازیابی داده های مواد را براساس درخواست کاربر دارد.

دانش محور. این دانش دامنه است که نشان می دهد چگونه می توان به جستجوی و ارزیابی سودمندی از الگوهای به دست آمده پرداخت.

خدمات استخراج دانش. این یک بخش جدایی ناپذیر از سیستم داده کاوی است و شامل مجموعه ای از ماژول های عملکردی برای کارهایی مانند توصیف ، جستجوی انجمن ، طبقه بندی ، تجزیه و تحلیل خوشه ای و تجزیه و تحلیل انحراف است.

ماژول ارزیابی الگوی. این مؤلفه اقدامات مورد علاقه یا الگوهای ابزار را محاسبه می کند.

رابط کاربر گرافیکی. این ماژول مسئولیت ارتباط بین کاربر و سیستم داده کاوی ، تجسم الگوهای به اشکال مختلف است.

1.3 روشهای داده کاوی در داده کاوی

اکثر روشهای تحلیلی که در فناوری داده کاوی به کار رفته ، الگوریتمها و روشهای ریاضی شناخته شده ای هستند. جدید در کاربرد آنها امکان استفاده از آنها در حل مشکلات خاص ، به دلیل ظهور قابلیت های سخت افزاری و نرم افزاری است. لازم به ذکر است که بیشتر روشهای Data Mining در چارچوب نظریه هوش مصنوعی توسعه یافته اند. متداول ترین روش ها را در نظر بگیرید:

اشتقاق قوانین انجمنی.

2- الگوریتم های شبکه عصبی که ایده آن مبتنی بر قیاس با عملکرد بافت عصبی است و پارامترهای اولیه به عنوان سیگنالی در نظر گرفته می شوند که مطابق با اتصالات موجود بین "نورون ها" تبدیل می شوند و پاسخ کل شبکه به عنوان پاسخ حاصل از تجزیه و تحلیل در نظر گرفته می شود. به داده های منبع

انتخاب یک آنالوگ نزدیک از منبع منبع از داده های تاریخی موجود. این روش همچنین "نزدیکترین همسایه" نامیده می شود.

درخت تصمیم گیری - ساختاری سلسله مراتبی مبتنی بر مجموعه ای از سؤالات که حاکی از پاسخ "بله" یا "نه" است.

مدل های خوشه ای برای ترکیب رویدادهای مشابه در گروه ها بر اساس مقادیر مشابه چندین زمینه در مجموعه داده ها استفاده می شوند.

در فصل بعد ، روش های فوق را با جزئیات بیشتری توصیف می کنیم.

2. روش های داده کاوی

2.1 نتیجه گیری از قوانین انجمنی

قوانین انجمنی قواعد شکل "اگر ... پس ..." هستند. جستجوی چنین قوانینی در یک مجموعه داده ، روابط پنهان را در داده های به ظاهر نامربوط نشان می دهد. یكی از متداول ترین نمونه های جستجو در قانون قاعده ای ، مشكل یافتن روابط پایدار در سبد خرید است. این مشکل تعیین این است که چه کالاهایی توسط مشتریان خریداری می شود تا متخصصان بازاریابی بتوانند به طور مناسب این محصولات را در فروشگاه قرار دهند تا فروش را افزایش دهند.

قوانین انجمنی بعنوان فرمهای (X1 ، X2 ، ... ، Xn) تعریف شده اند -\u003e Y ، در آنجا که درک می شود Y ممکن است در معامله حضور داشته باشد ، مشروط بر اینکه X1 ، X2 ، ... ، Xn در همان معامله حضور داشته باشند. لازم به ذکر است که کلمه "ممکن" دلالت بر این دارد که قاعده یک هویت نیست بلکه فقط با برخی احتمال امکان پذیر است. علاوه بر این ، مجموعه ای از عناصر می توانند مانند Y عمل کنند ، و نه فقط یک عنصر. احتمال یافتن Y در معامله ای که عناصر X1 ، X2 ، ... وجود داشته باشد ، Xn اعتماد به نفس نام دارد. درصد معاملات شامل یک قاعده از کل تعداد معاملات ، پشتیبانی نامیده می شود. سطح یقین ، که باید از قابلیت اطمینان قانون فراتر رود ، جذابیت نامیده می شود.

انواع مختلفی از قوانین انجمنی وجود دارد. در ساده ترین شکل ، قوانین انجمن فقط از حضور یا عدم حضور یک انجمن خبر می دهند. به چنین قوانینی Buleean Association Rule گفته می شود. نمونه ای از این قانون این است: "مشتریانی که ماست خریداری می کنند ، کره کم چرب نیز خریداری می کنند."

قوانینی که چندین قانون انجمن را با هم جمع می کنند ، قوانین انجمن چند سطحی یا تعمیم یافته خوانده می شوند. هنگام ساختن چنین قوانینی ، عناصر معمولاً طبق سلسله مراتب گروه بندی می شوند و جستجو در بالاترین سطح مفهومی انجام می شود. به عنوان مثال ، "مشتریانی که شیر خریداری می کنند ، نان نیز خریداری می کنند." در این مثال ، شیر و نان حاوی سلسله مراتبی از انواع و مارک های مختلف هستند ، اما جستجو در سطح پایین به شما امکان نمی دهد قوانین جالب توجهی را پیدا کنید.

یک نوع پیچیده تر از قوانین ، قوانین کمیت انجمن است. این نوع قانون با استفاده از ویژگی های کمی (به عنوان مثال قیمت) یا طبقه بندی (به عنوان مثال جنسیت) جستجو می شود و به عنوان ( , ,…,} -> . به عنوان مثال ، "خریدارانی که سن آنها بین 30 تا 35 سال است و درآمد آنها بیش از 75000 در سال است ، اتومبیل هایی با ارزش بیش از 20،000 خریداری می کنند."

انواع قوانین فوق بر این واقعیت تأثیر نمی گذارد که معاملات به واسطه ماهیت خود به زمان وابسته هستند. به عنوان مثال ، جستجوی قبل از فروش محصول یا پس از ناپدید شدن از بازار ، بر آستانه پشتیبانی تأثیر منفی خواهد گذاشت. با توجه به این موضوع ، مفهوم طول عمر ویژگی ها در الگوریتم های جستجوی انجمن قوانین زمانی معرفی شده است.

مشکل جستجو برای قوانین انجمنی را می توان به طور کلی به دو بخش تجزیه کرد: جستجوی مجموعه های عناصر که معمولاً با آنها روبرو می شوید ، و تولید قوانین مبتنی بر مجموعه هایی که اغلب یافت می شود. مطالعات قبلی ، در بیشتر موارد ، به این مناطق پایبند بوده و آنها را در جهات مختلف گسترش داده است.

از زمان ظهور الگوریتم آپریوری ، این الگوریتم بیشترین استفاده را در مرحله اول دارد. بسیاری از پیشرفت ها ، به عنوان مثال ، در سرعت و مقیاس پذیری ، با هدف بهبود الگوریتم آپریوری ، اصلاح توانایی نادرست آن برای تولید بیش از حد بسیاری از نامزدها برای رایج ترین عناصر موجود است. آپریوری مجموعه هایی از عناصر را تنها با استفاده از مجموعه های بزرگی که در مرحله قبل یافت شد ، بدون بررسی مجدد در معاملات ، تولید می کند. الگوریتم اصلاح شده AprioriTid با استفاده از بانک اطلاعاتی فقط در اولین پاس ، Apriori را بهبود می بخشد. در محاسبات در مراحل بعدی ، فقط از داده های ایجاد شده در پاس اول و داشتن ابعاد بسیار کوچکتر از پایگاه داده اصلی استفاده می شود. این امر منجر به افزایش چشمگیر بهره وری می شود. در صورت استفاده از آپریوری در چند پاس اول ، نسخه دیگری از الگوریتم به نام AprioriHybrid بدست می آید ، و سپس در پاس های بعدی ، هنگامی که مجموعه های کاندیدای برگشت از قبل می توانند به طور کامل در حافظه کامپیوتر ذخیره شوند ، به AprioriTid بروید.

تلاش های بیشتر برای بهبود الگوریتم آپریوری مربوط به موازی سازی الگوریتم (توزیع شمارش ، توزیع داده ها ، توزیع نامزدها و غیره) ، مقیاس بندی آن (توزیع اطلاعات هوشمند ، توزیع ترکیبی) ، معرفی ساختارهای جدید داده مانند درختان عناصر که اغلب اتفاق می افتند (FP-رشد )

مرحله دوم عمدتا با قابلیت اطمینان و علاقه مشخص می شود. در اصلاحات جدید ، بعد ، کیفیت و پشتیبانی زمانی که در بالا توضیح داده شد به قوانین قاعده سنتی بولی اضافه می شود. الگوریتم تکاملی اغلب برای جستجوی قوانین استفاده می شود.

2.2 الگوریتم های شبکه عصبی

شبکه های عصبی مصنوعی در نتیجه اعمال دستگاه ریاضی برای بررسی عملکرد سیستم عصبی انسان به منظور تولید مثل ، ظاهر شدند. یعنی: توانایی سیستم عصبی در یادگیری و تصحیح خطاها ، که باید به ما امکان دهد ، هرچند تقریباً کافی ، کار مغز انسان را شبیه سازی کنیم. قسمت اصلی ساختاری و عملکردی شبکه عصبی نورون رسمی است که در شکل نشان داده شده است. 1 ، جایی که x0 ، x1 ، ... ، xn مؤلفه های بردار سیگنال ورودی هستند ، w0 ، w1 ، ... ، wn وزن سیگنال های ورودی نورون هستند ، و y سیگنال خروجی نورون است.

شکل. 1. نورون رسمی: سیناپس (1) ، افزودنی (2) ، مبدل (3).

یک نورون رسمی از 3 نوع عنصر تشکیل شده است: سیناپس ، افزودنی و مبدل. سیناپس قدرت اتصال بین دو نورون را مشخص می کند.

افزودنی علاوه بر این از سیگنال های ورودی ، که قبلاً با وزن های مربوطه ضرب شده بود ، انجام می دهد. مبدل عملکرد یک آرگومان را اجرا می کند - خروجی افزودنی. این تابع عملکرد فعال سازی یا عملکرد انتقال نورون نامیده می شود.

نورونهای رسمی که در بالا گفته شد می توانند به گونه ای ترکیب شوند که سیگنالهای خروجی برخی از نورونها به دیگران وارد شود. مجموعه حاصل از نورون های بهم پیوسته ، شبکه های عصبی مصنوعی (ANN) یا به طور خلاصه ، شبکه های عصبی نامیده می شود.

سه نوع نورون کلی زیر بسته به موقعیت آنها در شبکه عصبی مشخص می شود:

نورون های ورودی (گره های ورودی) ، که سیگنال های ورودی تغذیه می شوند. چنین نورون هایی ، نورون ها ، به طور معمول ، دارای یک ورودی با وزن واحد هستند ، هیچ تعصبی وجود ندارد ، و مقدار خروجی نورون برابر با سیگنال ورودی است.

نورون های خروجی (گره های خروجی) ، مقادیر خروجی آنها نشان دهنده سیگنال های خروجی حاصل از شبکه عصبی است.

نورون های پنهان (گره های پنهان) که ارتباط مستقیمی با سیگنال های ورودی ندارند ، در حالی که مقادیر سیگنال های خروجی نورون های پنهان سیگنال های خروجی ANN نیستند.

با توجه به ساختار اتصالات داخلی ، دو طبقه از ANN متمایز می شوند:

انتشار مستقیم ANN که در آن سیگنال فقط از سلولهای عصبی ورودی گرفته تا خروجی پخش می شود.

تکرار ANN - ANN با بازخورد. در چنین شبکه های عصبی ، بدون در نظر گرفتن محل قرارگیری آنها در ANN ، می توان سیگنالها را بین هر نورون انتقال داد.

دو روش کلی برای آموزش شبکه های عصبی وجود دارد:

آموزش با معلم.

یادگیری بدون معلم.

تدریس با معلم (یادگیری نظارت شده) شامل استفاده از مجموعه های از پیش ساخته شده نمونه های آموزشی است. هر نمونه شامل یک بردار سیگنال های ورودی و یک بردار مربوط به سیگنال های خروجی مرجع است که به کار بستگی دارد. به این مجموعه مجموعه آموزش یا مجموعه آموزش گفته می شود. آموزش شبکه عصبی با چنین تغییر در وزن اتصالات ANN انجام می شود ، که در آن مقدار سیگنال های خروجی ANN تا حد ممکن با مقادیر مورد نیاز سیگنال های خروجی برای یک بردار معین از سیگنال های متفاوت متفاوت است.

هنگام یادگیری بدون معلم (یادگیری بدون نظارت) ، تنظیم وزن اتصالات یا در نتیجه رقابت بین نورون ها انجام می شود ، یا با در نظر گرفتن ارتباط سیگنال های خروجی نورون ها که بین آنها ارتباط وجود دارد. در مورد آموزش بدون معلم ، از نمونه آموزش استفاده نمی شود.

شبکه های عصبی برای حل طیف گسترده ای از کارها ، به عنوان مثال ، مانند برنامه ریزی بار برای شاتل های فضایی و پیش بینی نرخ ارز استفاده می شوند. با این حال ، آنها به دلیل پیچیدگی مدل ، اغلب در سیستم های داده کاوی مورد استفاده قرار نمی گیرند (دانش ثبت شده به عنوان وزن چند صد اتصال interneuron کاملاً فراتر از تجزیه و تحلیل و تفسیر انسان است) و مدت زمان طولانی یادگیری در یک مجموعه آموزشی بزرگ است. از طرف دیگر ، شبکه های عصبی از چنین مزایایی برای استفاده در کارهای تجزیه و تحلیل داده ها مانند مقاومت در برابر داده های پر سر و صدا و دقت بالا برخوردار هستند.

2.3 روشهای نزدیکترین همسایه و k-نزدیکترین همسایگان

الگوریتم نزدیکترین همسایه و الگوریتم همسایه k-نزدیکترین (KNN) بر اساس شباهت اشیاء است. نزدیکترین الگوریتم همسایه در بین همه اشیاء شناخته شده شیء نزدیک ترین حد ممکن (با استفاده از متریک مسافت بین اشیاء ، به عنوان مثال اقلیدسی) را به یک شی جدید که قبلاً ناشناخته است ، تمایز می دهد. مشکل اصلی نزدیکترین روش همسایگی ، حساسیت آن به افراد دور از دسترس در آموزش داده است.

با استفاده از الگوریتم KNN ، می توان از شرط توصیف شده اجتناب کرد ، که بین همه مشاهدات قبلاً نزدیکترین همسایگان ، شبیه به یک شی جدید ، تمایز قایل می شود. براساس کلاس نزدیکترین همسایگان ، تصمیمی در مورد تسهیلات جدید گرفته می شود. وظیفه مهم این الگوریتم انتخاب ضریب k - تعداد رکوردهای مشابه خواهد بود. اصلاح الگوریتم ، که در آن سهم یک همسایه با فاصله از یک شی جدید (روش نزدیکترین همسایگان K-وزنی) متناسب است با این امکان را می دهد که دقت طبقه بندی بیشتری داشته باشید. روش k نزدیکترین همسایگان همچنین به ما امکان می دهد صحت پیش بینی را تخمین بزنیم. به عنوان مثال ، همه نزدیکترین همسایگان دارای یک کلاس هستند ، بنابراین احتمال اینکه شی مورد بررسی یک کلاس یکسان داشته باشد بسیار زیاد است.

از جمله ویژگی های این الگوریتم ، لازم به ذکر است که مقاومت در برابر محیط های غیر طبیعی غیر قابل توجه است ، زیرا احتمال سقوط چنین ورودی به تعداد همسایگان k-نزدیکترین ، اندک است. اگر این اتفاق افتاد ، احتمالاً تأثیر آن بر رأی (مخصوصاً متعادل) (برای k\u003e 2) نیز ناچیز خواهد بود ، و بنابراین تأثیر در نتیجه طبقه بندی اندک خواهد بود. همچنین از مزایای آن اجرای ساده ، سهولت تفسیر نتیجه الگوریتم ، امکان اصلاح الگوریتم با استفاده از مناسب ترین توابع ترکیبی و متریک ها است که به شما امکان می دهد الگوریتم را در یک کار خاص تنظیم کنید. الگوریتم KNN دارای معایب متعددی است. ابتدا مجموعه داده های مورد استفاده برای الگوریتم باید نماینده باشد. ثانیا ، مدل نمی تواند از داده ها جدا شود: برای طبقه بندی یک مثال جدید ، باید از همه مثال ها استفاده کنید. این ویژگی استفاده از الگوریتم را به شدت محدود می کند.

2.4 درخت تصمیم گیری

اصطلاح "درخت تصمیم گیری" به معنای خانواده ای از الگوریتم های مبتنی بر ارائه قوانین طبقه بندی در یک ساختار سلسله مراتبی ، سازگار است. این محبوب ترین کلاس الگوریتم برای حل مشکلات داده کاوی است.

خانواده الگوریتم ها برای ساختن درخت تصمیم گیری به ما این امکان را می دهند تا مقدار پارامتر را برای یک مورد خاص بر اساس حجم زیادی از داده ها در موارد مشابه دیگر پیش بینی کنیم. به طور معمول ، از الگوریتم های این خانواده برای حل مشکلات استفاده می شود که به شما امکان می دهد تمام داده های منبع را به چند گروه گسسته تقسیم کنید.

هنگام اعمال الگوریتم برای ساختن درختان تصمیم گیری به مجموعه ای از داده های منبع ، نتیجه در قالب یک درخت نمایش داده می شود. الگوریتم های مشابه امکان اجرای چندین سطح از چنین جدایی را ممکن می سازند و گروه های حاصل (شاخه های درخت) را بر اساس سایر خصوصیات به گروه های کوچکتر می شکنند. جدایی ادامه می یابد تا مقادیر پیش بینی شده برای همه گروه ها (برگ درخت) به دست آمده ، یکسان شوند (یا در صورت مقدار مداوم پارامتر پیش بینی شده ، نزدیک). این مقادیر است که برای ایجاد پیش بینی بر اساس این مدل استفاده می شود.

عمل الگوریتم های ساختمان سازی تصمیم گیری مبتنی بر کاربرد روشهای رگرسیون و تحلیل همبستگی است. یکی از محبوب ترین الگوریتم های این خانواده ، Cart (طبقه بندی و رگرسیون درختان) است که مبتنی بر تقسیم داده ها در یک شاخه درخت به دو شاخه کودک است. تقسیم بیشتر یک شاخه دیگر بستگی به تعداد منبع منبع این شاخه دارد. برخی الگوریتم های مشابه دیگر به شما امکان می دهند شاخه ای را به تعداد بیشتری از شاخه های کودک تقسیم کنید. در این حالت ، جداسازی بر اساس بالاترین ضریب همبستگی برای شاخه داده شرح داده شده بین پارامتر است که طبق آن جداسازی اتفاق می افتد و پارامتر ، که باید در آینده پیش بینی شود.

محبوبیت این رویکرد با وضوح و درک مطلب همراه است. اما درختان تصمیم گیری اساساً قادر به یافتن "بهترین" (کاملترین و دقیق ترین) قوانین در داده ها نیستند. آنها اصل ساده و بی تکلف مشاهده پی در پی علائم را پیاده سازی می کنند و در واقع بخش هایی از این الگوهای را پیدا می کنند و فقط توهم نتیجه گیری منطقی را ایجاد می کنند.

2.5 الگوریتم های خوشه بندی

خوشه بندی وظیفه تجزیه چندین اشیاء به گروه های موسوم به خوشه ها است. تفاوت اصلی بین خوشه بندی و طبقه بندی این است که لیست گروه ها به طور واضح مشخص نشده و در حین کار الگوریتم مشخص می شود.

کاربرد تجزیه و تحلیل خوشه ای به طور کلی به مراحل زیر کاهش می یابد:

· انتخاب نمونه اشیاء برای خوشه بندی.

· تعیین مجموعه متغیرهایی که اشیاء موجود در آن نمونه ارزیابی می شوند. در صورت لزوم - عادی سازی مقادیر متغیر؛

· محاسبه مقادیر اندازه گیری شباهت بین اشیاء.

· استفاده از روش تجزیه و تحلیل خوشه ای برای ایجاد گروه هایی از اشیاء مشابه (خوشه ها).

· ارائه نتایج تجزیه و تحلیل.

پس از دریافت و تجزیه و تحلیل نتایج ، می توان متریک انتخاب شده و روش خوشه بندی را تنظیم کرد تا نتیجه بهینه حاصل شود.

در بین الگوریتم های خوشه بندی ، گروه های سلسله مراتبی و مسطح مشخص می شوند. الگوریتم های سلسله مراتبی (که الگوریتم های طبقه بندی نیز خوانده می شوند) نه تنها یک بخش از نمونه را در خوشه های جداکننده ، بلکه سیستمی از پارتیشن های تو در تو قرار می دهند. بنابراین ، خروجی الگوریتم درختی از خوشه ها است ، که ریشه آن نمونه کلی است و برگ ها کوچکترین خوشه ها هستند. الگوریتم های مسطح یک قسمت از اشیاء را در خوشه های جدا از هم قرار می دهند.

طبقه بندی دیگر الگوریتم های خوشه بندی به الگوریتم های واضح و فازی است. الگوریتم های پاک (یا جدا) یک عدد خوشه را با هر شی نمونه مرتبط می کنند ، یعنی هر شی فقط به یک خوشه تعلق دارد. الگوریتم های فازی (یا در حال تلاقی) مجموعه ای از مقادیر واقعی را با هر موضوع مرتبط می کنند که میزان ارتباط شیء با خوشه ها را نشان می دهد. بنابراین ، هر شی با احتمال کمی به هر خوشه تعلق دارد.

در بین الگوریتم های خوشه بندی سلسله مراتبی ، دو نوع اصلی از هم متمایز می شوند: الگوریتم های بالادست و پایین دست. الگوریتم های بالا به پایین طبق اصل "از بالا به پایین" کار می کنند: اول ، همه اشیاء در یک خوشه قرار می گیرند ، که سپس به خوشه های کوچکتر و کوچکتر تقسیم می شوند. الگوریتم های بالادست رایج تر هستند که در ابتدای کار هر شیء را در یک خوشه جداگانه قرار می دهند و سپس خوشه ها را در موارد بزرگتر ترکیب می کنند تا اینکه تمام اشیاء موجود در یک انتخاب در یک خوشه قرار بگیرند. بنابراین ، یک سیستم از پارتیشن های تو در تو ساخته شده است. نتایج چنین الگوریتمهایی معمولاً در قالب یک درخت ارائه می شود.

ضرر الگوریتم های سلسله مراتبی سیستم پارتیشن های کامل است که ممکن است در زمینه حل مسئله مشکل زائد باشد.

حال الگوریتم های مسطح را در نظر بگیریم. ساده ترین در میان این کلاس الگوریتم های خطای درجه دوم هستند. مشکل خوشه بندی این الگوریتم ها می تواند به عنوان ایجاد یک بخش بندی بهینه اشیاء به گروه ها در نظر گرفته شود. علاوه بر این ، بهینه می تواند به عنوان الزام به حداقل رساندن میانگین مربعات خطای پارتیشن تعریف شود:

,

جایی که ج  j "مرکز توده" خوشه است ج  (نقطه با مقادیر میانگین ویژگی های این خوشه).

متداول ترین الگوریتم در این گروه روش k-معنی است. این الگوریتم تعداد مشخصی از خوشه ها را که تا آنجا که ممکن است از یکدیگر قرار گرفته اند ، ایجاد می کند. الگوریتم به چند مرحله تقسیم می شود:

به طور تصادفی انتخاب کنید ک  نقاطی که "مراکز انبوه" اولیه خوشه ها هستند.

2. هر شیء را به نزدیکترین "مرکز جرم" به یک خوشه اختصاص دهید.

اگر ملاک توقف الگوریتم راضی نیست ، به مرحله 2 بازگردید.

به عنوان معیاری برای متوقف کردن عملکرد الگوریتم ، معمولاً حداقل تغییر در خطای استاندارد انتخاب می شود. همچنین می توان عملکرد الگوریتم را متوقف کرد ، اگر در مرحله 2 ، هیچ جسم در حال حرکت از خوشه به خوشه نبود. مضرات این الگوریتم شامل نیاز به تعیین تعداد خوشه های پارتیشن است.

محبوب ترین الگوریتم خوشه بندی فازی الگوریتم c-معنی است. این یک روش اصلاح شده در روش k-معنی است. مراحل الگوریتم:

1- پارتیشن اولیه فازی را انتخاب کنید ن  اشیاء روی ک  خوشه ها با انتخاب ماتریس عضویت تو  اندازه n x k.

2. با استفاده از ماتریس U مقدار معیار خطای فازی را پیدا کنید:

,

جایی که ج  k - "مرکز جرم" یک خوشه فازی ک:

3. برای کاهش این مقدار از معیار خطای فازی ، اشیاء را دوباره جمع کنید.

4- به مرحله 2 برگردید تا ماتریس تغییر کند تو  ناچیز نخواهد شد.

این تعداد الگوریتم ممکن است مناسب نباشد اگر تعداد خوشه ها از قبل مشخص نباشد ، یا لازم است که به طور نامشخص هر شی را به یک خوشه اختصاص دهیم.

گروه بعدی الگوریتم ها الگوریتم های مبتنی بر تئوری نمودار هستند. جوهر چنین الگوریتم ها این است که نمونه اشیاء به صورت نمودار نشان داده می شوند G \u003d (V ، E)رئوس آنها با اشیاء مطابقت دارد ، و لبه ها وزنی برابر با "فاصله" بین اشیاء دارند. از مزایای الگوریتم های خوشه بندی نمودار ، دید ، سهولت نسبی اجرای و امکان ایجاد پیشرفت های مختلف بر اساس ملاحظات هندسی است. الگوریتم های اصلی الگوریتم برای انتخاب اجزای متصل ، الگوریتم برای ساختن حداقل درخت پوششی و الگوریتم خوشه بندی لایه به لایه هستند.

برای انتخاب پارامتر ر  معمولاً یک هیستوگرام از توزیع فاصله دو جفت ساخته می شود. در مشکلات مربوط به ساختار داده خوشه ای به خوبی تعریف شده ، هیستوگرام دو قله خواهد داشت - یکی مربوط به فواصل درون هسته ای ، دومی با فاصله های درهم فاصله. پارامتر ر  از حداقل منطقه بین این قله ها انتخاب شده است. در عین حال ، کنترل تعدادی از خوشه ها با استفاده از آستانه مسافت بسیار دشوار است.

حداقل الگوریتم درخت پوششی ابتدا یک درخت پراکنده حداقل را روی نمودار ایجاد می کند ، و سپس لبه ها را با بالاترین وزن به طور متوالی برداشته می شود. الگوریتم خوشه بندی لایه به لایه مبتنی بر اختصاص اجزای متصل به نمودار در سطح معینی از فاصله بین اشیاء (رئوس) است. سطح فاصله توسط آستانه فاصله تعیین می شود. ج. به عنوان مثال ، اگر فاصله بین اشیاء باشد ، پس از آن.

یک الگوریتم خوشه بندی لایه ای دنباله ای از زیرگرافهای نمودار را تشکیل می دهد جکه منعکس کننده روابط سلسله مراتبی بین خوشه ها است:

,

جایی که ج  تی   \u003d (V ، E)  تی )   - نمودار سطح با  تی ,

با  t آستانه فاصله tth است ، m تعداد سطوح سلسله مراتب است ،
ج 0   \u003d (V ، O)، o مجموعه خالی لبه های نمودار است که برای آن بدست آمده است تی 0 = 1,
ج  م   \u003d G، یعنی نمودار اشیاء بدون محدودیت مسافت (طول لبه های نمودار) ، از آن زمان تاکنون تی  متر \u003d 1

با تغییر آستانه های مسافت ( با 0 ، …، با  متر) ، جایی که 0 \u003d با 0 < با 1 < …< با  m \u003d 1 ، می توان عمق سلسله مراتب خوشه های حاصل را کنترل کرد. بنابراین ، الگوریتم خوشه بندی لایه به لایه قادر به ایجاد یک بخش بندی داده مسطح و یک سلسله مراتبی است.

خوشه بندی به شما امکان می دهد به اهداف زیر برسید:

· با شناسایی گروههای ساختاری ، درک داده را بهبود می بخشد. تقسیم نمونه به گروههایی از اشیاء مشابه باعث می شود تا با استفاده از یک روش تجزیه و تحلیل متفاوت برای هر خوشه ، پردازش داده ها و تصمیم گیری بیشتر ساده شود.

· امکان ذخیره فشرده داده ها را می دهد. برای این کار ، به جای ذخیره کردن کل نمونه ، یک مشاهده معمولی از هر خوشه می تواند باقی بماند.

· کشف اشیاء آتیپیک جدید که در هیچ خوشه ای قرار نگرفته اند.

به طور معمول ، خوشه بندی به عنوان یک روش کمکی در تجزیه و تحلیل داده ها استفاده می شود.

2.6 الگوریتم های ژنتیکی

الگوریتم های ژنتیکی از جمله روش های بهینه سازی جهانی هستند که امکان حل مشکلات در انواع مختلف (ترکیبی ، مشکلات عمومی با و بدون محدودیت) و درجات مختلف پیچیدگی را فراهم می آورد. در عین حال ، الگوریتم های ژنتیکی با امکان جستجوی تک معیار و چند معیار در یک فضای بزرگ مشخص می شوند ، که منظره آن صاف نیست.

این گروه از روشها از روند تکراری تکامل دنباله نسلهای مدلها از جمله عملیات انتخاب ، جهش و عبور استفاده می کنند. در آغاز الگوریتم ، جمعیت بطور تصادفی تشکیل می شود. برای ارزیابی کیفیت تصمیمات رمزگذاری شده از عملکرد تناسب اندام استفاده می شود که برای محاسبه تناسب اندام هر فرد لازم است. با توجه به نتایج ارزیابی افراد ، سازگارترین آنها برای عبور انتخاب شده است. در نتیجه عبور افراد منتخب از طریق استفاده از اپراتور ژنتیکی متقاطع ، فرزندان ایجاد می شوند که اطلاعات ژنتیکی آنها در نتیجه تبادل اطلاعات کروموزومی بین افراد والدین شکل می گیرد. فرزندان ایجاد شده جمعیت جدیدی را تشکیل می دهند و برخی از فرزندان جهش می یابند که با تغییر تصادفی در ژنوتیپ های آنها بیان می شود. مرحله ، از جمله دنباله "ارزیابی جمعیت" - "انتخاب" - "عبور" - "جهش" ، نسل نامیده می شود. تکامل یک جمعیت شامل دنباله ای از چنین نسل هایی است.

الگوریتم های انتخابی زیر برای پرورش متمایز می شوند:

پانمیکسیا هر دو نفر که جفت والدین را تشکیل می دهند ، به طور تصادفی از کل جمعیت انتخاب می شوند. هر فرد می تواند عضو چندین جفت شود. این رویکرد جهانی است ، اما با افزایش اندازه جمعیت ، کارآیی الگوریتم کاهش می یابد.

· انتخاب. افراد دارای تناسب اندام پایین تر از حد متوسط \u200b\u200bمی توانند والدین شوند. این رویکرد همگرایی سریعتر الگوریتم را فراهم می کند.

· درگیری این روش بر اساس جفت شدن مبتنی بر خویشاوندی نزدیک است. با خویشاوندی در اینجا به معنای فاصله بین اعضای جمعیت از نظر فاصله هندسی افراد در فضای پارامتر و همچنین فاصله همجنس بین ژنوتیپ ها است. بنابراین ، از همبستگی ژنوتیپی و فنوتیپی فرق بگذارید. اولین عضو جفتی که باید از آن عبور کرد به طور تصادفی انتخاب می شود و نفر دوم احتمالاً فردی نزدیک تر به او است. Inbreeding را می توان با خاصیت غلظت جستجو در گره های محلی مشخص کرد ، که در واقع منجر به تفکیک جمعیت به گروه های محلی جداگانه در اطراف مناطقی از زمین می شود که به مشکوک اندام شک دارند.

· شیوع تشکیل یک جفت بر اساس خویشاوندی دوردست ، برای دوردست ترین افراد. هدف از شیوع این بیماری جلوگیری از همگرایی الگوریتم برای یافتن راه حل های موجود ، وادار کردن الگوریتم برای دیدن مناطق جدید و غیر قابل کشف است.

الگوریتم های تشکیل جمعیت جدید:

· انتخاب استخراج. از بین کلیه افرادی که ژنوتیپ های یکسانی دارند ، اولویت با افرادی است که تناسب اندام آنها بالاتر است. بنابراین ، دو هدف حاصل می شود: بهترین راه حلهای یافت شده که دارای مجموعه های مختلف کروموزوم هستند ، گم نمی شوند ؛ تنوع ژنتیکی کافی به طور مداوم در جمعیت حفظ می شود. اکستروژن به جای افرادی که در اطراف محلول یافت شده فعلی قرار دارند ، جمعیت جدیدی از افراد دور را تشکیل می دهد. این روش برای کارهای چند افراطی استفاده می شود.

· انتخاب نخبگان. روش های انتخاب نخبگان تضمین می کند که بهترین اعضای جمعیت لزوماً از انتخاب جان سالم به در می برند. در این حالت ، برخی از بهترین افراد بدون هیچگونه تغییر به نسل بعدی منتقل می شوند. همگرایی سریع ارائه شده توسط انتخاب نخبگان می تواند با یک روش مناسب در انتخاب زوج های والدین جبران شود. در این حالت ، آنها اغلب از شیوع بیماری استفاده می کنند. این ترکیبی از "انتخاب - انتخاب نخبگان" است که یکی از مؤثرترین آنها است.

· انتخاب مسابقات. انتخاب تورنمنت برای انتخاب n افراد ، مسابقات را انجام می دهد. هر مسابقات بر روی مجموعه ای از عناصر k از جمعیت ساخته می شود و بهترین فرد در بین آنها انتخاب می شود. رایج ترین انتخاب مسابقات با k \u003d 2.

یکی از محبوب ترین کاربردهای الگوریتم های ژنتیکی در زمینه Data Mining ، جستجوی بهینه ترین مدل (جستجوی الگوریتمی است که با مشخصات یک منطقه خاص مطابقت دارد). الگوریتم های ژنتیکی در درجه اول برای بهینه سازی توپولوژی شبکه های عصبی و وزن مورد استفاده قرار می گیرند. با این حال ، آنها همچنین می توانند به عنوان ابزاری مستقل مورد استفاده قرار گیرند.

3. برنامه های کاربردی

فناوری داده کاوی دارای طیف گسترده ای از برنامه های کاربردی است ، در واقع ، مجموعه ای از ابزارهای جهانی برای تجزیه و تحلیل داده ها از هر نوع است.

بازار یابی

یکی از اولین زمینه هایی که فن آوری داده کاوی به کار گرفته شد بازاریابی بود. وظیفه ای که توسعه روش های داده کاوی را آغاز کرده است ، تجزیه و تحلیل سبد خرید نامیده می شود.

این کار شناسایی کالاهایی است که خریداران به دنبال خرید آنها با هم هستند. آگاهی از سبد خرید برای تبلیغات تبلیغاتی ، تشکیل توصیه های شخصی به مشتریان ، تدوین استراتژی های ایجاد سهام کالا و راه های چیدمان آنها در طبقات تجاری ضروری است.

همچنین در بازاریابی ، وظایفی از قبیل تعیین مخاطب هدف از یک محصول برای تبلیغ موفق تر مورد توجه قرار می گیرد. مطالعه الگوهای موقت ، که به شرکتها کمک می کند تا در مورد ایجاد موجودی ، تصمیم گیری کنند. ایجاد مدلهای پیش بینی کننده ، که به شرکتها امکان می دهد ماهیت نیازهای دستههای مختلف مشتری با رفتارهای خاص را تشخیص دهند. پیش بینی وفاداری مشتری ، که به شما امکان می دهد لحظه ای را که مشتری هنگام تجزیه و تحلیل رفتار خود ترک می کند ، شناسایی کنید و احتمالاً برای جلوگیری از از بین رفتن مشتری با ارزش پیشگیری کنید.

صنعت

یكی از مناطق مهم در این زمینه نظارت و كنترل كیفیت است كه در آن با استفاده از ابزارهای آنالیز می توان خرابی تجهیزات ، نقص ها و برنامه ریزی تعمیر كار را پیش بینی كرد. پیش بینی محبوبیت برخی از ویژگی های خاص و دانستن اینکه کدام ویژگی ها معمولاً در کنار هم قرار می گیرند ، به بهینه سازی تولید و جهت گیری آن به نیازهای واقعی مصرف کنندگان کمک می کند.

دارو

در پزشکی ، تجزیه و تحلیل داده ها نیز با موفقیت مورد استفاده قرار می گیرد. نمونه ای از کارها می تواند تجزیه و تحلیل نتایج معاینات ، تشخیص ، مقایسه اثربخشی روشها و داروها ، تجزیه و تحلیل بیماریها و شیوع آنها و شناسایی عوارض جانبی باشد. فن آوری داده کاوی ، مانند قوانین انجمنی و الگوهای مداوم ، با موفقیت به کار گرفته شده است تا ارتباطات بین دارو و عوارض جانبی را مشخص کند.

ژنتیک مولکولی و مهندسی ژنتیک

شاید حادترین و در عین حال واضح ترین کار تشخیص الگوهای داده های آزمایشگاهی در ژنتیک مولکولی و مهندسی ژنتیک باشد. در اینجا آن را به عنوان تعریف مارکرها فرموله می کنند ، که به عنوان کدهای ژنتیکی شناخته می شوند که برخی از خصوصیات فنوتیپی موجودات زنده را کنترل می کنند. این کدها ممکن است صدها ، هزاران نفر یا تعداد بیشتری عنصر مرتبط باشد. نتیجه آنالیز تحلیلی داده ها همچنین رابطه بین تغییرات توالی DNA انسان و خطر ابتلا به بیماری های مختلفی است که توسط دانشمندان ژنتیکی کشف شده است.

شیمی کاربردی

روش های داده کاوی همچنین در زمینه شیمی کاربردی استفاده می شود. این اغلب سؤال را در مورد شفاف سازی ویژگیهای ساختار شیمیایی ترکیبات معینی که خاصیت آنها را تعیین می کند ، مطرح می کند. چنین وظیفه به ویژه در تجزیه و تحلیل ترکیبات شیمیایی پیچیده ، که شرح آنها شامل صدها و هزاران عنصر ساختاری و پیوندهای آنها است ، بسیار مهم است.

کنترل جرم

برای تضمین امنیت ، از ابزارهای داده کاوی به تازگی استفاده می شود ، با این حال ، نتایج عملی قبلاً به دست آمده است که اثربخشی داده کاوی در این زمینه را تأیید می کند. دانشمندان سوئیسی به منظور پیش بینی حوادث آینده و سیستمی برای ردیابی تهدیدهای سایبری و اقدامات هکرها در جهان ، سیستمی را برای تجزیه و تحلیل فعالیت های اعتراضی ایجاد کرده اند. سیستم دوم امکان پیش بینی تهدیدات سایبری و سایر خطرات امنیتی اطلاعات را فراهم می کند. همچنین از روشهای Data Mining با موفقیت برای کشف تقلب در کارت اعتباری استفاده شده است. این بانک با تجزیه و تحلیل معاملات گذشته که بعداً به کلاهبرداری تبدیل شده است ، برخی از کلیشه های چنین کلاهبرداری را آشکار می کند.

برنامه های دیگر

· تحلیل ریسک. به عنوان مثال ، با شناسایی ترکیب عوامل مرتبط با برنامه های پرداخت شده ، بیمه گذاران می توانند ضرر و زیان خود را در تعهدات کاهش دهند. یک مورد شناخته شده وجود دارد که در ایالات متحده آمریکا یک شرکت بیمه بزرگ دریافت که مبلغی که برای درخواست های افراد متاهل پرداخت می شود دو برابر مبلغ درخواست های افراد مجرد است. این شرکت با تجدید نظر در سیاست کلی خود برای تخفیف مشتریان خانواده ، به این دانش جدید پاسخ داده است.

· هواشناسی. پیش بینی آب و هوا با استفاده از روش های شبکه عصبی ، به ویژه ، از نقشه های خود ساماندهی Kohonen استفاده می شود.

· خط مشی پرسنل. ابزارهای تحلیل به خدمات منابع انسانی کمک می کند تا بر اساس تجزیه و تحلیل داده های رزومه خود موفق ترین نامزدها را انتخاب کنند تا از ویژگی های کارمندان ایده آل برای یک موقعیت خاص استفاده کنند.

4- تولید کنندگان داده کاوی

ابزار داده کاوی به طور سنتی متعلق به محصولات نرم افزاری گران است. بنابراین تا همین اواخر مصرف کنندگان اصلی این فناوری بانک ها ، شرکت های مالی و بیمه ای ، شرکت های بزرگ بازرگانی بودند و عمده ترین وظایف مورد نیاز استفاده از داده کاوی ارزیابی ریسک های اعتباری و بیمه ای و تدوین سیاست های بازاریابی ، برنامه های تعرفه ای و سایر اصول کار با مشتریان بود. در سالهای اخیر ، این شرایط دستخوش تغییرات خاصی شده است: ابزارهای نسبتاً ارزان داده کاوی و حتی سیستمهای توزیع رایگان در بازار نرم افزار ظاهر شده اند که این فناوری را برای بنگاههای کوچک و متوسط \u200b\u200bدر دسترس قرار داده است.

در میان ابزارها و سیستم های پرداخت شده برای تجزیه و تحلیل داده ها ، رهبران عبارتند از موسسه SAS (SAS Enterprise Miner) ، SPSS (SPSS ، Clementine) و StatSoft (STATISTICA Data Miner). راه حل های Angoss (Angoss KnowledgeSTUDIO) ، IBM (IBM SPSS Modeler) ، مایکروسافت (خدمات تجزیه و تحلیل مایکروسافت) و (Oracle) Oracle Data Mining کاملاً شناخته شده است.

انتخاب نرم افزار رایگان نیز متنوع است. ابزارهای تحلیل جهانی مانند JHepWork ، KNIME ، Orange ، RapidMiner و همچنین ابزارهای تخصصی وجود دارد ، به عنوان مثال ، Carrot2 - چارچوبی برای خوشه بندی داده های متنی و نتایج جستجو ، Chemicalize.org - یک راه حل در زمینه شیمی کاربردی ، NLTK (ابزار زبان طبیعی) ابزاری برای پردازش زبان طبیعی (پردازش زبان طبیعی).

5- انتقاد از روشها

نتایج داده کاوی تا حد زیادی به میزان سطح آماده سازی داده ها بستگی دارد و نه به "امکانات فوق العاده" یک الگوریتم یا مجموعه خاص از الگوریتم ها. حدود 75٪ از کارهای مربوط به Data Mining جمع آوری داده ها است که حتی قبل از استفاده از ابزارهای آنالیز صورت می گیرد. استفاده بی سواد از ابزارها باعث هدر رفتن بی معنی پتانسیل شرکت و بعضا میلیونها دلار خواهد شد.

نظر هرب ادلشتاین ، کارشناس مشهور جهان در داده کاوی ، انبارداری داده ها و CRM: "یک مطالعه جدید توسط دو کلاغ نشان داد که داده کاوی هنوز در مرحله اولیه توسعه است. بسیاری از سازمان ها به این فناوری علاقه دارند ، اما تعداد معدودی از آنها به طور فعال چنین پروژه هایی را اجرا می کنند. ما موفق شدیم نکته مهم دیگری را پیدا کنیم: فرایند اجرای داده کاوی در عمل پیچیده تر از آنچه انتظار می رفت است انجام می شود: تیم ها با این اسطوره که ابزارهای Data Mining به راحتی استفاده می شوند دور شدند. فرض بر این است که اجرای چنین ابزاری بر روی پایگاه داده ترابایت کافی است و اطلاعات مفید فوراً ظاهر می شود. در حقیقت ، یک پروژه موفقیت آمیز داده کاوی نیاز به درک ماهیت فعالیت ، دانش از داده ها و ابزارها و همچنین فرایند تحلیل داده دارد. " بنابراین ، قبل از استفاده از فناوری Data Mining ، لازم است محدودیت های اعمال شده توسط روش ها و موضوعات مهم بحرانی مرتبط و همچنین ارزیابی هوشیارانه توانایی های فن آوری را با دقت مورد بررسی قرار دهیم. موضوعات مهم شامل موارد زیر است:

1. فناوری نمی تواند پاسخ سؤالاتی را که پرسیده نشده است ، فراهم کند. این نمی تواند جایگزین تحلیلگر شود ، بلکه صرفاً به او ابزاری قدرتمند برای تسهیل و بهبود کار خود می دهد.

2. پیچیدگی توسعه و بهره برداری از برنامه داده کاوی.

از آنجا که این فناوری یک زمینه چند رشته ای است ، برای تهیه برنامه ای که شامل Data Mining است ، لازم است متخصصان مناطق مختلف را درگیر کنید و همچنین از تعامل با کیفیت بالا آنها اطمینان حاصل کنید.

3. صلاحیت کاربر.

ابزارهای مختلف داده کاوی دارای درجات مختلفی از «دوستی» رابط کاربری بوده و به مهارت های کاربر خاصی نیاز دارند. بنابراین ، نرم افزار باید با سطح آموزش کاربر مطابقت داشته باشد. استفاده از داده کاوی باید به طور جدایی ناپذیری با آموزش پیشرفته کاربر در ارتباط باشد. با این حال ، متخصصان داده کاوی که به خوبی در فرایندهای تجاری آشنا هستند ، در حال حاضر اندک هستند.

4- استخراج اطلاعات مفید بدون درک خوب از جوهر داده ها غیرممکن است.

انتخاب دقیق مدل و تفسیر وابستگی ها یا الگوهای کشف شده مورد نیاز است. بنابراین ، کار با چنین ابزارهایی نیاز به همکاری نزدیک بین یک متخصص در حوزه موضوع و یک متخصص در زمینه داده کاوی دارد. برای داشتن توانایی ارزیابی و به روزرسانی مدل ها ، مدل های ثابت باید به خوبی در فرایندهای تجاری ادغام شوند. اخیراً ، سیستم های داده کاوی به عنوان بخشی از فناوری انبار داده تحویل داده شده است.

5- پیچیدگی تهیه داده ها.

تجزیه و تحلیل موفقیت آمیز نیاز به پردازش داده های با کیفیت دارد. به گفته تحلیلگران و کاربران پایگاه داده ، فرایند پیش پردازش می تواند حداکثر 80 درصد کل فرآیند داده کاوی را به خود اختصاص دهد.

بنابراین ، برای اینکه این فناوری برای خودش کار کند ، تلاش و زمان زیادی را صرف تجزیه و تحلیل داده های اولیه ، انتخاب مدل و تنظیم آن می کند.

6. درصد زیادی از نتایج نادرست ، نادرست یا غیر مفید.

با کمک فن آوری های داده کاوی می توان اطلاعات بسیار ارزشمندی یافت ، که می تواند در برنامه ریزی های بعدی ، مدیریت ، تصمیم گیری بیشتر مزیت چشمگیری بگذارد. با این حال ، نتایج به دست آمده با استفاده از روش های داده کاوی اغلب حاوی نتیجه گیری نادرست و بی معنی است. بسیاری از کارشناسان ادعا می کنند که ابزار Data Mining می تواند تعداد قابل توجهی از نتایج آماری غیرقابل اعتماد را به بار آورد. برای کاهش درصد چنین نتایج ، لازم است که کفایت مدل های به دست آمده در داده های آزمون را بررسی کنید. اما ، اجتناب از نتیجه گیری های نادرست غیرممکن است.

7. هزینه بالا.

یک محصول نرم افزاری با کیفیت بالا نتیجه کار قابل توجهی از طرف توسعه دهنده است. بنابراین ، نرم افزار Data Mining به طور سنتی محصولی گران قیمت نرم افزار بوده است.

8. در دسترس بودن مقدار کافی از داده های نماینده.

ابزارهای داده کاوی ، بر خلاف روشهای آماری ، از نظر تئوری نیاز به مقدار مشخصی از دادههای تاریخی ندارند. این ویژگی می تواند باعث تشخیص مدلهای نادرست و نادرست و در نتیجه اتخاذ بر اساس تصمیمات نادرست آنها شود. لازم است تا اهمیت آماری دانش کشف شده کنترل شود.

الگوریتم خوشه بندی داده های شبکه عصبی

نتیجه

شرح مختصری از زمینه های کاربرد ارائه شده و انتقاد از فناوری Data Mining و نظر متخصصان در این زمینه آورده شده است.

لیستادبیات

1. هان و میشلین کامبر. داده کاوی: مفاهیم و تکنیک ها. چاپ دوم. - دانشگاه ایلینوی در اوربانا شامپاین

Berry، Michael J. A. تکنیک های داده کاوی: برای بازاریابی ، فروش و مدیریت ارتباط با مشتری - ویرایش دوم.

سیو نین لام کشف قوانین انجمن در داده کاوی. - گروه علوم کامپیوتر کامپیوتر ایلینویز در Urbana-Champaign

سیستم های OLAP ابزار تجزیه و تحلیل فرضیه را برای تحلیل داده ها به تحلیلگر ارائه می دهند ، یعنی وظیفه اصلی تحلیلگر تولید فرضیه هایی است که وی بر اساس دانش و تجربه خود حل می کند.با این وجود دانش نه تنها در انسان بلکه در داده های جمع آوری شده نیز مورد تجزیه و تحلیل قرار می گیرد. . چنین دانشهایی در اطلاعات بسیار زیادی وجود دارد که شخص قادر به کشف مستقل نیست. در این راستا ، احتمالاً فرضیه هایی را که می تواند فواید قابل توجهی به همراه داشته باشد ، از دست نمی دهند.

برای کشف دانش "پنهان" ، از روشهای ویژه آنالیز خودکار استفاده می شود ، که با استفاده از آنها باید عملاً دانش خود را از "انسداد" اطلاعات بدست آورید. اصطلاح داده کاوی (DataMining) یا "داده کاوی" به این منطقه اختصاص داده شده است.

تعاریف DataMining بسیاری وجود دارد که مکمل یکدیگر هستند. در اینجا برخی از آنها آورده شده است.

DataMining فرآیند کشف الگوهای غیر مهم و عملی بسیار مفید در پایگاه های داده است. (BaseGroup)

DataMining فرآیند استخراج ، تحقیق و مدل سازی مقدار زیادی از داده ها برای شناسایی ساختارهای ناشناخته (پاتروت ها) برای دستیابی به مزایای تجاری است (موسسه SAS)

DataMining فرآیندی است که هدف آن شناسایی همبستگی ها ، الگوهای و روند جدید قابل توجه در نتیجه الک کردن مقدار زیادی از داده های ذخیره شده با استفاده از تکنیک های تشخیص نمونه به علاوه استفاده از روش های آماری و ریاضی است (گارتنر گروپ)

DataMining تحقیق و کشف توسط یک دستگاه (الگوریتم ها ، هوش مصنوعی) در داده های خام دانش پنهان است کهقبلاً ناشناخته ، غیرمستقیم ، عملی مفید ، برای تفسیر در دسترس استروابط توسط انسان. (A. Bargeryan "فن آوری های تجزیه و تحلیل داده ها")

DataMining فرآیندی است برای کشف دانش مفید در مورد یک تجارت. (N.M. Abdikeev "KBA")

  ویژگی های دانش قابل کشف

خواص دانش کشف شده را در نظر بگیرید.

  • دانش باید جدید و قبلاً ناشناخته باشد. تلاش های انجام شده برای کشف دانشهایی که قبلاً برای کاربر شناخته شده اند ، پرداخت نمی کنند. بنابراین ، این دانش جدید ، قبلاً ناشناخته است که دارای ارزش است.
  • دانش باید غیر ارادی باشد. نتایج تجزیه و تحلیل باید منعکس کننده غیر واضح ، غیر منتظره باشدالگوهای در داده هایی که به اصطلاح دانش پنهان را تشکیل می دهند. نتایجی که می توان به روشهای ساده تری بدست آورد (مثلاً با مشاهده بصری) استفاده از روشهای قدرتمند DataMining را توجیه نمی کند.
  • دانش عملاً مفید است. دانش یافت شده باید از جمله در مورد داده های جدید و دارای درجه اطمینان نسبتاً بالایی قابل اجرا باشد. سودمندی در این واقعیت نهفته است که این دانش می تواند مزایای خاصی را در کاربرد آنها به همراه داشته باشد.
  • دانش باید برای درک بشر در دسترس باشد. الگوهای یافت شده باید منطقی توضیح دهند ، در غیر این صورت احتمال تصادفی بودن آنها وجود دارد. علاوه بر این ، دانش کشف شده باید به شکلی قابل خواندن توسط انسان ارائه شود.

در DataMining از مدلهایی برای نمایش دانش به دست آمده استفاده می شود. انواع مدل ها به روش های ایجاد آنها بستگی دارد. متداول ترین آنها: قوانین ، درختان تصمیم گیری ، خوشه ها و عملکردهای ریاضی است.

  وظایف داده سازی

به یاد بیاورید که فناوری DataMining مبتنی بر مفهوم الگوهایی است که الگو هستند. در نتیجه کشف این الگوهای ، پنهان از چشم غیر مسلح ، مشکلات DataMining حل می شوند. انواع مختلفی از الگوهای ، که می توانند به شکلی قابل درک برای انسان بیان شوند ، با وظایف خاصی از DataMining مطابقت دارند.

در مورد اینکه چه وظایفی باید به DataMining اختصاص داده شود ، اجماع وجود ندارد. بیشتر منابع معتبر موارد زیر را ذکر می کنند: طبقه بندی ،

خوشه بندی ، پیش بینی ، ارتباط ، تجسم ، تجزیه و تحلیل و شناسایی

انحرافات ، ارزیابی ، تحلیل روابط ، جمع بندی.

هدف از توضیحی که در زیر آورده شده است ارائه یک ایده کلی در مورد کارهای DataMining ، مقایسه برخی از آنها و همچنین ارائه برخی از روش هایی است که با استفاده از آنها این کارها حل می شوند. متداول ترین وظایف DataMining طبقه بندی ، خوشه بندی ، ارتباط ، پیش بینی و تجسم است. بنابراین ، وظایف بر اساس نوع اطلاعات تولید شده تقسیم می شوند ، این عمومی ترین طبقه بندی کارهای DataMining است.

طبقه بندی

وظیفه تقسیم مجموعه اشیاء یا مشاهدات در گروه های از پیش تعیین شده به نام کلاس ها است که در داخل هر یک از آنها قرار است شبیه به یکدیگر باشند و تقریباً دارای همان خصوصیات و نشانه ها هستند. راه حل مبتنی استتحلیل و بررسی   مقادیر خصوصیات (نشانه ها).

طبقه بندی یکی از مهمترین کارهاست.داده کاوی . در کاربرد داردبازار یابی   در ارزیابی اعتبار وام گیرندگان ، تعیینوفاداری مشتری تشخیص الگو ، تشخیص پزشکی و بسیاری از کاربردهای دیگر. اگر تحلیلگر از خواص اشیاء هر کلاس بداند ، پس وقتی یک مشاهد جدید مربوط به یک کلاس خاص است ، این خصوصیات به طور خودکار برای آن اعمال می شود.

اگر تعداد کلاس ها به دو نفر محدود شود ، پس از آنطبقه بندی دودویی که بسیاری از کارهای پیچیده تر را می توان کاهش داد. به عنوان مثال ، به جای تعیین درجه هایی از ریسک اعتباری مانند High ، متوسط \u200b\u200bیا Low ، می توانید فقط از دو "Issue" یا "Refuse" استفاده کنید.

DataMining از مدلهای مختلفی برای طبقه بندی استفاده می کند:شبکه های عصبی ، درختان تصمیم گیری ، ماشین های بردار پشتیبان ، روش k-نزدیکترین همسایه ، الگوریتم های پوشش و غیره که ساخت آنها در هنگام آموزش با معلم اعمال می شودمتغیر خروجی   (برچسب کلاس) ) برای هر مشاهده تنظیم شده است. طبقه بندی به طور رسمی بر اساس پارتیشن انجام می شودفضاهای خاص   در مناطقی که در هر یک از آنها قرار داردبردارهای چند بعدی   یکسان تلقی می شود به عبارت دیگر ، اگر یک شیء در ناحیه فضا در ارتباط با یک طبقه خاص قرار گیرد ، متعلق به آن است.

خوشه بندی

توضیح کوتاه. خوشه\u200cبندی یک پسوند منطقی از ایده است.

طبقه بندی. این کار پیچیده تر است ، یک ویژگی خوشه بندی این است که طبقات اشیاء در ابتدا از پیش تعیین نشده اند. نتیجه خوشه بندی تقسیم اشیاء به گروه ها است.

نمونه ای از روشی برای حل مسئله خوشه بندی: یادگیری "بدون معلم" از نوع خاصی از شبکه های عصبی - نقشه های خود ساماندهی Kohonen.

انجمن (انجمن ها)

توضیح کوتاه. در ضمن حل مسئله جستجوی قوانین انجمنی ، الگوهای بین وقایع مرتبط در مجموعه داده ها یافت می شود.

تفاوت بین ارتباط و دو وظیفه DataMining قبلی: جستجوی الگوها براساس خصوصیات شی مورد تجزیه و تحلیل نیست بلکه بین چندین واقعه است که همزمان اتفاق می افتد. معروف ترین الگوریتم برای حل مشکل یافتن قوانین انجمنی ، الگوریتم آپریوری است.

دنباله یا پیوند متوالی

توضیح کوتاه. توالی اجازه می دهد تا الگوهای موقت بین معاملات را پیدا کنید. وظیفه دنباله شبیه به یک ارتباط است ، اما هدف آن ایجاد الگوهای نه تنها بین وقایع همزمان است بلکه بین وقایع مرتبط با زمان (یعنی با یک بازه زمانی معین اتفاق می افتد) است. به عبارت دیگر ، دنباله با احتمال زیاد زنجیره ای از وقایع مرتبط با زمان مشخص می شود. در حقیقت ، یک انجمن یک مورد خاص از دنباله ای است که دارای زمان تاخیر صفر است. این وظیفه DataMining نیز به عنوان مشکل دنباله ای نامیده می شود.

قاعده توالی: بعد از رویداد X ، رویداد Y پس از مدت معینی اتفاق می افتد.

مثال. پس از خرید آپارتمان ، ساکنان در 60٪ موارد طی دو هفته یخچال و فریزر و 50٪ موارد را در دو ماه تلویزیون خریداری می کنند. راه حل این مشکل به طور گسترده در بازاریابی و مدیریت ، به عنوان مثال ، در مدیریت چرخه مشتری (CustomerLifecycleManagement) استفاده می شود.

رگرسیون ، پیش بینی (پیش بینی)

توضیح کوتاه. در نتیجه حل مسئله پیش بینی بر اساس ویژگی های داده های تاریخی ، مقادیر گمشده یا آینده شاخص های عددی هدف تخمین زده می شود.

برای حل چنین مشکلاتی از روشهای آمار ریاضی ، شبکه های عصبی و غیره استفاده گسترده ای شده است.

  وظایف اضافی

تعریف انحرافات یا موارد دور (DeviationDetection)انحراف یا تجزیه و تحلیل دور

توضیح کوتاه. هدف از حل این مشکل ، کشف و تجزیه و تحلیل داده هایی است که بیشترین تفاوت را با کل مجموعه داده ها ، برای شناسایی الگوهای به اصطلاح uncharacteristic دارند.

برآورد کردن

وظیفه تخمین به پیش بینی مقادیر مداوم صفت کاهش می یابد.

تجزیه و تحلیل پیوند

کار پیدا کردن وابستگی در یک مجموعه داده است.

تجسم (نمودار)

در نتیجه تجسم ، یک تصویر گرافیکی از داده های تحلیل شده ایجاد می شود. برای حل مسئله تجسم ، از روشهای گرافیکی استفاده شده است که حضور الگوهای موجود در داده ها را نشان می دهد.

نمونه ای از تکنیک های تجسم ارائه داده ها در ابعاد 2-D و 3-D است.

خلاصه (خلاصه)

کاری که هدف آن توصیف گروه های خاصی از اشیاء از مجموعه داده های تحلیل شده است.

تقسیم وظایف DataMining به اندازه کافی نزدیک به طبقه بندی فوق است: تحقیقات و کشف ، کشف و پیش بینی و طبقه بندی ، توضیحات و توضیحات.

اکتشاف و کشف خودکار (جستجوی رایگان)

نمونه ای از یک کار: کشف بخش های جدید بازار.

برای حل این طبقه از مشکلات ، از روشهای تحلیل خوشه ای استفاده شده است.

پیش بینی و طبقه بندی

کار مثال: پیش بینی رشد فروش بر اساس مقادیر فعلی.

مواد و روش ها: رگرسیون ، شبکه های عصبی ، الگوریتم های ژنتیکی ، درخت تصمیم گیری.

طبقه بندی و پیش بینی وظایف ، گروهی از به اصطلاح مدل سازی القایی را تشکیل می دهد ، که در نتیجه ، مطالعه موضوع یا سیستم مورد تجزیه و تحلیل تضمین می شود. در فرآیند حل این مشکلات بر اساس یک مجموعه داده ، یک مدل کلی یا فرضیه تهیه می شود.

توضیحات و توضیحات

مثال کار: خصوصیات مشتریان با داده های جمعیتی و تاریخچه خرید.

روش ها: درختان تصمیم گیری ، سیستم های قاعده ای ، قوانین انجمن ، تجزیه و تحلیل پیوند.

اگر درآمد مشتری بیش از 50 واحد معمولی باشد و سن وی بیش از 30 سال باشد ، کلاس مشتری اول است.

مقایسه خوشه بندی و طبقه بندی

مشخصه

طبقه بندی

خوشه بندی

قابلیت کنترل یادگیری

کنترل شده

غیر قابل کنترل

استراتژی ها

آموزش معلمان

یادگیری معلم

برچسب کلاس

مجموعه یادگیری

پس از آن یک برچسب را نشان می دهد

کلاس که به آن تعلق دارد

مشاهده

برچسب های کلاس یادگیری

مجموعه ها ناشناخته هستند

مبنای طبقه بندی

داده های جدید بر اساس مجموعه آموزش طبقه بندی می شوند

با توجه به داده های زیادی با هدف

ایجاد وجود

کلاس ها یا خوشه های داده

دامنه های DataMining

لازم به ذکر است که امروزه بیشترین استفاده از فناوری DataMining در حل مشکلات تجاری است. شاید دلیل این امر این باشد که در این جهت بازده استفاده از ابزارهای DataMining می تواند طبق برخی منابع تا 1000٪ باشد و هزینه های اجرای آن می تواند به سرعت پرداخت شود.

ما چهار حوزه اصلی کاربرد فناوری DataMining را با جزئیات در نظر خواهیم گرفت: علم ، تجارت ، تحقیقات برای دولت و جهت گیری وب.

  کارهای تجاری. حوزه های اصلی: بانکی ، مالی ، بیمه ، CRM ، تولید ، ارتباط از راه دور ، تجارت الکترونیکی ، بازاریابی ، بورس و سایر موارد.

    این که آیا برای مشتری وام صادر کنیم

    تقسیم بندی بازار

    جذب مشتری جدید

    تقلب در کارت اعتباری

برنامه DataMining برای حل مشکلات در سطح ایالت. مسیرهای اصلی: جستجوی فرارهای مالیاتی؛ بودجه در مبارزه با تروریسم.

برنامه DataMining برای تحقیق علمی. مناطق اصلی: پزشکی ، زیست شناسی ، ژنتیک مولکولی و مهندسی ژنتیک ، بیوانفورماتیک ، نجوم ، شیمی کاربردی ، مطالعات مربوط به اعتیاد به مواد مخدر و موارد دیگر.

با استفاده از DataMining برای حل وظایف وب. مسیرهای اصلی: موتورهای جستجو (searchengines) ، پیشخوان ها و موارد دیگر.

تجارت الکترونیکی

در تجارت الکترونیکی از DataMining برای شکل گیری استفاده می شود

این طبقه بندی به شرکت ها اجازه می دهد گروه های خاصی از مشتریان را شناسایی کرده و مطابق با منافع و نیازهای کشف شده مشتری ، یک بازاریابی را دنبال کنند. داده سازی برای تجارت الکترونیکی ارتباط نزدیکی با WebMining دارد.

وظایف اصلی DataMining در تولید صنعتی:

· تجزیه و تحلیل جامع سیستم از شرایط تولید؛

· پیش بینی کوتاه مدت و بلند مدت از توسعه شرایط تولید؛

· توسعه گزینه های راه حل های بهینه سازی؛

پیش بینی کیفیت محصول بسته به پارامترهای مختلف

فرآیند فن آوری؛

· شناسایی روندهای پنهان و الگوهای توسعه تولید

فرآیندهای

· پیش بینی الگوهای توسعه فرآیندهای تولید؛

· شناسایی عوامل پنهان نفوذ؛

· شناسایی و شناسایی روابط قبلاً ناشناخته بین

پارامترهای تولید و عوامل تاثیر گذار؛

· تجزیه و تحلیل محیط برای تعامل فرآیندهای تولید و پیش بینی

تغییر در مشخصات آن؛

فرآیندهای

· تجسم نتایج تحلیل ، تهیه گزارشات اولیه و پروژه ها

راه حل های امکان پذیر با برآورد قابلیت اطمینان و اثربخشی اجرای های ممکن.

بازار یابی

در بازاریابی ، DataMining بسیار کاربرد دارد.

سؤالات اصلی بازاریابی "چه چیزی برای فروش است؟" ، "چگونه است که برای فروش؟" ، "چه کسی است

مصرف کننده؟ "

سخنرانی در مورد طبقه بندی و مشکلات خوشه بندی با استفاده از تجزیه و تحلیل خوشه ای برای حل مشکلات بازاریابی ، مانند تقسیم مصرف کننده ، با جزئیات توضیح می دهد.

یک مجموعه متداول دیگر برای حل مشکلات بازاریابی روش ها و الگوریتم های یافتن قوانین انجمنی است.

همچنین با موفقیت مورد استفاده در اینجا جستجوی الگوهای موقت است.

خرده فروشی

در بخش خرده فروشی و همچنین در بازاریابی موارد زیر اعمال می شود:

· الگوریتم های جستجوی قانون انجمن (برای تعیین مجموعه هایی که اغلب اتفاق می افتند)

کالاهایی که خریداران همزمان خریداری می کنند). شناسایی چنین قوانینی کمک می کند

کالاها را در قفسه های کف تجارت قرار دهید ، استراتژی هایی را برای تهیه کالا تهیه کنید

و قرار دادن آنها در انبارها و غیره

به عنوان مثال ، استفاده از توالی زمان برای تعیین

حجم لازم از سهام كالاها در انبار.

· روش طبقه بندی و خوشه بندی برای شناسایی گروه ها یا دسته بندی های مشتری ،

دانش که به پیشرفت موفق کالا کمک می کند.

بازار سهام

در اینجا لیستی از چالش های بورس اوراق بهادار وجود دارد که با استفاده از فناوری داده قابل حل است.

استخراج معادن: · پیش بینی ارزش های آینده ابزارهای مالی و شاخص های آنها

مقادیر گذشته؛

· پیش بینی روند (جهت حرکت بعدی - رشد ، سقوط ، مسطح) مالی

ابزار و قدرت آن (قوی ، نسبتاً قوی و غیره)؛

· تخصیص ساختار خوشه ای بازار ، صنعت ، بخش برای مجموعه مشخص

مشخصات؛

· مدیریت پویا نمونه کارها؛

· نوسانات پیش بینی؛

· ارزیابی ریسک؛

· پیش بینی شروع بحران و پیش بینی توسعه آن؛

· انتخاب دارایی ها و غیره

علاوه بر حوزه های فعالیت که در بالا توضیح داده شد ، فناوری DataMining می تواند در طیف گسترده ای از حوزه های تجاری که در آن نیاز به تجزیه و تحلیل داده ها وجود دارد و مقدار مشخصی از اطلاعات گذشته نگر انباشته شده است ، استفاده شود.

استفاده از DataMining در CRM

یکی از امیدوار کننده ترین زمینه های برنامه DataMining استفاده از این فناوری در CRM تحلیلی است.

CRM (CustomerRelationshipManagement) - مدیریت ارتباط با مشتری.

هنگام استفاده از این فناوری ها ، استخراج دانش با "استخراج پول" از داده های مشتری ترکیب می شود.

جنبه مهم در کار بخش های بازاریابی و فروش ، گردآوری استدیدگاه کل نگرانه به مشتریان ، اطلاعات در مورد ویژگی ها ، ویژگی ها ، ساختار پایگاه مشتری. CRM از به اصطلاح پروفایل سازی استفاده می کندمشتریان ، نمای کاملی از کلیه اطلاعات لازم در مورد مشتری ارائه می دهند.

پروفایل مشتری شامل مؤلفه های زیر است: تقسیم مشتری ، سودآوری مشتری ، نگهداری مشتری ، تجزیه و تحلیل پاسخ مشتری. هر یک از این مؤلفه ها را می توان با استفاده از DataMining و تجزیه و تحلیل آنها به عنوان یک کل ، به عنوان مؤلفه های پروفایل ، مورد مطالعه قرار داد ، در نتیجه می تواند دانش لازم را بدست آورد که از هر خصوصیات فردی قابل دستیابی نیست.

مدیریت وب

WebMining را می توان به عنوان "داده کاوی در وب" ترجمه کرد. WebIntelligence یا وب.

Intellect آماده است تا "فصل جدیدی را در توسعه سریع تجارت الکترونیکی باز کند. توانایی تعیین علایق و ترجیحات هر بازدید کننده با مشاهده رفتار وی ، یک مزیت جدی و مهم رقابت در بازار تجارت الکترونیکی است.

سیستم های وب ماین می توانند به بسیاری از سؤالات پاسخ دهند ، به عنوان مثال ، کدام یک از بازدید کنندگان مشتری بالقوه فروشگاه وب است ، کدام یک از مشتریان فروشگاه وب بیشترین درآمد را ایجاد می کنند ، علاقه بازدید کننده خاص یا گروهی از بازدید کنندگان چیست.

  مواد و روش ها

  طبقه بندی روش

دو گروه روش وجود دارد:

  • روش های آماری مبتنی بر استفاده از تجربه انباشته متوسط \u200b\u200b، که در داده های گذشته نگر منعکس می شود.
  • روش های سایبرنتیک ، از جمله بسیاری از رویکردهای ناهمگن ریاضی.

ضرر این طبقه بندی: هم الگوریتم های آماری و هم سایبرنتیک از یک طریق یا دیگری به مقایسه تجربه آماری با نتایج نظارت بر وضعیت فعلی متکی هستند.

مزیت چنین طبقه بندی راحتی آن برای تفسیر است - از آن برای توصیف ابزارهای ریاضی رویکرد نوین برای استخراج دانش از آرایه مشاهدات اولیه (عملیاتی و گذشته نگر) استفاده می شود ، یعنی. در وظایف داده کاوی.

گروه های ارائه شده در بالا را با جزئیات بیشتری در نظر بگیرید.

روشهای آماری داده کاوی

دراین چهار روش متصل به هم هستند:

  • تجزیه و تحلیل اولیه ماهیت داده های آماری (آزمایش فرضیه های ثابت بودن ، نرمال بودن ، استقلال ، همگن بودن ، برآورد نوع عملکرد توزیع ، پارامترهای آن و غیره)؛
  • شناسایی روابط و الگوهای  (تحلیل رگرسیون خطی و غیرخطی ، تحلیل همبستگی ، و غیره)؛
  • تجزیه و تحلیل آماری چند متغیره (تجزیه و تحلیل تبعیض آمیز خطی و غیرخطی ، تجزیه و تحلیل خوشه ای ، تجزیه و تحلیل مؤلفه ها ، تحلیل عاملی و غیره)؛
  • مدل های پویا و پیش بینی بر اساس سری زمانی.

زرادخانه روشهای آماری داده کاوی به چهار گروه روش طبقه بندی می شود:

  1. تجزیه و تحلیل توصیفی و توصیف داده های منبع.
  2. تجزیه و تحلیل پیوند (همبستگی و تحلیل رگرسیون ، تحلیل عاملی ، تحلیل واریانس).
  3. تجزیه و تحلیل آماری چند متغیره (تجزیه و تحلیل مؤلفه ، آنالیز تبعیض آمیز ، تحلیل رگرسیون چند متغیره ، همبستگی کانونی و غیره).
  4. تجزیه و تحلیل سری زمانی (مدل های پویا و پیش بینی).

تکنیک های داده کاوی سایبر

جهت دوم Data Mining بسیاری از رویکردها است که با ایده ریاضیات رایانه و استفاده از تئوری هوش مصنوعی متحد شده است.

این گروه روشهای زیر را شامل می شود:

  • شبکه های عصبی مصنوعی (شناخت ، خوشه بندی ، پیش بینی)؛
  • برنامه نویسی تکاملی (از جمله الگوریتم های روش حسابداری گروهی از آرگومان ها).
  • الگوریتم های ژنتیکی (بهینه سازی)؛
  • حافظه انجمنی (جستجوی آنالوگ ها ، نمونه های اولیه)؛
  • منطق فازی؛
  • درختان تصمیم گیری؛
  • سیستم های پردازش دانش تخصصی.

  آنالیز خوشه ای

هدف از خوشه بندی جستجوی ساختارهای موجود است.

خوشه\u200cبندی روشی توصیفی است ؛ هیچ نتیجه گیری آماری را حاصل نمی کند ، اما انجام تجزیه و تحلیل اکتشافی و مطالعه "ساختار داده" را ممکن می سازد.

مفهوم "خوشه" به صورت مبهم تعریف شده است: هر مطالعه "خوشه" های خاص خود را دارد. مفهوم یک خوشه به صورت "خوشه" ، "خوشه" ترجمه شده است. خوشه را می توان به عنوان گروهی از اشیاء با خصوصیات مشترک توصیف کرد.

خصوصیات خوشه را می توان دو علامت نامید:

  • یکنواختی داخلی؛
  • جداسازی خارجی

سوالی که توسط تحلیلگران در هنگام حل بسیاری از مشکلات پرسیده می شود ، چگونگی سازماندهی داده ها در ساختارهای بصری است ، یعنی. گسترش طبقه بندی.

خوشه بندی در ابتدا بیشتر مورد استفاده در علوم مانند زیست شناسی ، مردم شناسی و روانشناسی بود. برای حل مشکلات اقتصادی ، خوشه بندی به دلیل ویژگی های داده ها و پدیده های اقتصادی مدت طولانی استفاده نشده است.

خوشه ها می توانند غیر همپوشانی یا منحصر به فرد (بدون همپوشانی ، اختصاصی) و تلاقی (همپوشانی) باشند.

لازم به ذکر است که در نتیجه اعمال روش های مختلفی از تجزیه و تحلیل خوشه ای ، می توان خوشه هایی با اشکال مختلف به دست آورد. به عنوان مثال ، خوشه های نوع "زنجیره ای" هنگامی امکان پذیر است که خوشه ها توسط "زنجیره" های طولانی ، خوشه های دراز و غیره نمایان شوند و برخی از روش ها می توانند خوشه هایی از شکل دلخواه ایجاد کنند.

روش های مختلف ممکن است به دنبال ایجاد خوشه هایی با اندازه های خاص (به عنوان مثال کوچک یا بزرگ) باشد و یا فرض کنید وجود خوشه هایی با اندازه های مختلف در مجموعه داده ها. برخی از روش های تجزیه و تحلیل خوشه ای به ویژه نسبت به نویز یا محیط های اطراف حساس هستند ؛ برخی دیگر حساس تر نیستند. در نتیجه استفاده از روش های مختلف خوشه بندی ، نتایج نابرابر حاصل می شود ، این طبیعی است و ویژگی عملکرد یک الگوریتم خاص است. این ویژگی ها باید هنگام انتخاب یک روش خوشه بندی در نظر گرفته شوند.

ما شرح مختصری از رویکردهای مربوط به خوشه بندی می دهیم.

الگوریتم های تقسیم بندی بر اساس الگوریتم های تقسیم بندی تکراری:

  • تقسیم اشیاء به خوشه k؛
  • توزیع مجدد اجسام برای بهبود خوشه بندی.
  • الگوریتم های سلسله مراتبی:
  • جمع شدن: در ابتدا هر شیء خوشه ای ، خوشه ای ،
  • با یکدیگر ارتباط برقرار کنید ، یک خوشه بزرگتر و غیره تشکیل دهید.

روش های مبتنی بر غلظت اشیاء (روش های مبتنی بر تراکم):

  • بر اساس توانایی اتصال اشیاء؛
  • نویز را نادیده بگیرید ، خوشه هایی با شکل دلخواه پیدا کنید.

توری - روشها (روشهای مبتنی بر شبکه):

  • کمیت اشیاء در یک ساختار شبکه.

روش های مدل (مبتنی بر مدل):

  • با استفاده از مدل برای پیدا کردن خوشه هایی که مطابق با داده ها هستند.

روش های تحلیل خوشه ای. روش های تکراری.

با تعداد زیاد مشاهدات ، روشهای سلسله مراتبی تجزیه و تحلیل خوشه ای مناسب نیستند. در چنین مواردی از روشهای غیر سلسله مراتبی مبتنی بر تفکیک استفاده می شود که این روش های تکراری برای تکه تکه کردن جمعیت اصلی است. در فرایند تقسیم ، خوشه های جدید تشکیل می شوند تا زمانی که قانون توقف برآورده شود.

چنین خوشه بندی های غیر سلسله مراتبی شامل تقسیم داده های مجموعه به تعداد معینی از خوشه های فردی است. دو رویکرد وجود دارد. اولین مورد برای تعیین مرزهای خوشه ها به عنوان متراکم ترین مناطق در فضای چند بعدی داده های منبع ، یعنی. تعریف خوشه ای که "غلظت نقاط" زیادی وجود دارد. رویکرد دوم به حداقل رساندن اندازه گیری اختلاف در اشیاء است

الگوریتم K-معنی (k-معنی)

متداول ترین روش های غیر سلسله مراتبی الگوریتم k-معنی است که به آن نیز گفته می شود تجزیه و تحلیل خوشه ای سریع. توضیحات کامل در مورد این الگوریتم را می توان در کار هارتگان و وونگ یافت (HartiganandWong ، 1978). برخلاف روش های سلسله مراتبی ، که نیازی به فرض های اولیه در مورد تعداد خوشه ها نیستند ، برای اینکه بتوانند از این روش استفاده کنند ، لازم است که فرضیه ای در مورد محتمل ترین تعداد خوشه ها انجام شود.

الگوریتم k-значи ، خوشه های K را در فاصله های بزرگ که ممکن است از یکدیگر قرار دارند ، می سازد. نوع اصلی وظایفی که الگوریتم k-یعنی حل می کند ، وجود فرضیات (فرضیه ها) در مورد تعداد خوشه ها است و آنها باید تا حد امکان متفاوت باشند. انتخاب k می تواند براساس تحقیقات قبلی ، ملاحظات نظری یا شهود باشد.

ایده کلی الگوریتم: یک عدد ثابت k خوشه مشاهده شده در خوشه ها نقشه برداری می شود به طوری که میانگین های موجود در خوشه (برای همه متغیرها) تا حد ممکن از یکدیگر متفاوت باشند.

توضیحات الگوریتم

1. توزیع اولیه اشیاء در خوشه ها.

  • عدد k انتخاب می شود و در مرحله اول این نقاط "مراکز" خوشه ها در نظر گرفته می شوند.
  • هر خوشه یک مرکز دارد.

انتخاب سانتریفید اولیه می تواند به شرح زیر انجام شود:

  • انتخاب K-مشاهدات برای به حداکثر رساندن فاصله اولیه.
  • انتخاب تصادفی از مشاهدات k.
  • انتخاب اولین مشاهدات k.

در نتیجه ، هر شی به یک خوشه خاص اختصاص می یابد.

2. فرآیند تکراری.

مراکز خوشه ها محاسبه می شوند ، که در این صورت و بعد میانگین خوشه های مختصات هستند. دوباره اشیاء توزیع می شوند.

روند محاسبه مراکز و توزیع مجدد اشیاء تا زمان تحقق یکی از شرایط ادامه می یابد:

  • مراکز خوشه تثبیت شده است ، یعنی تمام مشاهدات متعلق به خوشه ای است که به تکرار فعلی تعلق دارد.
  • تعداد تکرارها با حداکثر تعداد تکرارها برابر است.

شکل نمونه ای از الگوریتم k-معنی را برای k برابر با دو نشان می دهد.

نمونه ای از عملکرد الگوریتم k-معنی (k \u003d 2)

انتخاب تعداد خوشه ها یک مسئله پیچیده است. اگر هیچ فرضی در مورد این عدد وجود نداشته باشد ، توصیه می شود 2 خوشه ، سپس 3 ، 4 ، 5 و غیره را با یکدیگر مقایسه کنید.

بررسی کیفیت خوشه بندی

پس از به دست آوردن نتایج حاصل از تجزیه و تحلیل خوشه ای با استفاده از روش k-میانگین ، باید خوشه بندی صحیح بررسی شود (یعنی برای ارزیابی میزان اختلاف خوشه ها از یکدیگر).

برای این ، مقادیر متوسط \u200b\u200bبرای هر خوشه محاسبه می شود. با خوشه بندی خوب ، برای همه اندازه گیری ها یا حداقل اکثر آنها باید میانگین های بسیار متفاوتی بدست آورید.

مزایای استفاده از الگوریتم k-mean:

  • راحتی در استفاده؛
  • سرعت استفاده؛
  • درک و شفافیت الگوریتم.

معایب الگوریتم k-mean:

  • الگوریتم نسبت به مواردی که می توانند میانگین را تحریف کنند بسیار حساس است.

یک راه حل ممکن برای حل این مشکل استفاده از اصلاح الگوریتم ، الگوریتم k-median است.

  • این الگوریتم می تواند به آرامی در پایگاه های داده های بزرگ کار کند. راه حل ممکن برای حل این مشکل استفاده از یک نمونه داده است.

  شبکه های بیزی

در نظریه احتمال ، مفهوم وابستگی اطلاعات از طریق وابستگی مشروط (یا به طور دقیق: عدم وجود استقلال شرطی) الگوبرداری شده است ، که شرح می دهد چگونه اعتماد ما به نتیجه یک رویداد هنگامی که دانش جدیدی در مورد واقعیت ها کسب می کنیم تغییر می کند ، مشروط بر اینکه پیش از این مجموعه خاصی از حقایق دیگر را می دانستیم.

تصور وابستگی بین عناصر با استفاده از یک مسیر جهت دار که این عناصر را در یک نمودار متصل می کند ، راحت و شهودی است. اگر رابطه بین عناصر x و y مستقیم نیست و از طریق عنصر سوم z پیاده سازی می شود ، منطقی است که انتظار داشته باشیم که عنصر z در مسیر بین x و y باشد. چنین گره های واسطه ای رابطه بین x و y را قطع می کند ، برای شبیه سازی وضعیت استقلال مشروط بین آنها با یک مقدار شناخته شده از عوامل مستقیم نفوذ.این زبانهای مدل سازی شبکه های بیزی هستند که به توصیف وابستگی شرطی بین مفاهیم یک موضوع خاص می پردازند.

شبکه های بیزی ساختارهای گرافیکی برای نشان دادن روابط احتمالی بین تعداد زیادی از متغیرها و ایجاد استنباط احتمالی بر اساس این متغیرها هستند.طبقه بندی "ساده لوح" (بیزی) یک روش طبقه بندی نسبتاً شفاف و قابل فهم است. "ساده لوحی" نامیده می شود زیرا از فرض متقابل نتیجه می گیرداستقلال نشانه ها.

خواص طبقه بندی:

1. استفاده از همه متغیرها و تعیین همه وابستگی ها بین آنها.

2. حضور دو فرض در مورد متغیرها:

  • همه متغیرها به همان اندازه مهم هستند؛
  • همه متغیرها از نظر آماری مستقل هستند ، یعنی مقدار یک متغیر چیزی درباره ارزش دیگری نمی گوید.

دو سناریو اصلی برای استفاده از شبکه های بیزی وجود دارد:

1. تجزیه و تحلیل توصیفی. ناحیه مورد نظر به صورت نمودار نمایش داده می شود ، گره های آن نمایانگر مفاهیم هستند و قوس های کارگردانی که توسط فلش \u200b\u200bها نمایش داده می شود ، روابط مستقیم بین این مفاهیم را نشان می دهد. ارتباط بین مفاهیم x و y به معنای: دانستن مقدار x به پیش فرض آگاهانه تر درباره مقدار y کمک می کند. فقدان ارتباط مستقیم بین مفاهیم ، استقلال مشروط بین آنها را برای مقادیر شناخته شده مجموعه مشخصی از مفاهیم "جداکننده" مدل می کند. به عنوان مثال ، اندازه كفش كودك آشكارا با توانایی كودك در خواندن از طریق سن مرتبط است. بنابراین ، اندازه بزرگتر کفش اطمینان بیشتری به کودک در حال خواندن می دهد ، اما اگر سن را از قبل بدانیم ، دانستن اندازه کفش دیگر اطلاعات دیگری درباره توانایی خواندن کودک به ما نمی دهد.


به عنوان مثال دیگر ، برعکس ، ما چنین فاکتورهایی را که در ابتدا نامربوط مانند سیگار کشیدن و سرماخوردگی است در نظر می گیریم. اما اگر مثلاً یک علامت را بدانیم که فرد صبح از سرفه رنج می برد ، پس دانستن اینکه فردی سیگار نمی کشد ، اعتماد به نفس ما را نسبت به شخص سرد می کند.

2. طبقه بندی و پیش بینی. شبکه بیزی با اجازه دادن به استقلال مشروط تعدادی از مفاهیم ، به شما اجازه می دهد تعداد پارامترهای توزیع مشترک را کاهش داده و اعتماد به آنها را در حجم داده های موجود امکان پذیر کنید. بنابراین ، با 10 متغیر ، که هر کدام می توانند 10 مقدار را بدست آورند ، تعداد پارامترهای توزیع مشترک 10 میلیارد است - 1. اگر فرض کنیم که فقط 2 متغیر به یکدیگر وابسته هستند ، تعداد پارامترها 8 * می شود (10-1) + (10 * 10-1) \u003d 171. با داشتن الگویی از توزیع مشترک واقع بینانه در منابع محاسباتی ، مقدار ناشناخته یک مفهوم ، می توان پیش بینی کرد که ، به عنوان مثال ، چقدر محتمل ترین ارزش این مفهوم با مقادیر شناخته شده سایر مفاهیم است.

چنین مزایایی از شبکه های بیزی به عنوان روش DataMining ذکر شده است:

مدل وابستگی بین همه متغیرها را تعریف می کند ، این کار را آسان می کندشرایطی را کنترل کنید که مقادیر برخی متغیرها ناشناخته باشند.

شبکه های بیزی کاملاً به راحتی تفسیر می شوند و در مرحله اجازه می دهندمدلسازی پیش بینی با توجه به سناریوی "چه می شود اگر" آسان است.

روش بیزی به شما اجازه می دهد تا به طور طبیعی الگوهای را با هم ترکیب کنید ،از داده ها و ، به عنوان مثال ، دانش تخصصی که به صراحت به دست آمده است ، مشتق شده است.

استفاده از شبکه های بیزی از مشکل آموزش مجدد جلوگیری می کند(پوشش بیش از حد) ، یعنی پیچیدگی بیش از حد مدل ، که یک ضعف استبسیاری از روشها (به عنوان مثال ، درخت تصمیم گیری و شبکه های عصبی).

رویکرد ساده لوحی بیزی دارای معایب زیر است:

فقط درصورتی که همه احتمالات ورودی ضرب شرط کنند فقط صحیح استمتغیرها از نظر آماری مستقل هستند. اگرچه اغلب این روش استدر صورت عدم رعایت شرایط آماری نتایج کافی خوب نشان می دهداستقلال ، اما از لحاظ تئوریکی چنین وضعیتی باید پیچیده تر اداره شودروش های مبتنی بر آموزش شبکه های بیزی؛

پردازش مستقیم متغیرهای مداوم امکان پذیر نیست - آنها لازم استتبدیل به مقیاس فاصله به گونه ای که صفات گسسته هستند. با این حال چنیندگرگونی ها گاهی اوقات می تواند منجر به از بین رفتن الگوهای قابل توجه شود.

نتیجه طبقه بندی در رویکرد ساده لوحی بیزی تنها تحت تأثیر قرار می گیردمقادیر فردی متغیرهای ورودی ، تأثیر ترکیبی از جفت یاسه برابر ارزشهای مختلف در اینجا مورد توجه قرار نمی گیرد. این می تواند بهبود یابدکیفیت مدل طبقه بندی از نظر دقت پیش بینی کننده آن ،با این حال ، تعداد گزینه های آزمایش شده را افزایش می دهد.

  شبکه های عصبی مصنوعی

شبکه های عصبی مصنوعی (که از این پس به آن شبکه های عصبی گفته می شود) می توانند همزمان و ناهمزمان باشند.در شبکه های عصبی همزمان ، در هر لحظه از زمان ، فقط وضعیت آن تغییر می کندیک نورون در ناهمزمان - حالت به طور معمول در همه گروه های نورونها تغییر می کندلایه دو معماری اساسی را می توان متمایز کرد - شبکه های لایه ای و کاملاً متصل.کلید شبکه های لایه ای مفهوم یک لایه است.یک لایه یک یا چند نورون است که در ورودی هایی که همان سیگنال مشترک تأمین می شود ، وجود دارد.شبکه های عصبی لایه ای شبکه های عصبی هستند که در آنها نورون ها به گروه های جداگانه (لایه ها) تقسیم می شوند تا اطلاعات در لایه ها پردازش شوند.در شبکه های لایه ای ، نورون های لایه ith سیگنال های ورودی را دریافت می کنند ، آنها را تبدیل می کنند و از طریق شاخه ها به سلول های عصبی (i + 1) لایه منتقل می شوند. و به همین ترتیب تا لایه k-th که مهم استسیگنال های خروجی برای مترجم و کاربر. تعداد سلولهای عصبی در هر لایه به تعداد سلولهای عصبی سایر لایه ها ارتباط ندارد ، می تواند دلخواه باشد.در یک لایه ، داده ها به صورت موازی پردازش می شوند و در سراسر شبکه ، پردازش به صورت متوالی انجام می شود - از لایه به لایه. شبکه های عصبی لایه ای ، به عنوان مثال ، پرسپترون های چند لایه ، شبکه های توابع پایه شعاعی ، یک کوژنیترون ، یک غیر شناختی و شبکه های حافظه انجمنی را شامل می شوند.با این حال ، سیگنال همیشه در مورد همه نورونهای موجود در لایه اعمال نمی شود. به عنوان مثال ، در کوگنیترون ، هر نورون از لایه فعلی فقط از نورونهای نزدیک لایه قبلی سیگنال دریافت می کند.

شبکه های لایه ای به نوبه خود می توانند تک لایه و چند لایه باشند.

شبکه تک لایه- شبکه ای متشکل از یک لایه.

شبکه لایه ای- شبکه ای که چندین لایه دارد.

در یک شبکه چند لایه ، لایه اول لایه ورودی نامیده می شود ، لایه بعدی داخلی یا پنهان نامیده می شود و لایه آخر لایه خروجی است. بنابراین ، لایه های میانی همه لایه ها در یک شبکه عصبی چند لایه هستند ، به جز لایه های ورودی و خروجی.لایه ورودی شبکه با داده های ورودی ، لایه خروجی با خروجی ارتباط برقرار می کند.بنابراین ، نورونها می توانند ورودی ، خروجی و پنهان باشند.لایه ورودی از نورونهای ورودی (inputneuron) سازماندهی می شود ، که داده ها را دریافت کرده و آنها را به ورودی های نورون های لایه شبکه پنهان توزیع می کنند.یک نورون پنهان یک نورون است که در یک لایه پنهان از یک شبکه عصبی قرار دارد.نورونهای خروجی (خروجی نورون) ، که از آن لایه خروجی شبکه سازمان یافته است ، تولید می کندنتایج شبکه عصبی.

در شبکه های کاملاً متصلهر نورون سیگنال خروجی خود را به سلولهای عصبی دیگر ، از جمله خود ، منتقل می کند. سیگنالهای خروجی شبکه ممکن است همه یا برخی از سیگنالهای خروجی نورونها پس از چند چرخه ساعت شبکه باشد.

تمام سیگنال های ورودی به همه نورون ها عرضه می شوند.

آموزش شبکه عصبی

قبل از استفاده از شبکه عصبی ، باید آموزش داده شود.فرایند آموزش شبکه عصبی برای تنظیم پارامترهای داخلی آن در یک کار خاص است.الگوریتم شبکه عصبی تکراری است ، مراحل آن epochs یا چرخه نامیده می شوند.Epoch - یک تکرار در فرآیند یادگیری ، از جمله ارائه تمام نمونه های مجموعه آموزش و احتمالاً بررسی کیفیت آموزش در کنترلتنظیم. فرایند یادگیری در یک نمونه آموزشی انجام می شود.مجموعه آموزش شامل مقادیر ورودی و مقادیر خروجی مربوط به مجموعه داده ها است. در طول آموزش ، شبکه عصبی برخی از وابستگی های زمینه های خروجی را به ورودی پیدا می کند.بنابراین ، با این سؤال روبرو هستیم - زمینه های ورودی (علائم) برای ما چیستnessesary برای استفاده در ابتدا ، انتخاب به صورت اکتشافی انجام می شود ، سپستعداد ورودی ها قابل تغییر است.

پیچیدگی ممکن است این سوال را در مورد تعداد مشاهدات موجود در مجموعه داده ایجاد کند. و اگرچه قوانینی وجود دارد که رابطه بین تعداد مورد نیاز مشاهدات و اندازه شبکه را توصیف می کند ، اما وفاداری آنها اثبات نشده است.تعداد مشاهدات لازم به پیچیدگی مسئله حل شده بستگی دارد. با افزایش تعداد علائم ، تعداد مشاهدات غیرخطی افزایش می یابد ، این مشکل "نفرین ابعاد" نامیده می شود. با کمبودداده ها برای استفاده از یک مدل خطی توصیه می شود.

تحلیلگر باید تعداد لایه ها در شبکه و تعداد نورون های هر لایه را مشخص کند.در مرحله بعد ، باید چنین مقادیر وزنی و جابجایی را تعیین کنیدخطای تصمیم را به حداقل برسانید. وزنها و جبران خسارتها بطور خودکار تنظیم می شوند تا تفاوت بین سیگنال های مورد نظر و دریافت شده به حداقل برسد ، که به آن خطای یادگیری گفته می شود.خطای یادگیری برای شبکه عصبی ساخته شده با مقایسه محاسبه می شودمقادیر خروجی و هدف (مورد نظر). عملکرد خطا از تفاوت های به دست آمده تشکیل می شود.

عملکرد خطا یک تابع هدف است که به حداقل رساندن فرآیند نیاز داردآموزش شبکه عصبی.با استفاده از عملکرد خطا ، می توانید کیفیت شبکه عصبی را هنگام آموزش ارزیابی کنید. برای مثال ، اغلب از خطاهای مربع استفاده می شود.توانایی حل وظایف محوله به کیفیت آموزش یک شبکه عصبی بستگی دارد.

آموزش شبکه عصبی

یادگیری شبکه های عصبی اغلب با مشکل جدی روبرو می شودمشکل بیش از اندازهبازآزمایی ، یا خیلی مناسب بودن کاملاً منطبق استشبکه عصبی به مجموعه خاصی از نمونه های آموزشی که در آن شبکه از دست می رودتوانایی تعمیمآموزش در صورت آموزش بیش از حد طولانی ، تعداد کافی وجود نداردنمونه های آموزش یا ساختار شبکه عصبی پیچیده.آموزش مجدد به این دلیل است که انتخاب مجموعه آموزش (آموزش)تصادفی است. از اولین مراحل آموزش ، خطا کاهش می یابد. درمراحل زیر به منظور کاهش پارامترهای خطا (عملکرد هدف)با ویژگی های مجموعه آموزش سازگار شوید. با این حال ، این اتفاق می افتد"تنظیم" نه طبق قوانین کلی سریال ، بلکه تحت ویژگی های قسمت آن -زیر مجموعه های یادگیری در این حالت ، دقت پیش بینی کاهش می یابد.یکی از گزینه های مبارزه با آموزش مجدد شبکه ، تقسیم نمونه آموزش به دو استمجموعه ها (آموزش و تست)در مجموعه آموزش ، آموزش شبکه عصبی صورت می گیرد. در مجموعه آزمون ، مدل ساخته شده بررسی می شود. این مجموعه ها نباید تقاطع داشته باشند.با هر مرحله ، پارامترهای مدل کاهش می یابد ، با این حال ، کاهش مداوممقادیر عملکرد هدف دقیقاً در مجموعه آموزش رخ می دهد. هنگام تقسیم مجموعه به دو ، می توانیم تغییر در خطای پیش بینی در آزمون را به موازات مشاهدات در مورد مجموعه تمرین مشاهده کنیم. نوعیتعداد مراحل خطای پیش بینی در هر دو مجموعه کاهش می یابد. به هر حالدر یک مرحله مشخص ، خطای موجود در مجموعه آزمون افزایش می یابد ، در حالی که خطای موجود در مجموعه تمرین همچنان در حال کاهش است. این لحظه سرآغاز آموزش مجدد محسوب می شود

  ابزارهای داده سازی

توسعه در بخش DataMining در بازار جهانی نرم افزار هم رهبران مشهور جهان و هم شرکتهای نوظهور را درگیر می کند. ابزارهای DataMining می توانند به صورت یک برنامه مستقل یا به عنوان افزودنی برای محصول اصلی ارائه شوند.گزینه دوم توسط بسیاری از رهبران بازار نرم افزار پیاده سازی شده است.بنابراین ، قبلاً به یک رسم تبدیل شده است که توسعه دهندگان بسته های آماری جهانی ، علاوه بر روش های سنتی تجزیه و تحلیل آماری ، در این بسته قرار می گیرندمجموعه مشخصی از روشهای DataMining. این بسته ها به عنوان   SPSS (SPSS ، Clementine) ، Statistica (StatSoft) ، موسسه SAS (SAS Enterprise Miner).برخی از توسعه دهندگان راه حل های OLAP همچنین مجموعه ای از روش های DataMining را ارائه می دهند ، به عنوان مثال ، خانواده محصول Cognos. فروشندگانی وجود دارند که راه حل های DataMining را در عملکرد DBMS شامل می شوند: اینها مایکروسافت (MicrosoftSQLServer) ، Oracle ، IBM (IBMIntelligentMinerforData) هستند.

  کتابشناسی - فهرست کتب

  1. عبدیکف ن.م. دانکو T.P. Ildemenov S.V. Kiselev A.D. ، "مهندسی مجدد فرایندهای تجاری. دوره MBA "، مسکو: خانه نشر Eksmo ، 2005. - 592 ص. - (MBA)
  1. Abdikeev N.M.، Kiselev A.D. "مدیریت دانش در شرکت ها و مهندسی مجدد مشاغل" - م: Infra-M ، 2011.- 382 ص. - شابک 978-5-16-004300-5
  1. Barseghyan A.A.، Kupriyanov M.S.، Stepanenko V.V.، Khodod I.I. "روش ها و مدل های تحلیل داده ها: OLAP و داده کاوی" ، سن پترزبورگ: BHV-پترزبورگ ، 2004 ، 366 ص. ، ISBN 5-94157-522-X
  1. دوک AT., سامویلنکو و.، "داده کاوی.دوره آموزشی "سن پترزبورگ: پیتر ، 2001 ، 386s.
  1. Chubukova I.A.، دوره داده کاوی ،  http://www.intuit.ru/depcase/database/datamining/
  1. یان Witten، Eibe Frank، Mark A. Hall، Morgan Kaufmann، Data Mining: ابزارها و فنون یادگیری ماشین عملی (ویرایش سوم) ، ISBN 978-0-12-374856-0
  1. پتروشین V.A. ، خان L. ، داده کاوی چندرسانه ای و کشف دانش

داده کاوی چیست

بانک اطلاعاتی شرکتی هر شرکت مدرن معمولاً شامل مجموعه ای از جداول است که سوابق مربوط به حقایق یا اشیاء خاصی را ذخیره می کند (به عنوان مثال ، درباره کالاها ، فروش آنها ، مشتریان ، حسابها). به عنوان یک قاعده ، هر رکورد در چنین جدول جداول یک واقعیت یا واقعیت خاص را توصیف می کند. به عنوان مثال ، ورود در جدول فروش نشانگر این واقعیت است که چنین کالایی و چنین کالایی توسط چنین مدیر و چنین مدیری به چنین مشتری و یا چنین مشتری فروخته شده است ، و به طور کلی چیزی جز این اطلاعات ندارد. با این حال ، تعداد زیادی از چنین پرونده هایی که طی چندین سال انباشته شده اند ، می توانند به منبعی از اطلاعات اضافی ، بسیار با ارزش تر تبدیل شوند که بر اساس یک سوابق خاص ، یعنی اطلاعات در مورد الگوهای ، روندها یا وابستگی های متقابل بین هر داده ، نمی توانند به دست آیند. نمونه هایی از چنین اطلاعاتی اطلاعاتی در مورد چگونگی فروش کالای خاص به روز هفته ، زمان روز یا فصل است که کدام دسته از خریداران اغلب یک کالای خاص را خریداری می کنند ، که بخشی از خریداران یک محصول خاص کالای خاص دیگری را بدست می آورند ، که اغلب آنها دسته بندی مشتریان را تشکیل می دهند. وام را به موقع بازپرداخت نمی کند.

این نوع اطلاعات معمولاً در پیش بینی ، برنامه ریزی استراتژیک ، تجزیه و تحلیل ریسک استفاده می شود و ارزش آن برای شرکت بسیار زیاد است. بنابراین ، ظاهراً فرایند جستجوی آن با عنوان Data Mining (معدن به زبان انگلیسی به معنی "استخراج" است ، و جستجوی الگوهای موجود در مجموعه عظیمی از شواهد واقعاً شبیه این است). اصطلاح داده کاوی نه چندان خاص از فناوری خاص به معنای فرآیند جستجوی همبستگی ها ، روندها ، روابط و الگوهای از طریق الگوریتم های مختلف ریاضی و آماری است: خوشه بندی ، ایجاد نمونه های فرعی ، تجزیه و تحلیل رگرسیون و همبستگی. هدف از این جستجو ارائه داده به شکلی است که به وضوح فرآیندهای تجارت را منعکس می کند ، همچنین ساختن مدلی است که با استفاده از آن می توانید فرآیندهای مهم برای برنامه ریزی تجاری را پیش بینی کنید (به عنوان مثال پویایی تقاضا برای کالاها یا خدمات خاص یا وابستگی به کسب آنها از هر نوع مشخصات مصرف کننده).

توجه داشته باشید که آمار ریاضی سنتی ، که برای مدت طولانی ابزار اصلی برای تجزیه و تحلیل داده ها و همچنین ابزارهای پردازش تحلیلی آنلاین (OLAP) است که ما قبلاً در مورد آنها چندین بار نوشتیم (مطالب مربوط به این موضوع را در CD ما ببینید). همیشه نمی توان با موفقیت برای حل چنین مشکلاتی به کار برد. به طور معمول ، از روشهای آماری و OLAP برای آزمایش فرضیه های از پیش تعریف شده استفاده می شود. با این وجود ، اغلب تدوین فرضیه ای است که هنگام اجرای تحلیل کسب و کار برای تصمیم گیری بعدی ، دشوارترین کار به نظر می رسد ، زیرا در نگاه اول همه الگوهای موجود در داده ها آشکار نیستند.

فناوری مدرن داده کاوی مبتنی بر مفهوم قالبهایی است که الگوهای ذاتی در نمونه های داده را منعکس می کند. الگوهای با استفاده از روش هایی جستجو می شوند که از پیش فرض های قبلی در مورد این نمونه ها استفاده نمی کنند. اگر معمولاً هنگام تجزیه و تحلیل آماری یا هنگام استفاده از OLAP ، سؤالاتی از قبیل "میانگین تعداد صورتحساب های پرداخت نشده توسط مشتریان این سرویس چگونه است؟" فرمول بندی شده است ، پس استفاده از Data Mining ، به طور معمول ، حاوی پاسخ به سؤالاتی از جمله "آیا یک دسته معمولی از مشتریانی که صورتحساب پرداخت نمی کنند وجود دارد؟" . علاوه بر این ، پاسخ به سؤال دوم است که غالباً یک رویکرد غیر مهم برای سیاست بازاریابی و سازماندهی کار با مشتری ارائه می دهد.

ویژگی مهم Data Mining عدم استاندارد بودن و غیر واضح بودن الگوهای دلخواه است. به عبارت دیگر ، ابزارهای داده کاوی با ابزارهای پردازش دادههای آماری و ابزارهای OLAP تفاوت دارند به این ترتیب که به جای بررسی وابستگیهای متقابل که قبلاً توسط کاربران پیش بینی شده بود ، می توانند براساس دادههای موجود ، چنین وابستگیهای متفاوتی را بطور مستقل پیدا کنند و ماهیت خود را فرض کنند.

لازم به ذکر است که استفاده از ابزار داده کاوی ، استفاده از ابزارهای آماری و ابزارهای OLAP را مستثنی نمی کند ، زیرا نتایج پردازش داده ها با استفاده از دومی ، به عنوان یک قاعده ، در درک بهتر ماهیت الگوهای مورد نظر کمک می کند.

  منبع داده برای داده کاوی

استفاده از داده کاوی در صورت وجود مقدار کافی از داده ها ، که ایده آل در یک انبار داده به درستی طراحی شده باشد ، توجیه می شود (در واقع ، خود انبارهای داده معمولاً برای حل مشکلات تحلیل و پیش بینی مربوط به پشتیبانی تصمیم گیری ایجاد می شوند). ما همچنین بارها و بارها در مورد اصول ساختن انبارهای داده نوشتیم. مطالب مربوطه را می توان در CD-ROM ما پیدا کرد ، بنابراین ما در این مسئله نخواهیم پرداخت. ما فقط به یاد می آوریم که داده های موجود در مخزن ، مجموعه ای مجدد است که برای کل شرکت یکنواخت است و به شما امکان می دهد هر زمان که بخواهید ، تصویر فعالیت آن را بازیابی کنید. ما همچنین متذکر می شویم که ساختار داده های مخزن به گونه ای طراحی شده است که پرس و جوهای مربوط به آن در حد امکان انجام می شوند. با این وجود ابزارهای Data Mining وجود دارند که می توانند نه تنها در انبارهای داده بلکه در مکعبهای OLAP ، یعنی در مجموعه دادههای آماری از پیش پردازش شده ، الگوهای ، همبستگیها و روندها را جستجو کنند.

  انواع الگوهای مشخص شده با روش های داده کاوی

طبق V.A.Dyuk ، پنج نوع استاندارد از الگوهای شناخته شده با روش داده کاوی مشخص می شوند:

انجمن - احتمال زیاد ارتباط حوادث با یکدیگر (برای مثال ، یک محصول اغلب با کالای دیگر خریداری می شود).

دنباله - احتمال زیاد زنجیره ای از وقایع مرتبط با زمان (به عنوان مثال ، در یک دوره معینی پس از کسب یک محصول ، احتمالاً محصول دیگری را به دست می آورد).

طبقه بندی - علائمی وجود دارد که گروهی را که متعلق به این رویداد یا آن واقعه است ، توصیف می کنند (معمولاً ، بر اساس تجزیه و تحلیل رویدادهای قبلاً طبقه بندی شده ، قوانین خاصی تدوین می شوند).

خوشه بندي ، نظمي نظير طبقه بندي است و با آن تفاوت دارد كه خود گروه ها به طور هم زمان تعريف نشده اند - آنها هنگام پردازش داده ها بطور خودكار تشخيص داده مي شوند.

الگوهای موقتی - وجود الگوهای در پویایی رفتار برخی از داده ها (نمونه بارز نوسانات فصلی تقاضا برای کالاها یا خدمات خاص است) که برای پیش بینی استفاده می شود.

  تکنیک داده کاوی در داده کاوی

امروزه تعداد کمی از روشهای متنوع برای تحقیق در مورد داده ها وجود دارد. بر اساس طبقه بندی فوق الذکر که توسط V.A.Dyuk ارائه شده است ، از جمله آنها می توانیم تشخیص دهیم:

رگرسیون ، واریانس و تجزیه و تحلیل همبستگی (در اکثر بسته های آماری مدرن ، به ویژه در محصولات موسسه SAS ، StatSoft ، و غیره اجرا شده است)؛

روش های تجزیه و تحلیل در یک موضوع خاص ، بر اساس مدل های تجربی (که اغلب استفاده می شود ، به عنوان مثال ، در ابزارهای ارزان قیمت تجزیه و تحلیل مالی).

الگوریتم های شبکه عصبی که ایده آن مبتنی بر قیاس با عملکرد بافت عصبی است و پارامترهای اولیه به عنوان سیگنال در نظر گرفته می شوند که مطابق با اتصالات موجود بین "نورونها" تبدیل می شوند و پاسخ کل شبکه به نمونه های اولیه به عنوان پاسخ حاصل از تجزیه و تحلیل در نظر گرفته می شود. داده ها. اتصالات در این حالت با کمک به اصطلاح آموزش شبکه با استفاده از یک نمونه بزرگ که شامل داده های اولیه و پاسخ های صحیح است ایجاد می شود.

الگوریتم ها - انتخاب یک آنالوگ نزدیک از داده های منبع از داده های تاریخی موجود. همچنین "نزدیکترین همسایه" نامیده می شود.

درخت تصمیم گیری - یک ساختار سلسله مراتبی مبتنی بر مجموعه ای از سؤالات که حاکی از پاسخ "بله" یا "نه" است. علیرغم این واقعیت که این روش پردازش داده ها همیشه به صورت ایده آل الگوهای موجود را پیدا نمی کند ، اما اغلب به دلیل دید پاسخ ، در سیستم های پیش بینی مورد استفاده قرار می گیرد.

از مدلهای خوشه ای (که بعضی اوقات مدلهای تقسیم بندی نیز نامیده می شود) برای گروه بندی رویدادهای مشابه به گروه ها بر اساس مقادیر مشابه چندین زمینه در یک مجموعه داده استفاده می شود. همچنین در ایجاد سیستم های پیش بینی بسیار محبوب است.

الگوریتمهای جستجوی محدود که محاسبه فرکانس ترکیبی از رویدادهای منطقی ساده در زیر گروه ها را انجام می دهند.

برنامه نویسی تکاملی - جستجوی و تولید یک الگوریتم بیانگر وابستگی متقابل داده ها ، بر اساس الگوریتم مشخص شده در ابتدا ، که در طول جستجو اصلاح شده است. گاهی اوقات جستجوی وابستگی های متقابل در بین انواع خاصی از توابع (به عنوان مثال چند جمله ای) انجام می شود.

شما می توانید در کتاب "داده کاوی: دوره آموزشی" اثر V. A. Dyuk و A. P. Samoilenko ، که توسط انتشارات پیتر در سال 2001 منتشر شده است ، اطلاعات بیشتری در مورد این و سایر الگوریتم های داده کاوی و همچنین ابزارهای اجرای آنها مطالعه کنید. امروز یکی از معدود کتاب هایی به زبان روسی است که به این مشکل اختصاص یافته است.

  پیشرو تولید کنندگان داده کاوی

ابزارهای داده کاوی مانند بسیاری از ابزارهای Business Intelligence به طور سنتی متعلق به ابزارهای گران قیمت نرم افزار هستند - قیمت برخی از آنها به چند ده هزار دلار می رسد. بنابراین ، تا همین اواخر مصرف کنندگان اصلی این فناوری بانک ها ، شرکت های مالی و بیمه ای ، شرکت های بزرگ بازرگانی بودند و عمده ترین وظایف مورد نیاز استفاده از داده کاوی ارزیابی ریسک های اعتباری و بیمه ای و تدوین سیاست های بازاریابی ، برنامه های تعرفه ای و سایر اصول کار با مشتری بود. در سالهای اخیر ، این شرایط دستخوش تغییراتی شده است: ابزارهای نسبتاً کم هزینه داده کاوی از چندین تولید کننده در بازار نرم افزار ظاهر شده اند ، که این فناوری را در اختیار بنگاه های کوچک و متوسط \u200b\u200bقرار داده است که قبلاً در مورد آن فکر نمی کردند.

ابزارهای نوین اطلاعات کسب و کار شامل مولد گزارش ها ، ابزارهای پردازش داده های تحلیلی ، ابزارهای توسعه بسترهای نرم افزاری BI (BI Platforms) و به اصطلاح Enterprise BI Suites - ابزارهای تجزیه و تحلیل داده ها و پردازش داده ها در سطح سازمانی است که به شما امکان می دهد طیف وسیعی از اقدامات مربوط به تجزیه و تحلیل داده ها و گزارش ، و اغلب شامل مجموعه ای یکپارچه از ابزارهای BI و ابزارهای توسعه برای برنامه های کاربردی BI است. دومی ، به طور معمول ، هر دو ابزار گزارش دهی و ابزار OLAP و اغلب ابزار Data Mining را در خود جای می دهد.

به گفته تحلیلگران گروه گارتنر ، رهبران بازار ابزارهای تجزیه و تحلیل و پردازش داده در سطح شرکتها عبارتند از Business Objects ، Cognos ، Builders اطلاعات ، و Microsoft و Oracle نیز مدعی رهبری هستند (شکل 1). در مورد ابزارهای توسعه راه حلهای BI ، اصلی ترین مدعی رهبری در این زمینه مایکروسافت و موسسه SAS هستند (شکل 2).

توجه داشته باشید که ابزارهای Business Intelligence Business مایکروسافت محصولات نسبتاً ارزان قیمت در اختیار طیف وسیعی از شرکتها هستند. به همین دلیل ما در نظر داریم برخی از جنبه های عملی استفاده از داده کاوی با استفاده از محصولات این شرکت را به عنوان نمونه در قسمت های بعدی این مقاله در نظر بگیریم.

ادبیات:

1. دوک V.A. داده کاوی - داده کاوی. - http://www.olap.ru/basic/dm2.asp.

2. دوک V.A. ، Samoilenko A.P. داده کاوی: یک دوره آموزشی. - سن پترزبورگ: پیتر ، 2001.

3. B. de Ville. داده کاوی مایکروسافت. چاپ دیجیتال ، 2001.

در حال حاضر ، عناصر هوش مصنوعی به طور فعال در فعالیتهای عملی مدیر وارد می شوند. بر خلاف سیستم های سنتی هوش مصنوعی ، فناوری جستجوی فکری و تجزیه و تحلیل داده ها یا "داده کاوی" (Data Mining - DM) سعی در شبیه سازی هوش طبیعی نمی کند بلکه توانایی های خود را با قدرت سرورهای رایانش مدرن ، موتورهای جستجو و انبار داده ها تقویت می کند. غالباً در کنار کلمات "داده کاوی" کلمات "کشف دانش در پایگاه های داده" (کشف دانش در پایگاه داده ها) قرار دارد.

شکل. 6.17.

داده کاوی فرآیند تشخیص تفسیر قبلاً ناشناخته ، غیر مهم ، عملی و مفید و در دسترس از داده های خام است که برای تصمیم گیری در زمینه های مختلف فعالیت های انسانی ضروری است. داده کاوی در فعالیت های روزانه خود برای مدیران و تحلیلگران از اهمیت بسیاری برخوردار است. افراد تجاری متوجه شده اند که با کمک روش های داده کاوی می توانند مزایای رقابتی ملموس را بدست آورند.

فناوری مدرن Data Mining (Data-Mining با محور کشف) مبتنی بر مفهوم الگوهای است که منعکس کننده قطعاتی از روابط چند وجهی در داده ها است. این الگوها الگوی ذاتی در نمونه های داده هستند که می توانند به صورت فشرده و به صورت قابل خواندن توسط انسان بیان شوند. الگوهای با استفاده از روش هایی جستجو می شوند که با فرضیات پیشینی در مورد ساختار نمونه و نوع توزیع مقادیر شاخص های تحلیل شده محدود نمی شوند. در شکل 6.17 یک طرح تبدیل داده را با استفاده از فناوری داده کاوی نشان می دهد.

شکل. 6.18.

اساس انواع سیستم های پیش بینی اطلاعات تاریخی است که در بانک اطلاعاتی به صورت سری زمانی ذخیره می شود. اگر شما موفق به ساختن الگویهایی شوید که به صورت کافی پویایی رفتار شاخص های هدف را منعکس کنند ، این احتمال وجود دارد که با کمک آنها بتوانید رفتار سیستم را در آینده پیش بینی کنید. در شکل 6.18 چرخه کامل فناوری داده کاوی را نشان می دهد.

نکته مهم داده کاوی ، غیرقانونی بودن الگوهای تحت تعقیب است. این بدان معناست که الگوهای موجود باید نشانگر منظم بودن غیرقابل آشکار ، غیر منتظره (غیر منتظره) در داده هایی باشد که به اصطلاح دانش پنهان را تشکیل می دهند. افراد تجاری متوجه شدند که "داده خام" حاوی یک لایه عمیق از دانش است و با کاوش های مناسب آن ، می توان نگت های واقعی یافت که در رقابت قابل استفاده است.

دامنه داده کاوی به هیچ وجه محدود نمی شود - این فناوری را می توان در همه جا که مقادیر زیادی از داده های "خام" وجود داشته باشد ، به کار برد!


اول از همه ، روش های داده کاوی مورد توجه شرکتهای تجاری مستقر در پروژه های مستقر در ذخیره سازی داده ها مورد توجه قرار گرفت. تجربه بسیاری از اینگونه شرکت ها نشان می دهد که بازده استفاده از داده کاوی می تواند به 1000٪ برسد. گزارش هایی درباره اثر اقتصادی وجود دارد که 10 تا 70 برابر بیشتر از هزینه های اولیه 350 تا 750 هزار دلار است. اطلاعاتی در مورد یک پروژه 20 میلیون دلاری وجود دارد که فقط در 4 ماه پرداخت می شود. مثال دیگر پس انداز سالانه 700 هزار دلار به دلیل معرفی Data Mining در یکی از زنجیره های سوپر مارکت ها در انگلستان است.

مایکروسافت رسما از افزایش فعالیت خود در زمینه Data Mining خبر داد. یک تیم تحقیقاتی اختصاصی مایکروسافت به سرپرستی اسامه فیاض و شش شریک دعوت شده (Angoss، Datasage، Epiphany، SAS، Silicon Graphics، SPSS) در حال تهیه یک پروژه مشترک برای تهیه یک استاندارد تبادل داده و ابزاری برای ادغام ابزارهای داده کاوی با بانکهای اطلاعاتی و انبارهای داده هستند.

Data Mining یک رشته چند رشته ای است که بوجود آمده و براساس دستاوردهای آمار کاربردی ، تشخیص الگوی ، روش های هوش مصنوعی ، تئوری بانک اطلاعاتی و غیره در حال توسعه است (شکل 6.19). از این رو فراوانی روش ها و الگوریتم های اجرا شده در سیستم های مختلف داده کاوی موجود. [دوک V.A. www.inftech.webservis.ru/it/datamining/ar2.html]. بسیاری از این سیستم ها چندین رویکرد را به طور هم زمان ادغام می کنند. با این وجود ، به طور معمول ، در هر سیستم مؤلفه اصلی وجود دارد که سهم اصلی را بر روی آن ساخته می شود.

پنج نوع استاندارد از الگوهای شناخته شده با استفاده از روش های داده کاوی وجود دارد: ارتباط ، توالی ، طبقه بندی ، خوشه بندی و پیش بینی.

شکل. 6.19.  زمینه های کاربرد برای داده کاوی

اگر چندین رویداد با یکدیگر ارتباط داشته باشند ، یک انجمن تشکیل می شود. به عنوان مثال ، یک مطالعه انجام شده در سوپر مارکت رایانه ای ممکن است نشان دهد که 55٪ از افرادی که کامپیوتر خریداری کرده اند نیز از چاپگر یا اسکنر استفاده می کنند و در صورت تخفیف برای چنین مجموعه ای ، در 80٪ موارد این چاپگر را دریافت می کنند. با داشتن اطلاعات در مورد چنین انجمنی ، مدیران می توانند ارزیابی کنند که تخفیف چقدر موثر است.

اگر زنجیره ای از وقایع مربوط به زمان وجود داشته باشد ، آنها در مورد دنباله صحبت می کنند. بنابراین ، به عنوان مثال ، پس از خرید خانه در 45٪ موارد ، ظرف مدت یک ماه اجاق گاز جدید خریداری می شود و طی دو هفته 60٪ از مهاجران جدید یخچال خود را به دست می آورند.

با کمک طبقه بندی ، علائمی مشخص می شوند که گروهی را که متعلق به این یا آن شیء است مشخص می کنند. این کار با تجزیه و تحلیل اشیاء قبلاً طبقه بندی شده و تدوین مجموعه خاصی از قوانین انجام می شود.

خوشه بندی با طبقه بندی متفاوت است زیرا خود گروه ها از پیش تعریف نشده اند. با استفاده از خوشه بندی ، ابزار داده کاوی به طور مستقل گروه های مختلف همگن داده را جدا می کند.

زنگ

کسانی هستند که این خبر را قبل از شما می خوانند.
برای دریافت مطالب تازه مشترک شوید.
پست الکترونیک
نام
نام خانوادگی
چگونه می خواهید The Bell را بخوانید
بدون اسپم