Що треба знати про data mining. Технології Data Mining. Аналіз текстової інформації

Штучних нейронних мереж, генетичних алгоритмів, еволюційного програмування, асоціативної пам'яті, нечіткої логіки. До методів Data Mining нерідко відносять статистичні методи(Дескриптивний аналіз, кореляційний і регресійний аналіз, факторний аналіз, дисперсійний аналіз, компонентний аналіз, дискримінантний аналіз, аналіз часових рядів). Такі методи, проте, припускають деякі апріорні уявлення про аналізованих даних, що виникає певна розбіжність з цілями Data Mining(Виявлення раніше невідомих нетривіальних і практично корисних знань).

Одне з найважливіших призначень методів Data Mining полягає в наочному поданні результатів обчислень, що дозволяє використовувати інструментарій Data Mining людьми, які не мають спеціальної математичної підготовки. У той же час, застосування статистичних методів аналізу даних вимагає доброго володіння теорією ймовірностей і математичної статистики.

Вступ

Методи Data Mining (або, що те ж саме, Knowledge Discovery In Data, скорочено, KDD) лежать на стику баз даних, статистики та штучного інтелекту.

історичний екскурс

Область Data Mining почалася з семінару (англ. Workshop), проведеного Григорієм Пятецкий-Шапіро в 1989 році.

Раніше, працюючи в компанії GTE Labs, Григорій Пятецкий-Шапіро зацікавився питанням: чи можна автоматично знаходити певні правила, щоб прискорити деякі запити до великих баз даних. Тоді ж було запропоновано два терміни - Data Mining ( «видобуток даних») і Knowledge Discovery In Data (який слід перекладати як «відкриття знань в базах даних»).

Постановка задачі

Спочатку завдання ставиться таким чином:

є досить велика база даних;
передбачається, що в базі даних знаходяться якісь «приховані знання».

Необхідно розробити методи виявлення знань, прихованих в великих обсягах вихідних «сирих» даних.

Що означає «приховані знання»? Це повинні бути обов'язково знання:

раніше не відомі - тобто такі знання, які повинні бути новими (а не підтверджують якісь раніше отримані відомості);
нетривіальні - тобто такі, які не можна просто так побачити (при безпосередньому візуальному аналізі даних або при обчисленні простих статистичних характеристик);
практично корисні - тобто такі знання, які представляють цінність для дослідника або споживача;
доступні для інтерпретації - тобто такі знання, які легко уявити в наочної для користувача формі та легко пояснити в термінах предметної області.

Ці вимоги багато в чому визначають суть методів Data mining і то, в якому вигляді і в якому співвідношенні в технології Data mining використовуються системи управління базами даних, статистичні методи аналізу і методи штучного інтелекту.

Data mining і бази даних

Методи Data mining можна буде застосувати для досить великих баз даних. У кожній конкретній галузі досліджень існує свій критерій «великості» бази даних.

Розвиток технологій баз даних спочатку привело до створення спеціалізованої мови - мови запитів до баз даних. Для реляційних баз даних - це мова SQL, який надав широкі можливості для створення, зміни та вилучення даних, що зберігаються. Потім виникла необхідність в отриманні аналітичної інформації (наприклад, інформації про діяльність підприємства за певний період), і тут виявилося, що традиційні реляційні бази даних, добре пристосовані, наприклад, для ведення оперативного обліку (на підприємстві), погано пристосовані для проведення аналізу. це призвело, в свою чергу, до створення т.зв. «Сховищ даних», сама структура яких найкращим способомвідповідає проведенню всебічного математичного аналізу.

Data mining і статистика

В основі методів Data mining лежать математичні методи обробки даних, включаючи і статистичні методи. У промислових рішеннях, нерідко, такі методи безпосередньо включаються в пакети Data mining. Однак, слід враховувати, що часто дослідники для спрощення необгрунтовано використовують параметричні тести замість непараметрических, і по-друге, результати аналізу важко інтерпретованих, що повністю розходиться з цілями і завданнями Data mining. Проте, статистичні методи використовуються, але їх застосування обмежується виконанням тільки певних етапів дослідження.

Data mining і штучний інтелект

Знання, що видобуваються методами Data mining прийнято представляти у вигляді моделей. В якості таких моделей виступають:

асоціативні правила;
дерева рішень;
кластери;
математичні функції.

Методи побудови таких моделей прийнято відносити до області т.зв. «Штучного інтелекту».

завдання

Завдання, які вирішуються методами Data Mining, прийнято розділяти на описові (англ. descriptive) І Предсказательная (англ. predictive).

В описових завданнях найголовніше - це дати наочне опис наявних прихованих закономірностей, в той час як в Предсказательная завданнях на першому плані стоїть питання про передбачення для тих випадків, для яких даних ще немає.

До описовим завдань відносяться:

пошук асоціативних правил або патернів (зразків);
угруповання об'єктів, кластерний аналіз;
побудова регресійної моделі.

До самий корінь завдань відносяться:

класифікація об'єктів (для заздалегідь заданих класів);
регресійний аналіз, аналіз часових рядів.

алгоритми навчання

Для задач класифікації характерно «навчання з учителем», при якому побудова (навчання) моделі проводиться за вибіркою, що містить вхідні та вихідні вектори.

Для задач кластеризації та асоціації застосовується «навчання без учителя», при якому побудова моделі проводиться за вибіркою, в якій немає вихідного параметра. Значення вихідного параметра ( «відноситься до кластеру ...», «схожий на вектор ...») підбирається автоматично в процесі навчання.

Для завдань скорочення опису характерно відсутність поділу на вхідні і вихідні вектори. Починаючи з класичних робіт К. Пірсона за методом головних компонент, основна увага приділяється апроксимації даних.

етапи навчання

Виділяється типовий ряд етапів вирішення завдань методами Data Mining:

Формування гіпотези;
Збір даних;
Підготовка даних (фільтрація);
Вибір моделі;
Підбір параметрів моделі і алгоритму навчання;
Навчання моделі ( автоматичний пошукінших параметрів моделі);
Аналіз якості навчання, якщо незадовільний перехід на п. 5 або п. 4;
Аналіз виявлених закономірностей, якщо незадовільний перехід на п. 1, 4 або 5.

Підготовка данних

Перед використанням алгоритмів Data Mining необхідно провести підготовку набору аналізованих даних. Так як ИАД може виявити лише присутні в даних закономірності, вихідні дані з одного боку повинні мати достатній обсяг, щоб ці закономірності в них присутні, а з іншого - бути достатньо компактними, щоб аналіз зайняв прийнятний час. Найчастіше в якості вихідних даних виступають сховища або вітрини даних. Підготовка необхідна для аналізу багатовимірних даних до кластеризації або інтелектуального аналізу даних.

Очищені дані зводяться до наборів ознак (або векторах, якщо алгоритм може працювати тільки з векторами фіксованою розмірності), один набір ознак на спостереження. Набір ознак формується відповідно до гіпотезами про те, які ознаки сирих даних мають високу прогнозну силу в розрахунку на необхідну обчислювальну потужність для обробки. Наприклад, чорно-біле зображення особи розміром 100 × 100 пікселів містить 10 тис. Біт сирих даних. Вони можуть бути перетворені в вектор ознак шляхом виявлення в зображенні очей і рота. В результаті відбувається зменшення обсягу даних з 10 тис. Біт до списку кодів положення, значно зменшуючи обсяг аналізованих даних, а значить і час аналізу.

Ряд алгоритмів вміють обробляти пропущені дані, що мають прогностичну силу (наприклад, відсутність у клієнта покупок певного виду). Скажімо, при використанні методу асоціативних правил (Англ.)рос. обробляти не вектори ознак, а набори змінної розмірності.

Вибір цільової функції буде залежати від того, що є метою аналізу; вибір «правильної» функції має основоположне значення для успішного інтелектуального аналізу даних.

Спостереження діляться на дві категорії - навчальний набір і тестовий набір. Навчальний набір використовується для «навчання» алгоритму Data Mining, а тестовий набір - для перевірки знайдених закономірностей.

Див. також

Імовірнісна нейронна мережа Решетова

Примітки

література

Паклин Н. Б., Орєшков В. І.Бізнес-аналітика: від даних до знань (+ СD). - СПб. : Изд. Пітер, 2009. - 624 с.

Дюк В., Самойленко А. Data Mining: навчальний курс (+ CD). - СПб. : Изд. Пітер, 2001. - 368 с.

Журавльов Ю.І. , Рязанов В.В., Сенько О.В.РОЗПІЗНАВАННЯ. Математичні методи. Програмна система. Практичні застосування. - М.: Изд. «Фазис», 2006. - 176 с. - ISBN 5-7036-0108-8

Зінов'єв А. Ю.Візуалізація багатовимірних даних. - Красноярськ: Вид. Красноярського державного технічного університету, 2000. - 180 с.

Чубукова І. А. Data Mining: навчальний посібник. - М.: Інтернет-університет інформаційних технологій: БИНОМ: Лабораторія знань, 2006. - 382 с. - ISBN 5-9556-0064-7

Ian H. Witten, Eibe Frank and Mark A. Hall Data Mining: Practical Machine Learning Tools and Techniques. - 3rd Edition. - Morgan Kaufmann, 2011. - P. 664. - ISBN 9780123748560

посилання

Data Mining Softwareв каталозі посилань Open Directory Project (dmoz).

Data Mining and Machine Learning
	Weka GNU R KNIME Rapid Miner Gretl PSPP
Proprietary	Deductor Statistica SPSS

Wikimedia Foundation. 2010 року.

Видобуток даних (Data Mining)

Data Mining - це методологія і процес виявлення у великих масивах даних, що накопичуються в інформаційних системахкомпаній, раніше невідомих, нетривіальних, практично корисних і доступних для інтерпретації знань, необхідних для прийняття рішень в різних сферах людської діяльності. Data Mining є одним з етапів більш масштабної методології Knowledge Discovery in Databases.

Знання, виявлені в процесі Data Mining, повинні бути нетривіальними і раніше невідомими. Нетривіальність передбачає, що такі знання не можуть бути виявлені шляхом простого візуального аналізу. Вони повинні описувати зв'язки між властивостями бізнес-об'єктів, передбачати значення одних ознак на основі інших і т.д. Знайдені знання повинні бути застосовні і до нових об'єктів.

Практична користь знань обумовлена можливістю їх використання в процесі підтримки прийняття управлінських рішень та вдосконалення діяльності компанії.

Знання повинні бути представлені у вигляді, зрозумілому для користувачів, які не мають спеціальної математичної підготовки. Наприклад, найпростіше сприймаються людиною логічні конструкції «якщо, то». Більш того, такі правила можуть бути використані в різних СУБД в якості SQL-запит. У разі, коли витягнуті знання непрозорі для користувача, повинні існувати методи обробки поста, що дозволяють привести їх до інтерпретованих увазі.

Data Mining - це не один, а сукупність великого числа різних методів виявлення знань. Всі завдання, які вирішуються методами Data Mining, можна умовно розбити на шість видів:

Data Mining носить мультидисциплінарний характер, оскільки включає в себе елементи чисельних методів, математичної статистики та теорії ймовірностей, теорії інформації та математичної логіки, штучного інтелекту і машинного навчання.

Завдання бізнес-аналізу формулюються по-різному, але рішення більшості з них зводиться до тієї чи іншої задачі Data Mining або до їх комбінації. Наприклад, оцінка ризиків - це вирішення завдання регресії або класифікації, сегментація ринку - кластеризація, стимулювання попиту - асоціативні правила. Фактично завдання Data Mining є елементами, з яких можна «зібрати» рішення більшості реальних бізнес-завдань.

Для вирішення вищеописаних завдань використовуються різні методи і алгоритми Data Mining. З огляду на те, що Data Mining розвивалася і розвивається на стику таких дисциплін, як математична статистика, теорія інформації, машинне навчання і бази даних, цілком закономірно, що більшість алгоритмів і методів Data Mining були розроблені на основі різних методів з цих дисциплін. Наприклад, алгоритм кластеризації k-means був запозичений з статистики.

OLAP-системи надають аналітику кошти перевірки гіпотез при аналізі даних, тобто основним завданням аналітика є генерація гіпотез, яку він вирішує її, грунтуючись на своїх знаннях і опите.Однако знання є не тільки у людини, але і у накопичених даних, які піддаються аналізу . Такі знання містяться у величезній обсязі інформації, яку людина не в силах досліджувати самостійно. У зв'язку з цим існує ймовірність пропустити гіпотези, які можуть принести значну вигоду.

Для виявлення «прихованих» знань застосовується спеціальні методи автоматичного аналізу, за допомогою яких доводиться практично здобувати знання з «завалів» інформації. За цим направленіемзакрепілся термін «видобуток даних (DataMining)» або «інтелектуальний аналіз даних».

Існує безліч визначень DataMining, які один одного доповнюють. Ось деякі з них.

DataMining - це процес виявлення в базах даних нетривіальних і практично корисних закономірностей. (BaseGroup)

DataMining - це процес виділення, дослідження і моделювання великих обсягів даних для виявлення неізвестнихдо цього структур (patters) з метою досягнення переваг в бізнесі (SAS Institute)

DataMining - це процес, мета якого - виявити нові значущі кореляції, образциі тенденції в результаті просіювання великого обсягу даних, що зберігаються з іспользованіемметодік розпізнавання зразків плюс застосування статистичних і математичних методів (GartnerGroup)

DataMining - це дослідження і виявлення «машиною» (алгоритмами, засобами штучного інтелекту) в сирих даних прихованих знань, которПерші раніше не були відомі, нетривіальні, практично корисні, доступні для інтерпретаціїції людиною. (А.Баргесян «Технології аналізу даних»)

DataMining - це процес виявлення корисних знань про бізнес. (Н.М.Абдікеев «КБА»)

Властивості виявляються знань

Розглянемо властивості виявляються знань.

Знання повинні бути нові, раніше невідомі. Витрачені зусилля на відкриття знань, які вже відомі користувачеві, не окупаються. Тому цінність представляють саме нові, раніше невідомі знання.
Знання повинні бути нетривіальні. Результати аналізу повинні відображати неочевидні, несподіванізакономірності в даних, що становлять так звані приховані знання. Результати, які могли б бути отримані більш простими способами(Наприклад, візуальним переглядом), не виправдовують залучення потужних методів DataMining.
Знання повинні бути практично корисні. Знайдені знання повинні бути застосовні, в тому числі і на нових даних, з досить високим ступенем достовірності. Корисність полягає в тому, щоб ці знання могли принести певну вигоду при їх застосуванні.
Знання повинні бути доступні для розуміння людині. Знайдені закономірності повинні бути логічно пояснити, в іншому випадку існує ймовірність, що вони є випадковими. Крім того, виявлені знання повинні бути представлені в зрозумілому для людини вигляді.

У DataMining для представлення отриманих знань служать моделі. Види моделей залежать від методів їх створення. Найбільш поширеними є: правила, дерева рішень, кластери і математичні функції.

завдання DataMining

Нагадаємо, що в основу технології DataMining покладена концепція шаблонів, що представляють собою закономірності. В результаті виявлення цих, прихованих від неозброєного ока закономірностей вирішуються завдання DataMining. різним типамзакономірностей, які можуть бути виражені в формі, зрозумілою людині, відповідають певні завдання DataMining.

Єдиної думки щодо того, які завдання слід відносити до DataMining, немає. Більшість авторитетних джерел перераховують наступні: класифікація,

кластеризація, прогнозування, асоціація, візуалізація, аналіз і виявлення

відхилень, оцінювання, аналіз зв'язків, підведення підсумків.

Мета опису, яке слід нижче, - дати загальне уявлення про завдання DataMining, порівняти деякі з них, а також представити деякі методи, за допомогою яких ці завдання вирішуються. Найбільш поширені завдання DataMining - класифікація, кластеризація, асоціація, прогнозування та візуалізація. Таким чином, завдання поділяються за типами виробленої інформації, це найбільш загальна класифікаціязадач DataMining.

Класифікація (Classification)

Завдання розбиття множини об'єктів або спостережень на апріорно задані групи, звані класами, всередині кожної з яких вони передбачаються схожими один на одного, мають приблизно однакові властивості і ознаки. При цьому рішення виходить на основіаналізу значень атрибутів (ознак).

Класифікація є однією з найважливіших задач DataMining . Вона застосовується вмаркетингу при оцінці кредитоспроможності позичальників, визначеннілояльності клієнтів, розпізнаванні образів , Медичної діагностики та багатьох інших додатках. Якщо аналітику відомі властивості об'єктів кожного класу, то коли нове спостереження відноситься до певного класу, дані властивості автоматично поширюються і на нього.

Якщо число класів обмежена двома, то має місцебінарна класифікація , До якої можуть бути зведені багато складніші завдання. Наприклад, замість визначення таких ступенів кредитного ризику, як «Високий», «Середній» або «Низький», можна використовувати лише дві - «Видати» або «Відмовити».

Для класифікації в DataMining використовується безліч різних моделей:нейронні мережі, дерева рішень , Машини опорних векторів, метод k-найближчих сусідів, алгоритми покриття та ін., При побудові яких застосовується навчання з учителем, коливихідна змінна(Мітка класу ) Задана для кожного спостереження. Формально класифікація проводиться на основі розбиттяпростору ознак на області, в межах кожної з якихбагатовимірні вектори розглядаються як ідентичні. Іншими словами, якщо об'єкт потрапив в область простору, асоційовану з певним класом, він до нього і відноситься.

Кластеризація (Clustering)

Короткий опис. Кластеризація є логічним продовженням ідеї

класифікації. Це завдання більш складна, особливість кластеризації полягає в тому, що класи об'єктів спочатку не визначені. Результатом кластеризації є розбиття об'єктів на групи.

Приклад методу розв'язання задачі кластеризації: навчання "без вчителя" особливого виду нейронних мереж - самоорганізованих карт Кохонена.

Асоціація (Associations)

Короткий опис. В результаті виконання завдання пошуку асоціативних правил відшукуються закономірності між пов'язаними подіями в наборі даних.

Відмінність асоціації від двох попередніх задач DataMining: пошук закономірностей здійснюється не на основі властивостей аналізованого об'єкта, а між кількома подіями, які відбуваються одночасно. Найбільш відомий алгоритм рішення задачі пошуку асоціативних правил - алгоритм Apriori.

Послідовність (Sequence) або послідовна асоціація (sequentialassociation)

Короткий опис. Послідовність дозволяє знайти тимчасові закономірності між транзакціями. Завдання послідовності подібна асоціації, але її метою є встановлення закономірностей не між одночасно наступаючими подіями, а між подіями, пов'язаними в часі (тобто відбуваються з деяким певним інтервалом у часі). Іншими словами, послідовність визначається високою ймовірністю ланцюжка пов'язаних у часі подій. Фактично, асоціація є окремим випадком послідовності з тимчасовим лагом, рівним нулю. Це завдання DataMining також називають завданням знаходження послідовних шаблонів (sequentialpattern).

Правило послідовності: після події X через певний час відбудеться подія Y.

Приклад. Після покупки квартири мешканці в 60% випадків протягом двох тижнів набувають холодильник, а протягом двох місяців в 50% випадків купується телевізор. Рішення даного завдання широко застосовується в маркетингу та менеджменті, наприклад, при управлінні циклом роботи з клієнтом (CustomerLifecycleManagement).

Регресія, прогнозування (Forecasting)

Короткий опис. В результаті рішення задачі прогнозування на основі особливостей історичних даних оцінюються пропущені або ж майбутні значення цільових чисельних показників.

Для вирішення таких завдань широко застосовуються методи математичної статистики, нейронні мережі та ін.

додаткові завдання

Визначення відхилень або викидів (DeviationDetection), Аналіз відхилень або викидів

Короткий опис. Мета рішення даного завдання - виявлення та аналіз даних, найбільш відрізняються від загальної множини даних, виявлення так званих нехарактерних шаблонів.

Оцінювання (Estimation)

Завдання оцінювання зводиться до передбачення безперервних значень ознаки.

Аналіз зв'язків (LinkAnalysis)

Завдання знаходження залежностей в наборі даних.

Візуалізація (Visualization, GraphMining)

В результаті візуалізації створюється графічний образ аналізованих даних. Для вирішення завдання візуалізації використовуються графічні методи, що показують наявність закономірностей в даних.

Приклад методів візуалізації - представлення даних в 2-D і 3-D вимірах.

Підведення підсумків (Summarization)

Завдання, мета якої - опис конкретних груп об'єктів з аналізованого набору даних.

Досить близьким до вищезгаданої класифікації є підрозділ завдань DataMining на наступні: дослідження і відкриття, прогнозування та класифікації, пояснення і опису.

Автоматичне дослідження і відкриття (вільний пошук)

Приклад завдання: виявлення нових сегментів ринку.

Для вирішення даного класу задач використовуються методи кластерного аналізу.

Прогнозування і класифікація

Приклад завдання: передбачення зростання обсягів продажів на основі поточних значень.

Методи: регресія, нейронні мережі, генетичні алгоритми, дерева рішень.

Завдання класифікації та прогнозування складають групу так званого індуктивного моделювання, в результаті якого забезпечується вивчення аналізованого об'єкта або системи. В процесі вирішення цих завдань на основі набору даних розробляється загальна модель або гіпотеза.

Пояснення і опис

Приклад завдання: характеристика клієнтів за демографічними даними і історіям покупок.

Методи: дерева рішення, системи правил, правила асоціації, аналіз зв'язків.

Якщо дохід клієнта більше, ніж 50 умовних одиниць, І його вік - понад 30 років, тоді клас клієнта - перший.

Порівняння кластеризації та класифікації

характеристика	Класифікація	кластеризація
контрольованість навчання	контрольоване	неконтрольоване
стратегії	Навчання з вчителем	Навчання без вчителя
Наявність позначки класу	Навчальна множина супроводжується міткою, яка вказує клас, до якого належить спостереження	Мітки класу навчального безлічі невідомі
Підстава для класифікації	Нові дані класифікуються на підставі навчальної множини	Дано безліч даних з метою встановлення існування класів або кластерів даних

Сфери застосування DataMining

Слід зазначити, що на сьогоднішній день найбільшого поширення технологія DataMining отримала при вирішенні бізнес-завдань. Можливо, причина в тому, що саме в цьому напрямку віддача від використання інструментів DataMining може становити, за деякими джерелами, до 1000% і витрати на її впровадження можуть досить швидко окупитися.

Ми будемо розглядати чотири основні сфери застосування технології DataMining докладно: наука, бізнес, дослідження для уряду і Web-напрямок.

бізнес-задач. Основні напрямки: банковскоедело, фінанси, страхування, CRM, виробництво, телекомунікації, електроннаякоммерція, маркетинг, фондовий ринок та інші.

Чи видавати кредит клієнту

сегментація ринку

Залучення нових клієнтів

Мошеннічествос кредитними картками

Застосування DataMining для вирішення завдань державного рівня. Основниенаправленія: пошук осіб, які ухиляються від податків; кошти в боротьбі з тероризмом.

Застосування DataMining для наукових досліджень. Основні напрямки: медицина, біологія, молекулярна генетика і генна інженерія, біоінформатика, астрономія, прикладна хімія, дослідження, що стосуються наркотичної залежності, і інші.

Застосування DataMining для вирішення Web-задач. Основні напрямки: поісковиемашіни (searchengines), лічильники та інші.

Електронна комерція

У сфері електронної комерції DataMining застосовується для формування

Така класифікація дозволяє компаніям виявляти певні групи клієнтів і проводити маркетингову політику відповідно до виявлених інтересами і потребами клієнтів. Технологія DataMining для електронної комерції тісно пов'язана з технологією WebMining.

Основні завдання DataMining в промисловому виробництві:

· Комплексний системний аналіз виробничих ситуацій;

· Короткостроковий і довгостроковий прогноз розвитку виробничих ситуацій;

· Вироблення варіантів оптимізаційних рішень;

· Прогнозування якості виробу в залежності від деяких параметрів

технологічного процесу;

· Виявлення прихованих тенденцій і закономірностей розвитку виробничих

процесів;

· Прогнозування закономірностей розвитку виробничих процесів;

· Виявлення прихованих чинників впливу;

· Виявлення і ідентифікація раніше невідомих взаємозв'язків між

виробничими параметрами і факторами впливу;

· Аналіз середовища взаємодії виробничих процесів і прогнозування

зміни її характеристик;

процесами;

· Візуалізацію результатів аналізу, підготовку попередніх звітів і проектів

допустимих рішень з оцінками достовірності та ефективності можливих реалізацій.

маркетинг

У сфері маркетингу DataMining знаходить дуже широке застосування.

Основні питання маркетингу "Що продається?", "Як продається?", "Хто є

споживачем? "

У лекції, присвяченій завданням класифікації і кластеризації, докладно описано використання кластерного аналізу для вирішення завдань маркетингу, як, наприклад, сегментація споживачів.

Інший поширений набір методів для вирішення завдань маркетингу - методи і алгоритми пошуку асоціативних правил.

Також успішно тут використовується пошук тимчасових закономірностей.

Роздрібна торгівля

У сфері роздрібної торгівлі, як і в маркетингу, застосовуються:

· Алгоритми пошуку асоціативних правил (для визначення часто зустрічаються наборів

товарів, які покупці купують одночасно). Виявлення таких правил допомагає

розміщувати товари на прилавках торгових залів, виробляти стратегії закупівлі товарів

і їх розміщення на складах і т.д.

· Використання тимчасових послідовностей, наприклад, для визначення

необхідних обсягів запасів товарів на складі.

· Методи класифікації і кластеризації для визначення груп або категорій клієнтів,

знання яких сприяє успішному просуванню товарів.

Фондовий ринок

Ось список завдань фондового ринку, які можна вирішувати за допомогою технології Data

Mining: · прогнозування майбутніх значень фінансових інструментів та індикаторів Поіх

минулим значенням;

· Прогноз тренда (майбутнього напрямку руху - зростання, падіння, флет) фінансового

інструменту і його сили (сильний, помірно сильний і т.д.);

· Виділення кластерної структури ринку, галузі, сектора по деякому набору

характеристик;

· Динамічне управління портфелем;

· Прогноз волатильності;

· оцінка ризиків;

· Передбачення настання кризи і прогноз його розвитку;

· Вибір активів і ін.

Крім описаних вище сфер діяльності, технологія DataMining може застосовуватися в найрізноманітніших областях бізнесу, де є необхідність в аналізі даних і накопичений певний обсяг ретроспективної інформації.

Застосування DataMining в CRM

Одне з найбільш перспективних напрямків застосування DataMining - використання даної технології в аналітичному CRM.

CRM (CustomerRelationshipManagement) - управління відносинами з клієнтами.

При спільному використанні цих технологій видобуток знань поєднується з "здобиччю грошей" з даних про клієнтів.

Важливим аспектом в роботі відділів маркетингу і відділу продажів є складанняцілісного уявлення про клієнтів, інформація про їх особливості, характеристики, структурі клієнтської бази. В CRM використовується так зване профілюванняклієнтів, що дає повне уявлення всієї необхідної інформаціїпро клієнтів.

Профілювання клієнтів включає наступні компоненти: сегментація клієнтів, прибутковість клієнтів, утримання клієнтів, аналіз реакції клієнтів. Кожен з цих компонентів може досліджуватися за допомогою DataMining, а аналіз їх в сукупності, як компонентів профілювання, в результаті може дати ті знання, які з кожною окремою характеристики отримати неможливо.

WebMining

WebMining можна перевести як "видобуток даних в Web". WebIntelligence або Web.

Інтелект готовий "відкрити нову главу" в стрімкому розвитку електронного бізнесу. Здатність визначати інтереси і переваги кожного відвідувача, спостерігаючи за його поведінкою, є серйозним і критичним перевагою конкурентної боротьби на ринку електронної комерції.

Системи WebMining можуть відповісти на багато питань, наприклад, хто з відвідувачів є потенційним клієнтом Web-магазина, яка група клієнтів Web-магазину приносить найбільший дохід, які інтереси певного відвідувача або групи відвідувачів.

методи

Класифікація методів

Розрізняють дві групи методів:

статистичні методи, засновані на використанні усередненого накопиченого досвіду, який відображений в ретроспективних даних;
кібернетичні методи, що включають безліч різнорідних математичних підходів.

Недолік такої класифікації: і статистичні, і кібернетичні алгоритми тим чи іншим чином спираються на зіставлення статистичного досвіду з результатами моніторингу поточної ситуації.

Перевагою такої класифікації є її зручність для інтерпретації - вона використовується при описі математичних засобів сучасного підходудо вилучення знань з масивів вихідних спостережень (оперативних і ретроспективних), тобто в задачах Data Mining.

Розглянемо докладніше представлені вище групи.

Статистичні методи Data mining

В ці методи являють собою чотири взаємопов'язані розділу:

попередній аналіз природи статистичних даних (перевірка гіпотез стаціонарності, нормальності, незалежності, однорідності, оцінка виду функції розподілу, її параметрів і т.п.);
виявлення зв'язків і закономірностей(Лінійний і нелінійний регресійний аналіз, кореляційний аналіз та ін.);
багатовимірний статистичний аналіз (лінійний і нелінійний дискримінантний аналіз, кластерний аналіз, компонентний аналіз, факторний аналіз і ін.);
динамічні моделі і прогноз на основі часових рядів.

Арсенал статистичних методів Data Mining класифікований на чотири групи методів:

Дескриптивний аналіз і опис вихідних даних.
Аналіз зв'язків (кореляційний і регресійний аналіз, факторний аналіз, дисперсійний аналіз).
Багатовимірний статистичний аналіз (компонентний аналіз, дискримінантний аналіз, багатовимірний регресійний аналіз, канонічні кореляції та ін.).
Аналіз часових рядів (динамічні моделі і прогнозування).

Кібернетичні методи Data Mining

Другий напрямок Data Mining - це безліч підходів, об'єднаних ідеєю комп'ютерної математики та використання теорії штучного інтелекту.

До цієї групи належать такі методи:

штучні нейронні мережі (розпізнавання, кластеризація, прогноз);
еволюційне програмування (в т.ч. алгоритми методу групового обліку аргументів);
генетичні алгоритми (оптимізація);
асоціативна пам'ять (пошук аналогів, прототипів);
нечітка логіка;
дерева рішень;
системи обробки експертних знань.

кластерний аналіз

Мета кластеризації - пошук існуючих структур.

Кластеризація є описової процедурою, вона не робить ніяких статистичних висновків, але дає можливість провести розвідувальний аналіз і вивчити "структуру даних".

Саме поняття "кластер" визначено неоднозначно: в кожному дослідженні свої "кластери". Перекладається поняття кластер (cluster) як "скупчення", "гроно". Кластер можна охарактеризувати як групу об'єктів, що мають спільні властивості.

Характеристиками кластера можна назвати дві ознаки:

внутрішня однорідність;
зовнішня ізольованість.

Питання, що задається аналітиками при вирішенні багатьох завдань, полягає в тому, як організувати дані в наочні структури, тобто розгорнути таксономії.

Найбільше застосування кластеризация спочатку отримала в таких науках як біологія, антропологія, психологія. Для вирішення економічних завдань кластеризация тривалий час мало використовувалася через специфіку економічних даних і явищ.

Кластери можуть бути непересічними, або ексклюзивними (non-overlapping, exclusive), і пересічними (overlapping).

Слід зазначити, що в результаті застосування різних методів кластерного аналізу можуть бути отримані кластери різної форми. Наприклад, можливі кластери "ланцюжка" типу, коли кластери представлені довгими "ланцюжками", кластери подовженої форми і т.д., а деякі методи можуть створювати кластери довільної форми.

Різні методи можуть прагнути створювати кластери певних розмірів (наприклад, малих або великих) або припускати в наборі даних наявність кластерів різного розміру. Деякі методи кластерного аналізу особливо чутливі до шумів або викидів, інші - менш. В результаті застосування різних методів кластеризації можуть бути отримані неоднакові результати, це нормально і є особливістю роботи того чи іншого алгоритму. Дані особливості слід враховувати при виборі методу кластеризації.

Наведемо коротку характеристикупідходів до кластеризації.

Алгоритми, засновані на поділі даних (Partitioningalgorithms), в т.ч. ітеративні:

поділ об'єктів на k кластерів;
итеративное перерозподіл об'єктів для поліпшення кластеризації.
Ієрархічні алгоритми (Hierarchyalgorithms):
агломерація: кожен об'єкт спочатку є кластером, кластери,
з'єднуючись один з одним, формують більший кластер і т.д.

Методи, засновані на концентрації об'єктів (Density-basedmethods):

засновані на можливості з'єднання об'єктів;
ігнорують шуми, знаходження кластерів довільної форми.

грід - методи (Grid-based methods):

квантування об'єктів в грід-структури.

Модельні методи (Model-based):

використання моделі для знаходження кластерів, найбільш відповідних даних.

Методи кластерного аналізу. Ітеративні методи.

При великій кількості спостережень ієрархічні методи кластерного аналізу не придатні. У таких випадках використовують неієрархічні методи, засновані на поділі, які представляють собою ітеративні методи дроблення вихідної сукупності. У процесі поділу нові кластери формуються до тих пір, поки не буде виконано правило зупинки.

Така неієрархічна кластеризация полягає в поділі набору даних на певну кількість окремих кластерів. Існує два підходи. Перший полягає у визначенні меж кластерів як найбільш щільних ділянок в багатовимірному просторі вихідних даних, тобто визначення кластера там, де є велика "згущення точок". Другий підхід полягає в мінімізації заходи відмінності об'єктів

Алгоритм k-середніх (k-means)

Найбільш поширений серед неієрархічних методів алгоритм k-середніх, також званий швидким кластерним аналізом. Повний описалгоритму можна знайти в роботі Хартігана і Вонга (HartiganandWong, 1978). На відміну від ієрархічних методів, які не вимагають попередніх припущень щодо числа кластерів, для можливості використання цього методу необхідно мати гіпотезу про найбільш ймовірне кількості кластерів.

Алгоритм k-середніх будує k кластерів, розташованих на можливо великих відстанях один від одного. Основний тип задач, які вирішує алгоритм k-середніх, - наявність припущень (гіпотез) щодо числа кластерів, при цьому вони повинні бути різні настільки, наскільки це можливо. Вибір числа k може базуватися на результатах попередніх досліджень, теоретичних міркуваннях або інтуїції.

Загальна ідея алгоритму: заданий фіксоване число k кластерів спостереження зіставляються кластерам так, що середні в кластері (для всіх змінних) максимально можливо відрізняються один від одного.

опис алгоритму

1. Початковий розподіл об'єктів по кластерам.

Вибирається число k, і на першому кроці ці точки вважаються "центрами" кластерів.
Кожному кластеру відповідає один центр.

Вибір начальнихцентроідов може здійснюватися в такий спосіб:

вибір k-спостережень для максимізації початкової відстані;
випадковий вибір k-спостережень;
вибір перших k-спостережень.

В результаті кожен об'єкт призначений певного кластеру.

2. Ітеративний процес.

Обчислюються центри кластерів, якими потім і далі вважаються покоординатно середні кластерів. Об'єкти знову перерозподіляються.

Процес обчислення центрів і перерозподілу об'єктів триває до тих пір, поки не виконана одна з умов:

кластерні центри стабілізувалися, тобто всі спостереження належать кластеру, до якого належали до поточної ітерації;
число ітерацій дорівнює максимальному числу ітерацій.

На малюнку наведено приклад роботи алгоритму k-середніх для k, рівного двом.

Приклад роботи алгоритму k-середніх (k = 2)

Вибір числа кластерів є складним питанням. Якщо немає припущень щодо цього числа, рекомендують створити 2 кластера, потім 3, 4, 5 і т.д., порівнюючи отримані результати.

Перевірка якості кластеризації

Після отримань результатів кластерного аналізу методом k-середніх слід перевірити правильність кластеризації (тобто оцінити, наскільки кластери відрізняються один від одного).

Для цього розраховуються середні значення для кожного кластера. При гарній кластеризації повинні бути отримані сильно відрізняються середні для всіх вимірювань або хоча б більшої їх частини.

Переваги алгоритму k-середніх:

простота використання;
швидкість використання;
зрозумілість і прозорість алгоритму.

Недоліки алгоритму k-середніх:

алгоритм занадто чутливий до викидів, які можуть спотворювати середнє.

можливим рішеннямцієї проблеми є використання модифікації алгоритму -алгоритми k-медіани;

алгоритм може повільно працювати на великих базах даних. Можливим вирішенням цієї проблеми є використання вибірки даних.

Байєсовські мережі

У теорії ймовірності поняття інформаційної залежності моделюється за допомогою умовної залежності (або строго: відсутністю умовної незалежності), яка описує, як наша впевненість в результаті якогось події змінюється при отриманні нового знання про факти, за умови, що нам був уже відомий деякий набір інших фактів.

Зручно і інтуїтивно зрозуміло представляти залежності між елементами за допомогою спрямованого шляху, що з'єднує ці елементи в графі. Якщо залежність між елементами x і y не є безпосередньою і здійснюється за допомогою третього елемента z, то логічно очікувати, що на шляху між x і y буде знаходитися елемент z. Такі вузли-посередники будуть «відсікати» залежність між x і y, тобто моделювати ситуацію умовної незалежності між ними при відомому значенні безпосередніх чинників впливу.Такими мовами моделювання є байєсовські мережі, які служать для опису умовних залежностей між поняттями якоїсь предметної області.

Байєсовські мережі - це графічні структури для представлення імовірнісних відносин між великою кількістю змінних і для здійснення імовірнісного виведення на основі цих змінних."Наївна" (байєсівську) класифікація - досить прозорий і зрозумілий метод класифікації. "Наївною" вона називається тому, що виходить з припущення про взаємнунезалежності ознак.

Властивості класифікації:

1. Використання всіх змінних і визначення всіх залежностей між ними.

2. Наявність двох припущень щодо змінних:

всі змінні є однаково важливими;
всі змінні є статистично незалежними, тобто значення однойпеременной нічого не говорить про значення іншої.

Розрізняють два основні сценарії застосування байесовских мереж:

1. Описовий аналіз. Предметна область відображається у вигляді графа, вузли якого представляють поняття, а спрямовані дуги, які відображаються стрілками, ілюструють безпосередні залежності між цими поняттями. Зв'язок між поняттями x і y означає: знання значення x допомагає зробити більш обгрунтоване припущення про значення y. Відсутність безпосереднього зв'язку між поняттями моделює умовну незалежність між ними при відомих значеннях деякого набору «розділяють» понять. Наприклад, розмір взуття дитини, очевидно, пов'язаний з умінням дитини читати через вік. так, більший розмірвзуття дає більшу впевненість, що дитина вже читає, але якщо нам вже відомий вік, то знання розміру взуття вже не дасть нам додаткової інформації про здібності дитини до читання.

Як інший, протилежної, приклад розглянемо такі спочатку непов'язані фактори як куріння і застуда. Але якщо нам відомий симптом, приміром, що людина страждає вранці кашлем, то знання того, що людина не курить, підвищує нашу впевненість того, що людина застуджений.

2. Класифікація і прогнозування. Байєсова мережу, допускаючи умовну незалежність ряду понять, дозволяє зменшити число параметрів спільного розподілу, роблячи можливим їх довірчу оцінку на наявні обсяги даних. Так, при 10 змінних, кожна з яких може приймати 10 значень, число параметрів спільного розподілу - 10 мільярдів - 1. Якщо допустити, що між цими змінними один від одного залежать тільки 2 змінні, то число параметрів стає 8 * (10-1) + (10 * 10-1) = 171. Маючи реалістичну по обчислювальних ресурсів модель спільного розподілу, невідоме значення будь-якого поняття ми можемо прогнозувати як, наприклад, найбільш ймовірне значення цього поняття при відомих значеннях інших понять.

Відзначають такі гідності байесовских мереж як методу DataMining:

У моделі визначаються залежно між усіма змінними, це дозволяє легкообробляти ситуації, в яких значення деяких змінних невідомі;

Байєсовські мережі досить просто інтерпретуються і дозволяють на етапіпрогностичного моделювання легко проводити аналіз за сценарієм "що, якщо";

Байєсівський метод дозволяє природним чином поєднувати закономірності,виведені з даних, і, наприклад, експертні знання, отримані в явному вигляді;

Використання байесовских мереж дозволяє уникнути проблеми переучування(Overfitting), тобто надмірного ускладнення моделі, що є слабкою стороноюбагатьох методів (наприклад, дерев рішень і нейронних мереж).

Наївно-байесовский підхід має наступні недоліки:

Перемножать умовні ймовірності коректно тільки тоді, коли всі вхіднізмінні дійсно статистично незалежні; хоча часто даний методпоказує досить хороші результати при недотриманні умови статистичноїнезалежності, але теоретично така ситуація повинна оброблятися більш складнимиметодами, заснованими на навчанні байесовских мереж;

Неможлива безпосередня обробка безперервних змінних - потрібно їхперетворення до інтервального шкалою, щоб атрибути були дискретними; однак такіперетворення іноді можуть призводити до втрати значущих закономірностей;

На результат класифікації в наївно-Байєсова підході впливають тількиіндивідуальні значення вхідних змінних, комбінований вплив пар аботрійок значень різних атрибутів тут не враховується. Це могло б поліпшитиякість класифікаційної моделі з точки зору її прогнозуючої точності,однак, збільшило б кількість перевірених варіантів.

Штучні нейронні мережі

Штучні нейронні мережі (далі нейронні мережі) можуть бути синхронні і асинхронні.У синхронних нейронних мережах в кожен момент часу свій стан змінює лишеодин нейрон. В асинхронних - стан змінюється відразу у цілої групинейронів, як правило, у всьогошару. Можна виділити дві базові архітектури - шаруваті і повнозв'язні мережі.Ключовим в шаруватих мережах є поняття шару.Шар - один або кілька нейронів, на входи яких подається один і той же загальний сигнал.Шаруваті нейронні мережі - нейронні мережі, в яких нейрони розбиті на окремі групи (верстви) так, що обробка інформації здійснюється пошарово.У шаруватих мережах нейрони i-го шару отримують вхідні сигнали, перетворюють їх і через точки розгалуження передають нейронам (i + 1) шару. І так до k-го шару, який видаєвихідні сигнали для інтерпретатора і користувача. Число нейронів в кожному шарі не пов'язане з кількістю нейронів в інших шарах, може бути довільним.В рамках одного шару дані обробляються паралельно, а в масштабах всієї мережі обробка ведеться послідовно - від шару до шару. До шаруватим нейронних мереж відносяться, наприклад, багатошарові персептрони, мережі радіальних базисних функцій, когнітрон, некогнітрон, мережі асоціативної пам'яті.Однак сигнал не завжди подається на всі нейрони прошарку. У когнітроні, наприклад, кожен нейрон поточного шару отримує сигнали тільки від близьких йому нейронів попереднього шару.

Шаруваті мережі, в свою чергу, можуть бути одношаровими і багатошаровими.

одношарова мережа- мережа, що складається з одного шару.

багатошарова мережа- мережа, що має кілька шарів.

У багатошаровій мережі перший шар називається вхідним, наступні - внутрішніми або прихованими, останній шар - вихідним. Таким чином, проміжні шари - це всі верстви в багатошаровій нейронної мережі, Крім вхідного і вихідного.Вхідний шар мережі реалізує зв'язок з вхідними даними, вихідний - з вихідними.Таким чином, нейрони можуть бути вхідними, вихідними і прихованими.Вхідний шар організований з вхідних нейронів (inputneuron), які отримують дані і поширюють їх на входи нейронів прихованого шару мережі.Прихований нейрон (hiddenneuron) - це нейрон, що знаходиться в прихованому шарі нейронної мережі.Вихідні нейрони (outputneuron), з яких організовано вихідний шар мережі, видаєрезультати роботи нейронної мережі.

У повнозв'язних мережахкожен нейрон передає свій вихідний сигнал іншим нейронам, включаючи самого себе. Вихідними сигналами мережі можуть бути всі або деякі вихідні сигнали нейронів після кількох тактів функціонування мережі.

Всі вхідні сигнали подаються всім нейронам.

Навчання нейронних мереж

Перед використанням нейронної мережі її необхідно навчити.Процес навчання нейронної мережі полягає в підстроювання її внутрішніх параметрів під конкретну задачу.Алгоритм роботи нейронної мережі є ітеративним, його кроки називають епохами або циклами.Епоха - одна ітерація в процесі навчання, що включає пред'явлення всіх прикладів з навчальної множини і, можливо, перевірку якості навчання на контрольномубезлічі. Процес навчання здійснюється на навчальній вибірці.Навчальна вибірка включає вхідні значення і відповідні їм вихідні значення набору даних. В ході навчання нейронна мережа знаходить якісь залежності вихідних полів від вхідних.Таким чином, перед нами постає питання - які вхідні поля (ознаки) намнеобхідно використовувати. Спочатку вибір здійснюється евристичний, далікількість входів може бути змінено.

Складність може викликати питання про кількість спостережень в наборі даних. І хоча існують якісь правила, що описують зв'язок між необхідною кількістюспостережень і розміром мережі, їх вірність не доведена.Кількість необхідних спостережень залежить від складності розв'язуваної задачі. При збільшенні кількості ознак кількість спостережень зростає нелінійно, ця проблема носить назву "прокляття розмірності". При недостатній кількостіданих рекомендується використовувати лінійну модель.

Аналітик повинен визначити кількість шарів у мережі і кількість нейронів в кожному шарі.Далі необхідно призначити такі значення ваг і зміщень, які зможутьмінімізувати помилку рішення. Ваги і зміщення автоматично налаштовуються таким чином, щоб мінімізувати різницю між бажаним і отриманим на виході сигналами, яка називається помилка навчання.Помилка навчання для побудованої нейронної мережі обчислюється шляхом порівняннявихідних і цільових (бажаних) значень. З отриманих різниць формується функція помилок.

Функція помилок - це цільова функція, що вимагає мінімізації в процесікерованого навчання нейронної мережі.За допомогою функції помилок можна оцінити якість роботи нейронної мережі під час навчання. Наприклад, часто використовується сума квадратів помилок.Від якості навчання нейронної мережі залежить її здатність вирішувати поставлені передтней завдання.

Перенавчання нейронної мережі

При навчанні нейронних мереж часто виникає серйозна трудність, яка називаєтьсяпроблемою перенавчання (overfitting).Перенавчання, або надмірно близька підгонка - зайве точну відповідністьнейронної мережі конкретному набору навчальних прикладів, при якому мережу втрачаєздатність до узагальнення.Перенавчання виникає в разі занадто довгого навчання, недостатню кількістьнавчальних прикладів або переускладненою структури нейронної мережі.Перенавчання пов'язано з тим, що вибір навчального (тренувального) безлічіє випадковим. З перших кроків навчання відбувається зменшення помилки. нанаступні кроки з метою зменшення помилки (цільової функції) параметрипідлаштовуються під особливості навчальної множини. Однак при цьому відбувається"Підстроювання" не під загальні закономірності ряду, а під особливості його частини -навчального підмножини. При цьому точність прогнозу зменшується.Один з варіантів боротьби з перенавчанням мережі - поділ навчальної вибірки на двабезлічі (навчальне і тестове).На навчальній множині відбувається навчання нейронної мережі. На тестовому безлічі здійснюється перевірка побудованої моделі. Ці множини не повинні перетинатися.З кожним кроком параметри моделі змінюються, однак постійне зменшеннязначення цільової функції відбувається саме на навчальній множині. При розбитті множини на два ми можемо спостерігати зміну помилки прогнозу на тестовому безлічі паралельно зі спостереженнями над навчальним безліччю. Якийськількість кроків помилки прогнозу зменшується на обох множинах. Однак напевному етапі помилка на тестовому безлічі починає зростати, при цьому помилка на навчальній множині продовжує зменшуватися. Цей момент вважається початком перенавчання

Інструменти DataMining

Розробкою в секторі DataMining всесвітнього ринку програмного забезпеченнязайняті як всесвітньо відомі лідери, так і нові компанії, що розвиваються. Інструменти DataMining можуть бути представлені або як самостійний додаток, або як доповнення до основного продукту.Останній варіант реалізується багатьма лідерами ринку програмного забезпечення.Так, вже стало традицією, що розробники універсальних статистичних пакетів, вдополненіе до традиційних методів статистичного аналізу, включають в пакетопределеннийнаборметодов DataMining. Етотакіепакетикак SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner).Деякі розробники OLAP- рішень також пропонують набір методів DataMining, наприклад, сімейство продуктів Cognos. Є постачальники, які включають DataMining рішення в функціональність СУБД: це Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Список літератури

Абдікеев Н.М. Данько Т.П. Ільдеменов С.В. Кисельов А.Д, «Реінжиніринг бізнес-процесів. Курс MBA », М .: Изд-во Ексмо, 2005. - 592 с. - (МВА)

Абдікеев Н.М., Кисельов А.Д. «Управління знаннями в корпорації і реінжиніринг бізнесу» - М.: Инфра-М, 2011.- 382 с. - ISBN 978-5-16-004300-5

Барсегян А.А., Купріянов М.С., Степаненко В.В., ХолодІ.І. «Методи і моделі аналізу даних: OLAP і Data Mining», Спб: БХВ-Петербург, 2004,336с., ISBN 5-94157-522-Х

Дюк В., Самойленко А., «Data Mining.Навчальний курс "СПб: Питер, 2001, 386с.

Чубукова І.А., Курс Data Mining, http://www.intuit.ru/department/database/datamining/

IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Practical Machine Learning Tools and Techniques (Third Edition), ISBN 978-0-12-374856-0

Petrushin V.A. , Khan L., Multimedia Data Mining and Knowledge Discovery

Надіслати свою хорошу роботу в базу знань просто. Використовуйте форму, розташовану нижче

Студенти, аспіранти, молоді вчені, які використовують базу знань в своє навчання і роботи, будуть вам дуже вдячні.

подібні документи

опис функціональних можливостейтехнології Data Mining як процесів виявлення невідомих даних. Вивчення систем виведення асоціативних правил і механізмів нейромережевих алгоритмів. Опис алгоритмів кластеризації і сфер застосування Data Mining.

контрольна робота, доданий 14.06.2013

Основи для проведення кластеризації. Використання Data Mining як способу "виявлення знань в базах даних". Вибір алгоритмів кластеризації. Отримання даних зі сховища бази даних дистанційного практикуму. Кластеризація студентів і завдань.

курсова робота, доданий 10.07.2017

Удосконалення технологій запису і зберігання даних. Специфіка сучасних вимог до переробки інформаційних даних. Концепція шаблонів, що відображають фрагменти багатоаспектних взаємовідносин у даних в основі сучасною технологією Data Mining.

контрольна робота, доданий 02.09.2010

Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.

доповідь, доданий 16.06.2012

Data Mining як процес підтримки прийняття рішень, заснований на пошуку в даних схованих закономірностей (шаблонів інформації). Його закономірності і етапи реалізації, історія розробки даної технології, оцінка переваг та недоліків, можливості.

есе, доданий 17.12.2014

Класифікація задач DataMining. Створення звітів і результатів. Можливості Data Miner в Statistica. Завдання класифікації, кластеризації та регресії. Засоби аналізу Statistica Data Miner. Суть завдання пошук асоціативних правил. Аналіз предикторів виживання.

курсова робота, доданий 19.05.2011

Перспективні напрямки аналізу даних: аналіз текстової інформації, Інтелектуальний аналіз даних. Аналіз структурованої інформації, що зберігається в базах даних. процес аналізу текстових документів. Особливості попередньої обробки даних.

реферат, доданий 13.02.2014

Класифікація задач Data Mining. Завдання кластеризації і пошуку асоціативних правил. Визначення класу об'єкта за його властивостями і характеристиками. Знаходження частих залежностей між об'єктами або подіями. Оперативно-аналітична обробка даних.

контрольна робота, доданий 13.01.2013

В даний час елементи штучного інтелекту активно впроваджуються в практичну діяльність менеджера. На відміну від традиційних систем штучного інтелекту, технологія інтелектуального пошуку і аналізу даних або "видобуток даних" (Data Mining - DM), не намагається моделювати природний інтелект, а підсилює його можливості потужністю сучасних обчислювальних серверів, пошукових системі сховищ даних. Нерідко поруч зі словами "Data Mining" зустрічаються слова "виявлення знань в базах даних" (Knowledge Discovery in Databases).

Мал. 6.17.

Data Mining - це процес виявлення в сирих даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідних для прийняття рішень в різних сферах людської діяльності. Data Mining представляють велику цінність для керівників і аналітиків в їх повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть отримати відчутні переваги в конкурентній боротьбі.

В основу сучасної технології Data Mining (Discovery-driven Data Mining) покладено концепцію шаблонів (Patterns), що відображають фрагменти багатоаспектних взаємовідносин у даних. Ці шаблони є закономірності, властиві вибірках даних, які можуть бути компактно виражені у зрозумілій формі для людського сприйняття. Пошук шаблонів проводиться методами, що не обмеженими рамками апріорних припущень про структуру вибірки і вигляді розподілів значень аналізованих показників. На рис. 6.17 показана схема перетворення даних з використанням технології Data Mining.

Мал. 6.18.

Основою для всіляких систем прогнозування служить історична інформація, що зберігається в БД у вигляді часових рядів. Якщо вдається побудувати шаблони, адекватно відображають динаміку поведінки цільових показників, є ймовірність, що з їх допомогою можна передбачити і поведінку системи в майбутньому. На рис. 6.18 показаний повний цикл застосування технології Data Mining.

Важливе положення Data Mining - нетривіальність розшукуваних шаблонів. Це означає, що знайдені шаблони повинні відображати неочевидні, несподівані (Unexpected) регулярності в даних, що становлять так звані приховані знання (Hidden Knowledge). До діловим людям прийшло розуміння, що "сирі" дані (Raw Data) містять глибинний пласт знань, і при грамотній його розкопці можуть бути виявлені справжні самородки, які можна використовувати в конкурентній боротьбі.

Сфера застосування Data Mining нічим не обмежена - технологію можна застосовувати скрізь, де є величезні кількості будь-яких "сирих" даних!

В першу чергу методи Data Mining зацікавили комерційні підприємства, що розгортають проекти на основі інформаційних сховищ даних (Data Warehousing). Досвід багатьох таких підприємств показує, що віддача від використання Data Mining може досягати 1000%. Є повідомлення про економічний ефект, в 10-70 разів перевищив початкові витрати від 350 до 750 тис. Доларів. Є відомості про проект в 20 млн доларів, який окупився всього за 4 місяці. Інший приклад - річна економія 700 тис. Доларів за рахунок впровадження Data Mining в одній з мереж універсамів у Великобританії.

Компанія Microsoft офіційно оголосила про посилення своєї активності в області Data Mining. Спеціальна дослідницька група Microsoft, очолювана Усамою Файядом, і шість запрошених партнерів (компанії Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS) готують спільний проект по розробці стандарту обміну даними і засобів для інтеграції інструментів Data Mining з базами і сховищами даних.

Data Mining є мультидисциплінарної областю, яка виникла і розвивається на базі досягнень прикладної статистики, розпізнавання образів, методів штучного інтелекту, теорії баз даних та ін. (Рис. 6.19). Звідси велика кількість методів і алгоритмів, реалізованих в різних діючих системах Data Mining. [Дюк В.А. www.inftech.webservis.ru/it/datamining/ar2.html]. Багато з таких систем інтегрують в собі відразу кілька підходів. Проте, як правило, в кожній системі є якась ключова компонента, на яку робиться головна ставка.

Можна назвати п'ять стандартних типів закономірностей, що виявляються за допомогою методів Data Mining: асоціація, послідовність, класифікація, кластеризація і прогнозування.

Мал. 6.19.Області застосування технології Data Mining

Асоціація має місце в тому випадку, якщо кілька подій пов'язані один з одним. Наприклад, дослідження, проведене в комп'ютерному супермаркеті, може показати, що 55% купили комп'ютер беруть також і принтер або сканер, а при наявності знижки за такий комплект принтер набувають в 80% випадків. Маючи в своєму розпорядженні відомостями про подібну асоціації, менеджерам легко оцінити, наскільки дієва надається знижка.

Якщо існує ланцюжок пов'язаних у часі подій, то говорять про послідовність. Так, наприклад, після покупки будинку в 45% випадків протягом місяця купується і нова кухонна плита, а в межах двох тижнів 60% новоселів обзаводяться холодильником.

За допомогою класифікації виявляються ознаки, що характеризують групу, до якої належить той чи інший об'єкт. Це робиться за допомогою аналізу вже класифікованих об'єктів і формулювання деякого набору правил.

Кластеризація відрізняється від класифікації тим, що самі групи заздалегідь не задані. За допомогою кластеризації кошти Data Mining самостійно виділяють різні однорідні групи даних.

Що треба знати про data mining. Технології Data Mining. Аналіз текстової інформації - Text Mining