DZWON

Są tacy, którzy czytają te wiadomości przed tobą.
Subskrybuj, aby otrzymywać świeże artykuły.
E-mail
Imię
Nazwisko
Jak chcesz przeczytać Dzwon
Bez spamu

Sztuczne sieci neuronowe, algorytmy genetyczne, programowanie ewolucyjne, pamięć asocjacyjna, logika rozmyta. Eksploracja danych jest często nazywana metody statystyczne (analiza opisowa, analiza korelacji i regresji, analiza czynnikowa, analiza wariancji, analiza składowa, analiza dyskryminacyjna, analiza szeregów czasowych). Takie metody wymagają jednak pewnego a priori zrozumienia analizowanych danych, co jest nieco sprzeczne z celami. Eksploracja danych (odkrycie nieznanej wcześniej nietrywialnej i praktycznie przydatnej wiedzy).

Jednym z najważniejszych celów metod Data Mining jest wizualizacja wyników obliczeń, co pozwala na korzystanie z narzędzi Data Mining przez osoby, które nie mają specjalnego przeszkolenia matematycznego. Jednocześnie zastosowanie statystycznych metod analizy danych wymaga dobrej znajomości teorii prawdopodobieństwa i statystyki matematycznej.

Wprowadzenie

Metody eksploracji danych (lub, równoważnie, odkrycie wiedzy w danych, w skrócie KDD) leżą na przecięciu baz danych, statystyk i sztucznej inteligencji.

Wycieczka historyczna

Pole Data Mining rozpoczęło się od warsztatów przeprowadzonych przez Grigorija Piatetskiego-Shapiro w 1989 roku.

Wcześniej, pracując dla GTE Labs, Grigorij Pyatetskiy-Shapiro zainteresował się pytaniem: czy można automatycznie znaleźć pewne reguły, aby przyspieszyć niektóre zapytania do dużych baz danych. Jednocześnie zaproponowano dwa terminy - Data Mining („eksploracja danych”) i Knowledge Discovery In Data (które należy tłumaczyć jako „odkrycie wiedzy w bazach danych”).

Sformułowanie problemu

Początkowo zadanie jest ustawione w następujący sposób:

  • istnieje dość duża baza danych;
  • zakłada się, że baza danych zawiera pewną „ukrytą wiedzę”.

Konieczne jest opracowanie metod wykrywania wiedzy ukrytej w dużych ilościach surowych danych.

Co oznacza „ukryta wiedza”? Musi to być wiedza:

  • wcześniej nieznana - to znaczy taka wiedza, która powinna być nowa (i nie potwierdzająca wcześniej uzyskanych informacji);
  • nietrywialne - to znaczy takie, których nie można po prostu zobaczyć (w bezpośredniej wizualnej analizie danych lub w obliczeniu prostych cech statystycznych);
  • praktycznie przydatne - to znaczy wiedza, która ma wartość dla badacza lub konsumenta;
  • dostępna do interpretacji - to znaczy wiedza, którą łatwo przedstawić w formie wizualnej dla użytkownika i łatwej do wyjaśnienia w zakresie przedmiotu.

Wymagania te w dużej mierze determinują istotę metod eksploracji danych oraz sposób, w jakiej formie i proporcji w technologii eksploracji danych, systemach zarządzania bazami danych, metodach analizy statystycznej i metodach sztucznej inteligencji.

Eksploracja danych i bazy danych

Metody eksploracji danych mają sens tylko w przypadku wystarczająco dużych baz danych. W każdej konkretnej dziedzinie badań istnieje kryterium „wielkości” bazy danych.

Rozwój technologii baz danych doprowadził najpierw do stworzenia wyspecjalizowanego języka - języka zapytań do baz danych. W przypadku relacyjnych baz danych jest to język SQL, który zapewnia duże możliwości tworzenia, modyfikowania i wyszukiwania przechowywanych danych. Następnie konieczne stało się uzyskanie informacji analitycznych (na przykład informacji o działalności przedsiębiorstwa przez pewien okres) i okazało się, że tradycyjne relacyjne bazy danych, dobrze przystosowane, na przykład do prowadzenia rachunkowości operacyjnej (w przedsiębiorstwie), są słabo przystosowane do analizy. doprowadziło to z kolei do powstania tzw „Hurtownie danych”, których struktura najlepiej odpowiada kompleksowej analizie matematycznej.

Eksploracja danych i statystyki

Metody eksploracji danych oparte są na matematycznych metodach przetwarzania danych, w tym metodach statystycznych. W rozwiązaniach przemysłowych często takie metody są bezpośrednio zawarte w pakietach Data Mining. Należy jednak pamiętać, że często dla uproszczenia badacze nieuzasadnione stosują testy parametryczne zamiast nieparametrycznych, a po drugie wyniki analizy są trudne do interpretacji, co całkowicie różni się od celów i zadań eksploracji danych. Niemniej jednak stosuje się metody statystyczne, ale ich zastosowanie ogranicza się do wykonania tylko niektórych etapów badania.

Eksploracja danych i sztuczna inteligencja

Wiedza zdobyta za pomocą metod eksploracji danych jest zwykle prezentowana w formie modeli. Te modele to:

  • zasady asocjacyjne;
  • drzewa decyzyjne;
  • klastry
  • funkcje matematyczne.

Metody konstruowania takich modeli są zwykle nazywane tzw "Sztuczna inteligencja."

Zadania

Zadania rozwiązywane metodami Data Mining są zwykle dzielone na opisowe. opisowy) i predykcyjne proroczy).

W problemach opisowych najważniejsze jest podanie wizualnego opisu ukrytych ukrytych wzorów, podczas gdy w zadaniach predykcyjnych na pierwszym planie jest kwestia przewidywania dla przypadków, dla których dane nie są jeszcze dostępne.

Zadania opisowe obejmują:

  • szukaj reguł lub wzorów asocjacyjnych (wzorów);
  • grupowanie obiektów, analiza skupień;
  • budowanie modelu regresji.

Zadania predykcyjne obejmują:

  • klasyfikacja obiektów (dla predefiniowanych klas);
  • analiza regresji, analiza szeregów czasowych.

Algorytmy uczenia się

Zadania klasyfikacyjne charakteryzują się „szkoleniem z nauczycielem”, w którym budowa (szkolenie) modelu odbywa się zgodnie z próbką zawierającą wektory wejściowe i wyjściowe.

W przypadku problemów grupowania i kojarzenia stosuje się „nauczanie bez nauczyciela”, w którym konstrukcja modelu jest wykonywana na próbce, w której nie ma parametru wyjściowego. Wartość parametru wyjściowego („odnosi się do klastra ...”, „wygląda jak wektor ...”) jest wybierana automatycznie w procesie uczenia się.

Zadania redukcji opisu charakteryzują się brak separacji wektorów wejściowych i wyjściowych. Począwszy od klasycznych dzieł K. Pearsona metodą głównych składników, główny nacisk kładziony jest na aproksymację danych.

Etapy uczenia się

Podkreślono typową serię etapów rozwiązywania problemów za pomocą metod Data Mining:

  1. Tworzenie hipotez;
  2. Gromadzenie danych;
  3. Przygotowanie danych (filtrowanie);
  4. Wybór modelu;
  5. Wybór parametrów modelu i algorytm uczenia się;
  6. Szkolenie modeli (automatyczne wyszukiwanie innych parametrów modelu);
  7. Analiza jakości szkolenia w przypadku niezadowalającego przejścia do ust. 5 lub ust. 4;
  8. Analiza ujawnionych wzorów, jeżeli przejście do ust. 1, 4 lub 5 jest niezadowalające.

Przygotowywanie danych

Przed użyciem algorytmów Data Mining konieczne jest przygotowanie zestawu analizowanych danych. Ponieważ IAD może wykrywać tylko wzorce obecne w danych, dane źródłowe, z jednej strony, muszą być wystarczająco duże, aby te wzorce mogły w nich występować, az drugiej strony muszą być wystarczająco zwarte, aby analiza zajęła akceptowalny czas. Najczęściej hurtownie danych lub centra danych działają jako dane początkowe. Wymagane jest przygotowanie do wielowymiarowej analizy danych przed klastrowaniem lub eksploracją danych.

Oczyszczone dane są redukowane do zestawów znaków (lub wektorów, jeśli algorytm może działać tylko z wektorami o stałym wymiarze), jednego zestawu znaków na obserwację. Zestaw cech jest tworzony zgodnie z hipotezami o tym, jakie cechy surowych danych mają wysoką moc predykcyjną opartą na wymaganej mocy obliczeniowej do przetwarzania. Na przykład czarno-biały obraz twarzy o wymiarach 100 x 100 pikseli zawiera 10 tysięcy bitów surowych danych. Można je przekonwertować na wektor cech, wykrywając oczy i usta na obrazie. W rezultacie ilość danych zmniejsza się z 10 tysięcy bitów do listy kodów pozycji, co znacznie zmniejsza ilość analizowanych danych, a tym samym czas analizy.

Wiele algorytmów jest w stanie przetwarzać brakujące dane o mocy predykcyjnej (na przykład klient nie ma określonego rodzaju zakupu). Powiedz, gdy używasz metody reguły asocjacyjnej (eng.)rosyjski przetwarzane są nie wektory atrybutów, ale zestawy zmiennych wymiarów.

Wybór funkcji celu będzie zależeć od celu analizy; Wybór „właściwej” funkcji ma zasadnicze znaczenie dla udanej eksploracji danych.

Obserwacje są podzielone na dwie kategorie - zestaw treningowy i zestaw testowy. Zestaw treningowy służy do „trenowania” algorytmu Data Mining, a zestaw testowy służy do weryfikacji znalezionych wzorców.

Zobacz też

  • Prawdopodobieństwo sieci neuronowej Reshetov

Notatki

Literatura

  • Paklin N. B., Oreshkov V. I. Analityka biznesowa: od danych do wiedzy (+ CD). - SPb. : Publ. Peter, 2009. - 624 s.
  • Duke V., Samoilenko A. Data Mining: szkolenie (+ CD). - SPb. : Publ. Peter, 2001. - 368 s.
  • Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V. UZNANIE. Metody matematyczne. System oprogramowania. Praktyczne zastosowania. - M .: Publ. Fazis, 2006. - 176 s. - ISBN 5-7036-0108-8
  • Zinowjew A. Yu. Wizualizacja danych wielowymiarowych. - Krasnojarsk: Publ. Krasnojarski Państwowy Uniwersytet Techniczny, 2000. - 180 s.
  • Chubukova I.A. Data Mining: samouczek. - M .: Internetowy Uniwersytet Technologii Informacyjnych: BINOM: Laboratorium Wiedzy, 2006. - 382 str. - ISBN 5-9556-0064-7
  • Ian H. Witten, Eibe Frank i Mark A. Hall Eksploracja danych: praktyczne narzędzia i techniki uczenia maszynowego. - 3. edycja. - Morgan Kaufmann, 2011. - P. 664. - ISBN 9780123748560

Bibliografia

  • Oprogramowanie do eksploracji danych w katalogu linków Open Directory Project (dmoz).

Fundacja Wikimedia. 2010 r.

Data Mining

Data Mining to metodologia i proces wykrywania dużych ilości danych, które gromadzą się w systemach informatycznych firm wcześniej nieznanych, nietrywialnych, praktycznie przydatnych i dostępnych do interpretacji wiedzy niezbędnej do podejmowania decyzji w różnych obszarach działalności człowieka. Eksploracja danych jest częścią szerszej metodologii Knowledge Discovery in Databases.

Wiedza odkryta w procesie eksploracji danych powinna być nietrywialna i wcześniej nieznana. Nietrudność zakłada, że \u200b\u200btakiej wiedzy nie można wykryć za pomocą prostej analizy wizualnej. Powinny opisywać związki między właściwościami obiektów biznesowych, przewidywać wartości niektórych funkcji na podstawie innych itp. Znaleziona wiedza powinna odnosić się do nowych obiektów.

Praktyczna przydatność wiedzy wynika z możliwości ich wykorzystania w procesie wspierania podejmowania decyzji zarządczych i doskonalenia działalności firmy.

Wiedza powinna być prezentowana w formie zrozumiałej dla użytkowników, którzy nie mają specjalnego przeszkolenia matematycznego. Na przykład logiczne konstrukcje „jeśli, to” są najłatwiej postrzegane przez człowieka. Co więcej, takie reguły mogą być stosowane w różnych DBMS jako zapytania SQL. W przypadku, gdy wyodrębniona wiedza jest nieprzejrzysta dla użytkownika, muszą istnieć metody przetwarzania końcowego, aby doprowadzić ją do postaci możliwej do interpretacji.

Eksploracja danych to nie jedna, ale połączenie dużej liczby różnych metod odkrywania wiedzy. Wszystkie zadania rozwiązane metodami Data Mining można podzielić na sześć typów:

Data Mining ma charakter multidyscyplinarny, ponieważ obejmuje elementy metod numerycznych, statystyki matematycznej i teorii prawdopodobieństwa, teorii informacji i logiki matematycznej, sztucznej inteligencji i uczenia maszynowego.

Zadania analizy biznesowej są formułowane na różne sposoby, ale rozwiązanie większości z nich sprowadza się do konkretnego zadania Data Mining lub kombinacji obu. Na przykład ocena ryzyka jest rozwiązaniem problemu regresji lub klasyfikacji, segmentacja rynku jest grupowaniem, stymulacja popytu to reguły asocjacyjne. W rzeczywistości zadania Data Mining to elementy, z których można „złożyć” rozwiązanie najbardziej realnych problemów biznesowych.

Aby rozwiązać powyższe problemy, stosuje się różne metody i algorytmy Data Mining. Z uwagi na fakt, że Data Mining opracował i rozwija się na styku takich dyscyplin, jak statystyki matematyczne, teoria informacji, uczenie maszynowe i bazy danych, naturalne jest, że większość algorytmów i metod Data Mining została opracowana na podstawie różnych metod z tych dyscyplin. Na przykład algorytm grupowania k-średnich został zapożyczony ze statystyk.

Systemy OLAP zapewniają analitykowi środki do testowania hipotez w analizie danych, tj. Głównym zadaniem analityka jest generowanie hipotez, które rozwiązuje na podstawie swojej wiedzy i doświadczenia. Wiedza ta istnieje jednak nie tylko u ludzi, ale także w zgromadzonych danych, które są analizowane . Taka wiedza zawarta jest w ogromnej ilości informacji, których dana osoba nie jest w stanie samodzielnie zbadać. Pod tym względem prawdopodobne jest, że przeoczą hipotezy, które mogą przynieść znaczące korzyści.

Aby wykryć „ukrytą” wiedzę, stosuje się specjalne metody automatycznej analizy, za pomocą których musisz praktycznie uzyskać wiedzę z „blokad” informacji. Termin „eksploracja danych (DataMining)” lub „eksploracja danych” został przypisany do tego obszaru.

Istnieje wiele definicji DataMining, które się uzupełniają. Tutaj jest kilka z nich.

DataMining to proces odkrywania nietrywialnych i praktycznie przydatnych wzorców w bazach danych. (BaseGroup)

DataMining to proces wyodrębniania, badania i modelowania dużych ilości danych w celu wykrycia nieznanych wcześniej struktur (wzorów) w celu osiągnięcia korzyści biznesowych (SAS Institute)

DataMining to proces, którego celem jest wykrycie nowych znaczących korelacji, wzorców i trendów w wyniku przesiewania dużej ilości przechowywanych danych przy użyciu technik rozpoznawania próbek oraz przy użyciu metod statystycznych i matematycznych (GartnerGroup)

DataMining to badania i odkrywanie przez „maszynę” (algorytmy, sztuczna inteligencja) w surowych danych ukrytej wiedzy, żewcześniej nieznane, nietrywialne, praktycznie przydatne, dostępne do interpretacjiprzez człowieka. (A. Bargesyan „Data Analysis Technologies”)

DataMining to proces odkrywania przydatnej wiedzy o firmie (N.M. Abdikeev „KBA”)

Wykrywalne właściwości wiedzy

Zastanów się nad właściwościami odkrytej wiedzy.

  • Wiedza musi być nowa, wcześniej nieznana. Wysiłki włożone w odkrycie wiedzy, która jest już znana użytkownikowi, się nie opłaca. Dlatego nowa, nieznana wcześniej wiedza ma wartość.
  • Wiedza powinna być nietrywialna. Wyniki analizy powinny odzwierciedlać nieoczywiste, nieoczekiwanewzorce w danych, które składają się na tak zwaną wiedzę ukrytą. Wyniki, które można uzyskać w prostszy sposób (na przykład poprzez wizualne oglądanie), nie uzasadniają zastosowania potężnych metod DataMining.
  • Wiedza powinna być praktycznie przydatna. Znaleziona wiedza powinna mieć zastosowanie, w tym w zakresie nowych danych, z dość wysokim poziomem niezawodności. Przydatność polega na tym, że ta wiedza może przynieść pewne korzyści w ich zastosowaniu.
  • Wiedza powinna być dostępna dla ludzkiego zrozumienia. Znalezione wzorce muszą być logicznie wytłumaczalne, w przeciwnym razie istnieje możliwość, że są przypadkowe. Ponadto odkryta wiedza powinna być prezentowana w formie czytelnej dla człowieka.

W DataMining modele służą do reprezentowania zdobytej wiedzy. Rodzaje modeli zależą od metod ich tworzenia. Najczęstsze to: reguły, drzewa decyzyjne, klastry i funkcje matematyczne.

Zadania DataMining

Przypomnijmy, że technologia DataMining opiera się na koncepcji wzorców, które są wzorami. W wyniku odkrycia tych wzorów, ukrytych gołym okiem, problemy DataMining zostały rozwiązane. Różne typy wzorców, które można wyrazić w formie zrozumiałej dla ludzi, odpowiadają określonym zadaniom DataMining.

Nie ma zgody co do zadań, które należy przypisać do DataMining. Najbardziej renomowane źródła wymieniają następujące: klasyfikacja,

grupowanie, prognozowanie, asocjacja, wizualizacja, analiza i wykrywanie

odchylenia, ocena, analiza związków, podsumowanie.

Poniższy opis ma na celu ogólne przedstawienie zadań DataMining, porównanie niektórych z nich, a także przedstawienie metod rozwiązywania tych zadań. Najczęstsze zadania DataMining to klasyfikacja, klastrowanie, asocjacja, prognozowanie i wizualizacja. W związku z tym zadania są podzielone według rodzaju wytwarzanych informacji, jest to najbardziej ogólna klasyfikacja zadań DataMining.

Klasyfikacja

Zadanie dzielenia zestawu obiektów lub obserwacji na zdefiniowane z góry grupy, zwane klasami, wewnątrz których każda z nich powinna być do siebie podobna, posiadając w przybliżeniu te same właściwości i znaki. Rozwiązanie opiera się naanaliza wartości atrybutów (znaków).

Klasyfikacja jest jednym z najważniejszych zadań.Eksploracja danych . Jest stosowany wmarketing w ocenie zdolności kredytowej kredytobiorców, określanielojalność klientów rozpoznawanie wzorców , diagnostyka medyczna i wiele innych aplikacji. Jeśli analityk zna właściwości obiektów każdej klasy, to gdy nowa obserwacja dotyczy konkretnej klasy, właściwości te mają do niej zastosowanie automatycznie.

Jeśli liczba klas jest ograniczona do dwóch, wówczasklasyfikacja binarna do którego można zredukować wiele bardziej złożonych zadań. Na przykład zamiast określać takie stopnie ryzyka kredytowego, jak Wysoki, Średni lub Niski, możesz użyć tylko dwóch - „Wydanie” lub „Odmowa”.

DataMining wykorzystuje wiele różnych modeli do klasyfikacji:sieci neuronowe, drzewa decyzyjne , obsługują maszyny wektorowe, metodę k-najbliższego sąsiada, algorytmy pokrycia itp., których budowa obejmuje szkolenie z nauczycielem kiedyzmienna wyjściowa (etykieta klasy ) ustawia się dla każdej obserwacji. Klasyfikacja jest formalnie oparta na partycjiprzestrzenie cech na obszarach, w obrębie których każdywektory wielowymiarowe uważane za identyczne. Innymi słowy, jeśli obiekt wpada w obszar przestrzeni związany z określoną klasą, należy do niego.

Grupowanie

Krótki opis. Klastrowanie jest logicznym rozszerzeniem pomysłu.

klasyfikacja. To zadanie jest bardziej skomplikowane, cechą klastrowania jest to, że klasy obiektów nie są początkowo z góry określone. Wynikiem grupowania jest podział obiektów na grupy.

Przykład metody rozwiązania problemu klastrowania: szkolenie „bez nauczyciela” specjalnego rodzaju sieci neuronowych - samoorganizujące się mapy Kohonena.

Stowarzyszenie (stowarzyszenia)

Krótki opis. W trakcie rozwiązywania problemu wyszukiwania reguł asocjacyjnych stwierdza się prawidłowości między powiązanymi zdarzeniami w zbiorze danych.

Różnica między powiązaniem a dwoma poprzednimi zadaniami DataMining: wyszukiwanie wzorców odbywa się nie na podstawie właściwości analizowanego obiektu, ale między kilkoma zdarzeniami, które występują jednocześnie. Najbardziej znanym algorytmem rozwiązywania problemu znajdowania reguł asocjacyjnych jest algorytm Apriori.

Sekwencja lub sekwencyjne skojarzenie

Krótki opis. Sekwencja pozwala znaleźć tymczasowe wzorce między transakcjami. Zadanie sekwencji jest podobne do skojarzenia, ale jego celem jest ustalenie wzorców nie między jednocześnie występującymi zdarzeniami, ale między zdarzeniami powiązanymi w czasie (tj. Występującymi w określonym przedziale czasu). Innymi słowy, sekwencja zależy od wysokiego prawdopodobieństwa łańcucha zdarzeń związanych z czasem. W rzeczywistości powiązanie jest szczególnym przypadkiem sekwencji z opóźnieniem czasowym równym zero. To zadanie DataMining jest również nazywane problemem sekwencyjnym.

Reguła sekwencji: po zdarzeniu X zdarzenie Y nastąpi po pewnym czasie.

Przykład. Po zakupie mieszkania mieszkańcy w 60% przypadków kupują lodówkę w ciągu dwóch tygodni, a telewizor w 50% przypadków w ciągu dwóch miesięcy. Rozwiązanie tego problemu jest szeroko stosowane w marketingu i zarządzaniu, na przykład w zarządzaniu cyklem klienta (CustomerLifecycleManagement).

Regresja, prognozowanie (prognozowanie)

Krótki opis. W wyniku rozwiązania problemu prognozowania na podstawie cech danych historycznych szacuje się brakujące lub przyszłe wartości docelowych wskaźników numerycznych.

Aby rozwiązać takie problemy, szeroko stosuje się metody statystyki matematycznej, sieci neuronowe itp.

Dodatkowe zadania

Definiowanie odchyleń lub wartości odstających (DeviationDetection)analiza odchyleń lub wartości odstających

Krótki opis. Celem rozwiązania tego problemu jest wykrycie i analiza danych, które najbardziej różnią się od całego zestawu danych, w celu zidentyfikowania tak zwanych nietypowych wzorców.

Oszacowanie

Zadanie szacowania sprowadza się do przewidywania ciągłych wartości atrybutu.

Analiza linków

Zadanie znajdowania zależności w zbiorze danych.

Wizualizacja (grafizacja)

W wyniku wizualizacji powstaje obraz graficzny analizowanych danych. Aby rozwiązać problem wizualizacji, stosuje się metody graficzne, które pokazują obecność wzorców w danych.

Przykładem technik wizualizacji jest prezentacja danych w wymiarach 2-D i 3-D.

Podsumowanie

Zadanie, którego celem jest opis konkretnych grup obiektów z analizowanego zbioru danych.

Wystarczająco blisko wspomnianej klasyfikacji jest podział zadań DataMining na następujące: badania i odkrywanie, prognozowanie i klasyfikacja, objaśnienia i opisy.

Automatyczne wyszukiwanie i odkrywanie (bezpłatne wyszukiwanie)

Przykład zadania: odkrycie nowych segmentów rynku.

Aby rozwiązać tę klasę problemów, stosuje się metody analizy skupień.

Prognozowanie i klasyfikacja

Przykładowe zadanie: przewidywanie wzrostu sprzedaży na podstawie bieżących wartości.

Metody: regresja, sieci neuronowe, algorytmy genetyczne, drzewa decyzyjne.

Klasyfikacja i prognozy obejmują grupę tzw. Modelowania indukcyjnego, w wyniku czego zapewnione jest badanie analizowanego obiektu lub układu. W procesie rozwiązywania tych problemów na podstawie zbioru danych opracowywany jest ogólny model lub hipoteza.

Objaśnienie i opis

Przykład zadania: charakterystyka klientów według danych demograficznych i historii zakupów.

Metody: drzewa decyzyjne, systemy reguł, reguły asocjacji, analiza linków.

Jeśli dochód klienta wynosi ponad 50 konwencjonalnych jednostek, a jego wiek to ponad 30 lat, klasa klienta jest pierwsza.

Porównanie klastrowania i klasyfikacji

Charakterystyka

Klasyfikacja

Grupowanie

Uczenie się sterowalności

Kontrolowane

Niepowstrzymany

Strategie

Szkolenie nauczycieli

Uczenie się bez nauczyciela

Etykieta klasy

Zestaw do nauki

po którym następuje etykieta wskazująca

klasa, do której należy

obserwacja

Etykiety do nauki

zestawy są nieznane

Podstawa klasyfikacji

Nowe dane sklasyfikowane na podstawie zestawu treningowego

Biorąc pod uwagę dużo danych do celów

ustanowienie istnienia

klasy lub klastry danych

Zakresy DataMining

Należy zauważyć, że dziś technologia DataMining jest najczęściej stosowana w rozwiązywaniu problemów biznesowych. Być może powodem jest to, że w tym kierunku zwrot z użycia narzędzi DataMining może, według niektórych źródeł, sięgać nawet 1000%, a koszt jego wdrożenia może się szybko zwrócić.

Rozważymy szczegółowo cztery główne obszary zastosowania technologii DataMining: naukę, biznes, badania dla rządu i kierowanie internetem.

zadania biznesowe. Główne obszary: bankowość, finanse, ubezpieczenia, CRM, produkcja, telekomunikacja, e-commerce, marketing, giełda i inne.

    Czy udzielić pożyczki klientowi

    Segmentacja rynku

    Przyciąganie nowych klientów

    Oszustwo z wykorzystaniem karty kredytowej

Aplikacja DataMining dla rozwiązywanie problemów na poziomie państwowym. Główne kierunki: poszukiwanie oszustów podatkowych; fundusze na walkę z terroryzmem.

Aplikacja DataMining dla badania naukowe. Główne obszary: medycyna, biologia, genetyka molekularna i inżynieria genetyczna, bioinformatyka, astronomia, chemia stosowana, badania związane z uzależnieniem od narkotyków i inne.

Korzystanie z DataMining do rozwiązania Zadania sieciowe. Główne kierunki: wyszukiwarki (wyszukiwarki), liczniki i inne.

E-commerce

W e-commerce DataMining służy do formowania

Ta klasyfikacja umożliwia firmom identyfikację określonych grup klientów i prowadzenie polityki marketingowej zgodnie z odkrytymi zainteresowaniami i potrzebami klientów. Technologia DataMining dla handlu elektronicznego jest ściśle związana z technologią WebMining.

Główne zadania DataMining w produkcji przemysłowej:

· Kompleksowa analiza systemowa sytuacji produkcyjnych;

· Krótkoterminowa i długoterminowa prognoza rozwoju sytuacji produkcyjnych;

· Opracowanie opcji rozwiązań optymalizacyjnych;

· Prognozowanie jakości produktu w zależności od niektórych parametrów

proces technologiczny;

· Wykrywanie ukrytych trendów i wzorców rozwoju produkcji

procesy

· Prognozowanie wzorców rozwoju procesów produkcyjnych;

· Wykrywanie ukrytych czynników wpływu;

· Wykrywanie i identyfikacja nieznanych wcześniej związków między

parametry produkcyjne i czynniki wpływu;

· Analiza środowiska pod kątem interakcji procesów produkcyjnych i prognozowania

zmiany jego cech;

procesy

· Wizualizacja wyników analiz, przygotowanie wstępnych raportów i projektów

możliwe rozwiązania z szacunkami wiarygodności i skuteczności możliwych wdrożeń.

Marketing

W marketingu DataMining jest bardzo szeroko stosowany.

Główne pytania marketingowe „Co to jest na sprzedaż?”, „Jak to jest na sprzedaż?”, „Kto jest

konsument? ”

Wykład na temat problemów związanych z klasyfikacją i klastrowaniem szczegółowo opisuje zastosowanie analizy skupień do rozwiązywania problemów marketingowych, takich jak segmentacja konsumentów.

Innym powszechnym zestawem metod rozwiązywania problemów marketingowych są metody i algorytmy do znajdowania reguł asocjacyjnych.

Z powodzeniem stosuje się tu również wyszukiwanie wzorców tymczasowych.

Sprzedaż

W branży detalicznej, a także w marketingu, stosuje się następujące zasady:

· Algorytmy wyszukiwania reguł asocjacyjnych (do określania często występujących zestawów

towary kupowane jednocześnie przez kupujących). Identyfikacja takich reguł pomaga

umieść towary na półkach parkietów, opracuj strategie zakupu towarów

oraz ich umieszczenie w magazynach itp.

· Wykorzystanie sekwencji czasowych, na przykład w celu ustalenia

wymagane ilości zapasów towarów w magazynie.

· Klasyfikacja i metody grupowania w celu identyfikacji grup lub kategorii klientów,

wiedza o tym przyczynia się do skutecznej promocji towarów.

Giełda Papierów Wartościowych

Oto lista wyzwań rynku giełdowego, które można rozwiązać za pomocą technologii danych.

Wydobycie: · prognozowanie przyszłych wartości instrumentów finansowych i ich wskaźników

przeszłe wartości;

· Prognoza trendu (przyszły kierunek ruchu - wzrost, spadek, płaski) finansów

instrument i jego siła (mocna, umiarkowanie silna itp.);

· Przydział struktury klastrowej rynku, przemysłu, sektora dla określonego zestawu

cechy;

· Dynamiczne zarządzanie portfelem;

· Zmienność prognoz;

· Ocena ryzyka;

· Przewidywanie początku kryzysu i prognoza jego rozwoju;

· Wybór aktywów itp.

Oprócz obszarów działalności opisanych powyżej, technologia DataMining może być stosowana w wielu różnych obszarach biznesowych, w których istnieje potrzeba analizy danych i zgromadzono pewną ilość informacji retrospektywnych.

Korzystanie z DataMining w CRM

Jednym z najbardziej obiecujących obszarów aplikacji DataMining jest wykorzystanie tej technologii w analitycznym CRM.

CRM (CustomerRelationshipManagement) - zarządzanie relacjami z klientem.

W przypadku jednoczesnego korzystania z tych technologii pozyskiwanie wiedzy łączy się z „wydobywaniem pieniędzy” z danych klientów.

Ważnym aspektem w działach marketingu i sprzedaży jest kompilacjacałościowe spojrzenie na klientów, informacje o ich cechach, cechach, strukturze bazy klientów. CRM wykorzystuje tak zwane profilowanieklienci, dając pełny widok wszystkich niezbędnych informacji o klientach.

Profilowanie klientów obejmuje następujące elementy: segmentacja klientów, rentowność klientów, utrzymanie klientów, analiza reakcji klientów. Każdy z tych komponentów można badać za pomocą DataMining, a ich analiza jako całość, jako komponenty profilujące, może w rezultacie dostarczyć wiedzy, której nie można uzyskać z każdej indywidualnej cechy.

Webmining

WebMining można tłumaczyć jako „eksploracja danych w sieci”. WebIntelligence lub Web.

Intelekt jest gotowy „otworzyć nowy rozdział” w szybkim rozwoju biznesu elektronicznego. Zdolność do określania zainteresowań i preferencji każdego odwiedzającego poprzez obserwowanie jego zachowania stanowi poważną i kluczową zaletę konkurencji na rynku e-commerce.

Systemy WebMining mogą odpowiedzieć na wiele pytań, na przykład, który z odwiedzających jest potencjalnym klientem sklepu internetowego, która grupa klientów sklepu internetowego generuje największe przychody, jakie są zainteresowania konkretnego odwiedzającego lub grupy odwiedzających.

Metody

Klasyfikacja metod

Istnieją dwie grupy metod:

  • metody statystyczne oparte na wykorzystaniu średniego zgromadzonego doświadczenia, co znajduje odzwierciedlenie w danych retrospektywnych;
  • metody cybernetyczne, w tym wiele heterogenicznych podejść matematycznych.

Wada takiej klasyfikacji: zarówno algorytmy statystyczne, jak i cybernetyczne w taki czy inny sposób polegają na porównaniu doświadczeń statystycznych z wynikami monitorowania bieżącej sytuacji.

Zaletą takiej klasyfikacji jest wygoda interpretacji - służy ona do opisania narzędzi matematycznych współczesnego podejścia do wydobywania wiedzy z tablic obserwacji początkowych (operacyjnych i retrospektywnych), tj. w zadaniach Data Mining.

Rozważ bardziej szczegółowo grupy przedstawione powyżej.

Metody eksploracji danych statystycznych

W tych metody to cztery powiązane ze sobą sekcje:

  • wstępna analiza charakteru danych statystycznych (testowanie hipotez stacjonarności, normalności, niezależności, jednolitości, oszacowanie rodzaju funkcji rozkładu, jej parametrów itp.);
  • identyfikowanie relacji i wzory (analiza regresji liniowej i nieliniowej, analiza korelacji itp.);
  • wielowymiarowa analiza statystyczna (liniowa i nieliniowa analiza dyskryminacyjna, analiza skupień, analiza składników, analiza czynnikowa itp.);
  • modele dynamiczne i prognozy oparte na szeregach czasowych.

Arsenał metod statystycznych Data Mining dzieli się na cztery grupy metod:

  1. Analiza opisowa i opis danych źródłowych.
  2. Analiza linków (analiza korelacji i regresji, analiza czynnikowa, analiza wariancji).
  3. Analiza statystyczna wielowymiarowa (analiza składowa, analiza dyskryminacyjna, analiza regresji wielowymiarowej, korelacje kanoniczne itp.).
  4. Analiza szeregów czasowych (modele dynamiczne i prognozowanie).

Cybernetyczne techniki eksploracji danych

Drugim kierunkiem eksploracji danych jest wiele podejść, połączonych ideą matematyki komputerowej i wykorzystaniem teorii sztucznej inteligencji.

Ta grupa obejmuje następujące metody:

  • sztuczne sieci neuronowe (rozpoznawanie, grupowanie, prognozowanie);
  • programowanie ewolucyjne (w tym algorytmy dla metody grupowego rozliczania argumentów);
  • algorytmy genetyczne (optymalizacja);
  • pamięć asocjacyjna (poszukiwanie analogów, prototypów);
  • logika rozmyta;
  • drzewa decyzyjne;
  • systemy przetwarzania wiedzy eksperckiej.

Analiza skupień

Celem grupowania jest poszukiwanie istniejących struktur.

Grupowanie jest procedurą opisową, nie zawiera żadnych wniosków statystycznych, ale umożliwia przeprowadzenie analizy eksploracyjnej i badanie „struktury danych”.

Sama koncepcja „klastra” jest niejednoznacznie zdefiniowana: każde badanie ma swoje własne „klastry”. Pojęcie klastra jest tłumaczone jako „klaster”, „pęczek”. Klaster można scharakteryzować jako grupę obiektów o wspólnych właściwościach.

Charakterystykę klastra można nazwać dwoma znakami:

  • wewnętrzna jednolitość;
  • izolacja zewnętrzna.

Pytanie zadawane przez analityków przy rozwiązywaniu wielu problemów dotyczy sposobu organizacji danych w struktury wizualne, tj. rozwinąć taksonomię.

Grupowanie było wykorzystywane przede wszystkim w takich naukach, jak biologia, antropologia i psychologia. Do rozwiązywania problemów ekonomicznych klastrowanie od dawna nie jest używane ze względu na specyfikę danych ekonomicznych i zjawisk.

Klastry mogą się nie nakładać lub być wykluczające (nie nakładające się, wyłączne) i przecinające się (nakładające się).

Należy zauważyć, że w wyniku zastosowania różnych metod analizy skupień można uzyskać klastry o różnych kształtach. Na przykład klastry typu „łańcuchowego” są możliwe, gdy klastry są reprezentowane przez długie „łańcuchy”, podłużne klastry itp., A niektóre metody mogą tworzyć klastry o dowolnym kształcie.

Różne metody mogą próbować tworzyć klastry o określonych rozmiarach (na przykład małe lub duże) lub zakładać w zbiorze danych obecność klastrów o różnych rozmiarach. Niektóre metody analizy skupień są szczególnie wrażliwe na hałas lub wartości odstające, inne są mniej wrażliwe. W wyniku zastosowania różnych metod grupowania można uzyskać nierówne wyniki, jest to normalne i jest cechą działania konkretnego algorytmu. Te cechy należy wziąć pod uwagę przy wyborze metody klastrowania.

Podajemy krótki opis podejść do grupowania.

Algorytmy partycjonowania na podstawie algorytmów partycjonowania wielokrotny:

  • dzielenie obiektów na k klastrów;
  • iteracyjna redystrybucja obiektów w celu poprawy klastrowania.
  • Algorytmy hierarchiczne:
  • aglomeracja: każdy obiekt jest początkowo klastrem, klastrami,
  • łącząc się ze sobą, tworząc większy klaster itp.

Metody oparte na koncentracji obiektów (metody oparte na gęstości):

  • w oparciu o umiejętność łączenia obiektów;
  • ignoruj \u200b\u200bhałas, znajdując klastry o dowolnym kształcie.

Krata - metody (metody oparte na siatce):

  • kwantyzacja obiektów w strukturze siatki.

Metody modelowe (oparte na modelu):

  • za pomocą modelu, aby znaleźć klastry najbardziej odpowiednie dla danych.

Metody analizy skupień. Metody iteracyjne.

Przy dużej liczbie obserwacji hierarchiczne metody analizy skupień nie są odpowiednie. W takich przypadkach stosowane są niehierarchiczne metody oparte na separacji, które są iteracyjnymi metodami fragmentacji pierwotnej populacji. W procesie podziału powstają nowe klastry do momentu spełnienia reguły zatrzymania.

Takie niehierarchiczne grupowanie polega na dzieleniu zestawu danych na pewną liczbę pojedynczych klastrów. Istnieją dwa podejścia. Pierwszym z nich jest określenie granic klastrów jako najgęstszych sekcji w wielowymiarowej przestrzeni danych źródłowych, tj. definicja klastra, w którym występuje duża „koncentracja punktów”. Drugim podejściem jest zminimalizowanie miary różnic w obiektach

Algorytm K-średnich (k-średnich)

Najbardziej powszechnym wśród metod niehierarchicznych jest algorytm k-średnich, zwany także szybka analiza skupień. Pełny opis algorytmu można znaleźć w pracy Hartigan i Wong (HartiganandWong, 1978). W przeciwieństwie do metod hierarchicznych, które nie wymagają wstępnych założeń dotyczących liczby klastrów, aby móc skorzystać z tej metody, konieczna jest hipoteza o najbardziej prawdopodobnej liczbie klastrów.

Algorytm k-średnich konstruuje k klastrów zlokalizowanych w możliwie największej odległości od siebie. Głównym rodzajem problemów, które rozwiązuje algorytm k-średnich, jest istnienie założeń (hipotez) dotyczących liczby klastrów, które powinny być możliwie różne. Wybór k może być oparty na wcześniejszych badaniach, rozważaniach teoretycznych lub intuicji.

Ogólna idea algorytmu: dana stała liczba k klastrów obserwacyjnych jest odwzorowana na klastry, dzięki czemu średnie w klastrze (dla wszystkich zmiennych) różnią się od siebie tak bardzo, jak to możliwe.

Opis algorytmu

1. Początkowy rozkład obiektów w klastrach.

  • Wybrano liczbę k, a w pierwszym etapie punkty te są uważane za „centra” skupień.
  • Każdy klaster ma jedno centrum.

Wybór początkowych centroidów można przeprowadzić w następujący sposób:

  • wybór k-obserwacji w celu maksymalizacji początkowej odległości;
  • losowy wybór obserwacji k;
  • wybór pierwszych k-obserwacji.

W rezultacie każdy obiekt jest przypisany do określonego klastra.

2. Proces iteracyjny.

Obliczane są centra klastrów, które wówczas i dalej są średnimi klastrami średnimi. Przedmioty są ponownie rozpowszechniane.

Proces obliczania centrów i redystrybucji obiektów trwa do momentu spełnienia jednego z warunków:

  • centra klastrów ustabilizowane, tj. wszystkie obserwacje należą do gromady, która należała do bieżącej iteracji;
  • liczba iteracji jest równa maksymalnej liczbie iteracji.

Rysunek pokazuje przykład algorytmu k-średnich dla k równego dwa.

Przykład algorytmu k-średnich (k \u003d 2)

Wybór liczby klastrów to złożony problem. Jeśli nie ma żadnych założeń dotyczących tej liczby, zaleca się utworzenie 2 klastrów, a następnie 3, 4, 5 itd., Porównując wyniki.

Kontrola jakości grupowania

Po uzyskaniu wyników analizy skupień metodą k-średnich należy sprawdzić poprawność klastrowania (tj. Aby ocenić, jak bardzo klastry różnią się od siebie).

W tym celu obliczane są średnie wartości dla każdego klastra. Przy dobrym grupowaniu należy uzyskać bardzo różne średnie dla wszystkich pomiarów, a przynajmniej dla większości z nich.

Zalety algorytmu k-średnich:

  • łatwość użycia;
  • prędkość użytkowania;
  • zrozumiałość i przejrzystość algorytmu.

Wady algorytmu k-średnich:

  • algorytm jest zbyt wrażliwy na wartości odstające, które mogą zniekształcać średnią.

Możliwym rozwiązaniem tego problemu jest zastosowanie modyfikacji algorytmu, algorytmu k-mediany;

  • algorytm może działać wolno w dużych bazach danych. Możliwym rozwiązaniem tego problemu jest użycie próbki danych.

Sieci bayesowskie

W teorii prawdopodobieństwa pojęcie zależności informacji jest modelowane przez zależność warunkową (lub ściśle: brak warunkowej niezależności), która opisuje, w jaki sposób zmienia się nasze zaufanie do wyniku zdarzenia, gdy zdobywamy nową wiedzę o faktach, pod warunkiem, że znamy już pewien zestaw innych faktów.

Wygodnie i intuicyjnie jest wyobrażać sobie zależności między elementami za pomocą ukierunkowanej ścieżki łączącej te elementy na wykresie. Jeśli związek między elementami xiy nie jest bezpośredni i jest realizowany przez trzeci element z, logiczne jest oczekiwanie, że element z będzie na ścieżce między xiy. Takie węzły pośredniczące „odetną” relację między xiy, to znaczy symulować sytuację warunkowej niezależności między nimi przy znanej wartości czynników bezpośredniego wpływu.Te języki modelowania to sieci bayesowskie, które służą do opisu zależności warunkowych między pojęciami określonego obszaru tematycznego.

Sieci bayesowskie to struktury graficzne do reprezentowania probabilistycznych związków między dużą liczbą zmiennych i do wnioskowania probabilistycznego na podstawie tych zmiennych.Klasyfikacja „naiwna” (bayesowska) jest dość przejrzystą i zrozumiałą metodą klasyfikacji. Nazywa się ją „naiwną”, ponieważ opiera się na założeniu wzajemnościniezależność znaków.

Właściwości klasyfikacji:

1. Wykorzystanie wszystkich zmiennych i określenie wszystkich zależności między nimi.

2. Obecność dwóch założeń dotyczących zmiennych:

  • wszystkie zmienne są równie ważne;
  • wszystkie zmienne są statystycznie niezależne, tj. wartość jednej zmiennej nic nie mówi o wartości innej.

Istnieją dwa główne scenariusze zastosowania sieci bayesowskich:

1. Analiza opisowa. Obszar tematyczny jest wyświetlany w postaci wykresu, którego węzły reprezentują pojęcia, a ukierunkowane łuki wyświetlane za pomocą strzałek ilustrują bezpośrednie związki między tymi pojęciami. Związek między pojęciami xiy oznacza: znajomość wartości x pomaga w bardziej świadomym założeniu o wartości y. Brak bezpośredniego związku między pojęciami modeluje warunkową niezależność między nimi ze znanymi wartościami pewnego zestawu pojęć „oddzielających”. Na przykład rozmiar buta dziecka jest oczywiście związany ze zdolnością dziecka do czytania przez wiek. Tak więc większy rozmiar buta daje większą pewność, że dziecko już czyta, ale jeśli znamy już wiek, to znajomość rozmiaru buta nie dostarczy nam dodatkowych informacji na temat zdolności dziecka do czytania.


Jako inny, przeciwny przykład, rozważamy takie początkowo niezwiązane czynniki, jak palenie i przeziębienie. Ale jeśli znamy na przykład objaw, że dana osoba cierpi na kaszel rano, to wiedza o tym, że nie pali, zwiększa naszą pewność, że jest przeziębiona.

2. Klasyfikacja i prognozowanie. Sieć bayesowska, umożliwiająca warunkową niezależność wielu pojęć, może zmniejszyć liczbę wspólnych parametrów dystrybucji, umożliwiając im zaufanie do dostępnych woluminów danych. Tak więc, przy 10 zmiennych, z których każda może przyjąć 10 wartości, liczba wspólnych parametrów rozkładu wynosi 10 miliardów - 1. Zakładając, że tylko 2 zmienne zależą od siebie między tymi zmiennymi, liczba parametrów wynosi 8 * (10-1) + (10 * 10-1) \u003d 171. Mając realistyczny model rozkładu połączeń w zasobach obliczeniowych, nieznaną wartość pojęcia, możemy przewidzieć, na przykład, jak najbardziej prawdopodobna wartość tego pojęcia ze znanymi wartościami innych pojęć.

Zauważono takie zalety sieci bayesowskich jak metoda DataMining:

Model definiuje zależności między wszystkimi zmiennymi, dzięki czemu jest to łatweradzić sobie z sytuacjami, w których wartości niektórych zmiennych są nieznane;

Sieci bayesowskie są dość łatwe do interpretacji i pozwalają na etapiemodelowanie predykcyjne jest łatwe do analizy zgodnie ze scenariuszem „co jeśli”;

Metoda bayesowska pozwala na naturalne łączenie wzorów,pochodzi z danych, a na przykład wiedzy eksperckiej uzyskanej wyraźnie;

Korzystanie z sieci bayesowskich pozwala uniknąć problemu przekwalifikowania(przeregulowanie), tj. nadmierna złożoność modelu, co jest słabościąwiele metod (np. drzewa decyzyjne i sieci neuronowe).

Naiwne podejście bayesowskie ma następujące wady:

Prawidłowe jest mnożenie prawdopodobieństw warunkowych tylko wtedy, gdy wszystkie prawdopodobieństwa wejściowezmienne są naprawdę statystycznie niezależne; chociaż często ta metodapokazuje wystarczająco dobre wyniki, jeśli warunki statystyczne nie są spełnioneniezależność, ale teoretycznie taka sytuacja powinna być rozwiązywana przez bardziej złożonemetody oparte na szkoleniu sieci bayesowskich;

Bezpośrednie przetwarzanie zmiennych ciągłych nie jest możliwe - są one wymaganekonwersja do skali interwału, dzięki czemu atrybuty są dyskretne; jednak takietransformacje mogą czasami prowadzić do utraty znaczących wzorców;

Wynik klasyfikacji w naiwnym podejściu bayesowskim ma wpływ tylkoindywidualne wartości zmiennych wejściowych, łączny wpływ par lubtrzy wartości różnych atrybutów nie są tutaj brane pod uwagę. To może się poprawićjakość modelu klasyfikacji pod względem dokładności prognostycznej,zwiększyłoby to jednak liczbę testowanych opcji.

Sztuczne sieci neuronowe

Sztuczne sieci neuronowe (zwane dalej sieciami neuronowymi) mogą być synchroniczne i asynchroniczne.W synchronicznych sieciach neuronowych w każdym momencie zmienia się tylko jego stanjeden neuron. W asynchronicznie - stan zmienia się natychmiast w całej grupie neuronów, z reguły we wszystkimwarstwa. Można wyróżnić dwie podstawowe architektury - warstwowe iw pełni połączone sieci.Kluczem do sieci warstwowych jest koncepcja warstwy.Warstwa to jeden lub więcej neuronów, na których wejściach dostarczany jest ten sam wspólny sygnał.Warstwowe sieci neuronowe - sieci neuronowe, w których neurony są podzielone na osobne grupy (warstwy), dzięki czemu informacje przetwarzane są warstwami.W sieciach warstwowych neurony i-tej warstwy odbierają sygnały wejściowe, przetwarzają je i transmitują przez punkty rozgałęzienia do neuronów (i + 1) warstwy. I tak dalej, aż do k-tej warstwy, która wydajesygnały wyjściowe dla tłumacza i użytkownika. Liczba neuronów w każdej warstwie nie jest związana z liczbą neuronów w innych warstwach, może być dowolna.W obrębie jednej warstwy dane są przetwarzane równolegle, a w całej sieci przetwarzanie odbywa się sekwencyjnie - od warstwy do warstwy. Warstwowe sieci neuronowe obejmują, na przykład, wielowarstwowe perceptrony, sieci radialnych funkcji bazowych, cognitron, non-cognitron i sieci pamięci asocjacyjnej.Jednak sygnał nie zawsze jest stosowany do wszystkich neuronów w warstwie. Na przykład w cognitronie każdy neuron bieżącej warstwy odbiera sygnały tylko z bliskich neuronów poprzedniej warstwy.

Z kolei sieci warstwowe mogą być jednowarstwowe i wielowarstwowe.

Sieć jednowarstwowa- sieć składająca się z jednej warstwy.

Sieć warstwowa- sieć posiadająca kilka warstw.

W sieci wielowarstwowej pierwsza warstwa nazywa się warstwą wejściową, kolejna warstwa nazywa się wewnętrzną lub ukrytą, ostatnia warstwa jest warstwą wyjściową. Zatem wszystkie warstwy pośrednie są warstwami w wielowarstwowej sieci neuronowej, z wyjątkiem warstw wejściowych i wyjściowych.Warstwa sieci wejściowej realizuje komunikację z danymi wejściowymi, warstwa wyjściowa - z danymi wyjściowymi.W ten sposób neurony mogą być wprowadzane, wyprowadzane i ukryte.Warstwa wejściowa jest zorganizowana z neuronów wejściowych (inputneuron), które odbierają dane i rozdzielają je na wejścia neuronów ukrytej warstwy sieciowej.Ukryty neuron (hiddenneuron) to neuron zlokalizowany w ukrytej warstwie sieci neuronowej.Wytwarzają neurony wyjściowe (neuron wyjściowy), z których zorganizowana jest warstwa wyjściowa sieciwyniki sieci neuronowej.

W pełni połączonych sieciachkażdy neuron przesyła sygnał wyjściowy do innych neuronów, w tym do siebie. Sygnały wyjściowe sieci mogą być wszystkimi lub niektórymi sygnałami wyjściowymi neuronów po kilku cyklach zegarowych sieci.

Wszystkie sygnały wejściowe są dostarczane do wszystkich neuronów.

Szkolenie w sieci neuronowej

Przed użyciem sieci neuronowej należy ją przeszkolić.Proces szkolenia sieci neuronowej polega na dostosowaniu jej parametrów wewnętrznych do określonego zadania.Algorytm sieci neuronowej jest iteracyjny, jego kroki nazywane są epokami lub cyklami.Epoka - jedna iteracja w procesie uczenia się, w tym prezentacja wszystkich przykładów z zestawu szkoleniowego i ewentualnie sprawdzenie jakości szkolenia w kontrolizestaw. Proces uczenia się odbywa się na próbie szkoleniowej.Zestaw treningowy zawiera wartości wejściowe i odpowiadające im wartości wyjściowe zestawu danych. Podczas treningu sieć neuronowa znajduje pewne zależności pól wyjściowych od danych wejściowych.Stajemy zatem wobec pytania - jakie są dla nas pola wejściowe (znaki)niezbędny w użyciu. Początkowo wybór dokonywany jest heurystycznieliczbę wejść można zmienić.

Złożoność może rodzić pytanie o liczbę obserwacji w zbiorze danych. I choć istnieją pewne zasady opisujące związek między wymaganą liczbą obserwacji a rozmiarem sieci, ich wierność nie została udowodniona.Liczba niezbędnych obserwacji zależy od złożoności rozwiązanego problemu. Wraz ze wzrostem liczby znaków liczba obserwacji rośnie nieliniowo, problem ten nazywa się „przekleństwem wymiaru”. Z niewystarczającymzaleca się stosowanie danych w celu zastosowania modelu liniowego.

Analityk musi określić liczbę warstw w sieci i liczbę neuronów w każdej warstwie.Następnie musisz przypisać takie wartości wag i przemieszczeń, które mogązminimalizować błąd decyzyjny. Wagi i przesunięcia są automatycznie dostosowywane w taki sposób, aby zminimalizować różnicę między pożądanymi a odbieranymi sygnałami, co nazywa się błędem uczenia się.Błąd uczenia się dla zbudowanej sieci neuronowej oblicza się przez porównaniewartości wyjściowe i docelowe (pożądane). Funkcja błędu powstaje z uzyskanych różnic.

Funkcja błędu jest funkcją celu, która wymaga minimalizacji w procesiezarządzany trening sieci neuronowej.Korzystając z funkcji błędu, możesz ocenić jakość sieci neuronowej podczas treningu. Na przykład często używana jest suma kwadratów błędów.Zdolność do rozwiązywania przydzielonych zadań zależy od jakości szkolenia sieci neuronowej.

Ponowne szkolenie sieci neuronowej

Nauka sieci neuronowych często stanowi poważne wyzwanie, zwaneproblem przeregulowania.Przekwalifikowanie lub zbyt ścisłe dopasowanie - zbyt dokładne dopasowaniesieć neuronowa do określonego zestawu przykładów szkoleniowych, w których sieć traciumiejętność uogólnienia.Przekwalifikowanie następuje w przypadku zbyt długiego treningu, niewystarczającej liczbyprzykłady szkolenia lub nadmiernie skomplikowana struktura sieci neuronowej.Przekwalifikowanie wynika z faktu, że wybór zestawu treningowego (treningowego)jest losowy. Od pierwszych etapów szkolenia zmniejsza się błąd. Nanastępujące kroki w celu zmniejszenia parametrów błędu (funkcja celu)dostosować się do funkcji zestawu treningowego. Tak się jednak dzieje„tuning” nie zgodnie z ogólnymi prawami serii, ale zgodnie z cechami jego części -uczenie podzbiorów. W takim przypadku dokładność prognozy maleje.Jedną z opcji walki z przekwalifikowaniem sieci jest podzielenie próbki treningowej na dwie częścizestawy (trening i test).Na zestawie szkoleniowym odbywa się szkolenie w sieci neuronowej. Na zestawie testowym sprawdzany jest skonstruowany model. Te zestawy nie powinny się przecinać.Z każdym krokiem parametry modelu zmieniają się jednak, stale malejąwartości funkcji celu występują dokładnie na zbiorze treningowym. Dzieląc zbiór na dwa, możemy zaobserwować zmianę błędu prognozy na zestawie testowym równolegle z obserwacjami na zestawie treningowym. Jakiś rodzajliczba kroków błędu prognozy zmniejsza się w obu zestawach. Jednak nana pewnym etapie błąd zestawu testowego zaczyna się zwiększać, podczas gdy błąd zestawu treningowego nadal maleje. Ten moment uważany jest za początek przekwalifikowania

Narzędzia DataMining

Rozwój sektora DataMining na globalnym rynku oprogramowania obejmuje zarówno światowej sławy liderów, jak i nowe wschodzące firmy. Narzędzia DataMining mogą być prezentowane jako samodzielna aplikacja lub jako dodatki do głównego produktu.Ta ostatnia opcja jest wdrażana przez wielu liderów rynku oprogramowania.Stało się już tradycją, że twórcy uniwersalnych pakietów statystycznych, oprócz tradycyjnych metod analizy statystycznej, uwzględniają w pakiecieokreślony zestaw metod DataMining. Te pakiety jako SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner).Niektórzy programiści rozwiązań OLAP oferują również zestaw metod DataMining, na przykład rodzinę produktów Cognos. Istnieją dostawcy, którzy zawierają rozwiązania DataMining w funkcjonalności DBMS: są to Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Lista referencji

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., „Reengineering procesów biznesowych. Kurs MBA ”, Moskwa: Eksmo Publishing House, 2005. - 592 str. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. „Zarządzanie wiedzą w korporacjach i reengineering przedsiębiorstw” - M .: Infra-M, 2011. - 382 s. - ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. „Metody i modele analizy danych: OLAP i Data Mining”, St. Petersburg: BHV-Petersburg, 2004, 366 s., ISBN 5-94157-522-X
  1. Książę W., Samoilenko I., „Wyszukiwanie danych.Szkolenie „St. Petersburg: Peter, 2001, 386с.
  1. Chubukova I.A., Data Mining Course, http://www.intuit.ru/department/database/datamining/
  1. Ianh Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Practical Machine Learning Tools and Techniques (wydanie trzecie), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L., Multimedia Data Mining and Knowledge Discovery

Wyślij swoją dobrą pracę w bazie wiedzy jest proste. Skorzystaj z poniższego formularza

Będą wam bardzo wdzięczni studenci, doktoranci, młodzi naukowcy, którzy wykorzystują bazę wiedzy w swoich badaniach i pracy.

Podobne dokumenty

    Opis funkcjonalności technologii Data Mining jako nieznanego procesu wykrywania danych. Badanie systemów do wyprowadzania reguł asocjacyjnych i mechanizmów algorytmów sieci neuronowej. Opis algorytmów klastrowania i zastosowań Data Mining.

    test, dodano 14.06.2013

    Podstawy klastrowania. Wykorzystanie Data Mining jako sposobu „odkrywania wiedzy w bazach danych”. Wybór algorytmów klastrowych. Pobieranie danych z bazy danych repozytorium zdalnego warsztatu. Grupowanie studentów i zadań.

    praca semestralna, dodano 07/10/2017

    Ulepszenie technologii nagrywania i przechowywania danych. Specyfika współczesnych wymagań przetwarzania danych informacyjnych. Koncepcja szablonów odzwierciedlających fragmenty relacji wieloaspektowych w danych stanowiąca rdzeń nowoczesnej technologii Data Mining.

    praca testowa, dodano 09/02/2010

    Eksploracja danych, historia rozwoju eksploracji danych i odkrywanie wiedzy. Elementy technologiczne i metody eksploracji danych. Kroki w odkrywaniu wiedzy. Wykrywanie zmian i odchyleń. Powiązane dyscypliny, wyszukiwanie informacji i ekstrakcja tekstu.

    raport dodano 16.06.2012

    Eksploracja danych jako proces wspomagania decyzji na podstawie wyszukiwania ukrytych wzorców (wzorców informacyjnych) w danych. Jego prawa i etapy wdrażania, historia rozwoju tej technologii, ocena zalet i wad, możliwości.

    esej dodany 17.12.2014

    Klasyfikacja zadań DataMining. Twórz raporty i podsumowania. Funkcje Data Miner w Statistica. Zadanie klasyfikacji, grupowania i regresji. Narzędzia analizy Statistica Data Miner. Istotą problemu jest poszukiwanie reguł asocjacyjnych. Analiza predyktorów przeżycia.

    praca semestralna, dodano 19.05.2011

    Obiecujące obszary analizy danych: analiza informacji tekstowych, eksploracja danych. Analiza uporządkowanych informacji przechowywanych w bazach danych. Proces analizy dokumentów tekstowych. Funkcje przetwarzania danych.

    streszczenie, dodano 02/13/2014

    Klasyfikacja zadań eksploracji danych. Zadanie grupowania i wyszukiwania reguł asocjacyjnych. Definicja klasy obiektu według jego właściwości i właściwości. Znajdowanie częstych zależności między obiektami lub zdarzeniami. Operacyjne i analityczne przetwarzanie danych.

    praca testowa, dodano 1/13/2013

Obecnie elementy sztucznej inteligencji są aktywnie wprowadzane do praktycznych działań menedżera. W przeciwieństwie do tradycyjnych systemów sztucznej inteligencji, eksploracja danych lub eksploracja danych (DM) nie próbuje symulować naturalnej inteligencji, ale zwiększa jej możliwości dzięki mocy nowoczesnych serwerów obliczeniowych, wyszukiwarek i hurtowni danych. Często obok słów „Data Mining” znajdują się słowa „odkrycie wiedzy w bazach danych” (Knowledge Discovery in Databases).

Figa. 6.17.

Eksploracja danych to proces wykrywania wcześniej nieznanych, nietrywialnych, praktycznie przydatnych i dostępnych interpretacji wiedzy w surowych danych, które są niezbędne do podejmowania decyzji w różnych obszarach działalności człowieka. Eksploracja danych ma wielką wartość dla menedżerów i analityków w ich codziennych czynnościach. Przedsiębiorcy zdali sobie sprawę, że za pomocą metod Data Mining mogą uzyskać wymierne korzyści konkurencyjne.

Nowoczesna technologia Data Mining (Data Mining oparta na odkrywaniu) opiera się na koncepcji Wzorów, które odzwierciedlają fragmenty relacji wieloaspektowych w danych. Wzorce te są wzorcami nieodłącznie związanymi z próbkami danych, które można w sposób kompaktowy wyrazić w formie czytelnej dla człowieka. Wzory są wyszukiwane za pomocą metod, które nie są ograniczone z góry założeniami dotyczącymi struktury próby i rodzaju rozkładu wartości analizowanych wskaźników. Na ryc. 6.17 pokazuje schemat konwersji danych przy użyciu technologii Data Mining.

Figa. 6.18

Podstawą różnych systemów prognozowania są informacje historyczne przechowywane w bazie danych w postaci szeregów czasowych. Jeśli uda Ci się zbudować wzorce, które odpowiednio odzwierciedlają dynamikę zachowania wskaźników docelowych, prawdopodobne jest, że z ich pomocą możesz przewidzieć zachowanie systemu w przyszłości. Na ryc. 6.18 pokazuje pełny cykl technologii Data Mining.

Ważnym punktem eksploracji danych jest nietrywialność pożądanych wzorców. Oznacza to, że znalezione wzorce powinny odzwierciedlać nieoczywiste, nieoczekiwane (nieoczekiwane) prawidłowości w danych, które składają się na tak zwaną ukrytą wiedzę. Przedsiębiorcy zrozumieli, że „Surowe dane” zawierają głęboką warstwę wiedzy, a przy ich prawidłowym wykopie można odkryć prawdziwe samorodki, które można wykorzystać w konkurencji.

Zakres Data Mining nie jest niczym ograniczony - technologię można zastosować wszędzie tam, gdzie jest ogromna ilość dowolnych „surowych” danych!


Przede wszystkim metody Data Mining zainteresowały przedsiębiorstwa komercyjne wdrażające projekty oparte na hurtowni danych. Doświadczenie wielu takich przedsiębiorstw pokazuje, że zwrot z wykorzystania Data Mining może osiągnąć 1000%. Istnieją doniesienia o efekcie ekonomicznym, który jest 10-70 razy wyższy niż początkowe koszty od 350 do 750 tysięcy dolarów. Istnieją informacje o projekcie wartym 20 milionów dolarów, który zwrócił się w ciągu zaledwie 4 miesięcy. Innym przykładem są roczne oszczędności w wysokości 700 tysięcy dolarów dzięki wprowadzeniu Data Mining w jednej z sieci supermarketów w Wielkiej Brytanii.

Microsoft oficjalnie ogłosił wzrost aktywności w dziedzinie Data Mining. Dedykowany zespół badawczy Microsoft prowadzony przez Osamę Fayyad i sześciu zaproszonych partnerów (Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS) przygotowuje wspólny projekt opracowania standardu wymiany danych i narzędzi do integracji narzędzi Data Mining z bazami danych i hurtowniami danych.

Data Mining to multidyscyplinarne pole, które powstało i rozwija się w oparciu o osiągnięcia stosowanych statystyk, rozpoznawania wzorców, metod sztucznej inteligencji, teorii baz danych itp. (Ryc. 6.19). Stąd mnogość metod i algorytmów implementowanych w różnych istniejących systemach Data Mining. [Duke V.A. www.inftech.webservis.ru/it/datamining/ar2.html]. Wiele z tych systemów łączy kilka podejść jednocześnie. Niemniej jednak z reguły w każdym systemie jest jakiś kluczowy element, na którym opiera się główna stawka.

Istnieje pięć standardowych typów wzorców identyfikowanych za pomocą metod Data Mining: asocjacja, sekwencja, klasyfikacja, grupowanie i prognozowanie.

Figa. 6.19 Obszary zastosowania do eksploracji danych

Skojarzenie ma miejsce, jeśli kilka wydarzeń jest ze sobą powiązanych. Na przykład badanie przeprowadzone w supermarkecie komputerowym może wykazać, że 55% osób, które kupiły komputer, bierze również drukarkę lub skaner, a jeśli jest zniżka na taki zestaw, dostają drukarkę w 80% przypadków. Dysponując informacjami o takim powiązaniu, menedżerowie mogą łatwo ocenić skuteczność rabatu.

Jeśli istnieje łańcuch zdarzeń związanych z czasem, mówią o sekwencji. Na przykład po zakupie domu w 45% przypadków nowy piec kupuje się w ciągu miesiąca, aw ciągu dwóch tygodni 60% nowych osadników nabywa lodówkę.

Za pomocą klasyfikacji identyfikowane są znaki, które charakteryzują grupę, do której należy ten lub inny obiekt. Odbywa się to poprzez analizę już sklasyfikowanych obiektów i sformułowanie pewnego zestawu reguł.

Grupowanie różni się od klasyfikacji tym, że same grupy nie są predefiniowane. Dzięki klastrowaniu narzędzia Data Mining niezależnie izolują różne jednorodne grupy danych.

DZWON

Są tacy, którzy czytają te wiadomości przed tobą.
Subskrybuj, aby otrzymywać świeże artykuły.
E-mail
Imię
Nazwisko
Jak chcesz przeczytać Dzwon
Bez spamu