LA CAMPANA

C'è chi ha letto questa notizia prima di te.
Iscriviti per ricevere gli ultimi articoli.
E-mail
Nome
Cognome
Come vuoi leggere The Bell
Niente spam

Inviare il tuo buon lavoro nella knowledge base è semplice. Utilizza il modulo sottostante

Studenti, dottorandi, giovani scienziati che utilizzano la base di conoscenza nei loro studi e nel loro lavoro te ne saranno molto grati.

Documenti simili

    Descrizione della funzionalità della tecnologia Data Mining come processo per il rilevamento di dati sconosciuti. Studio di sistemi di inferenza di regole associative e meccanismi di algoritmi di reti neurali. Descrizione degli algoritmi di clustering e dei campi di applicazione del Data Mining.

    test, aggiunto il 14/06/2013

    Nozioni di base per il clustering. Utilizzo del data mining come metodo per "scoprire la conoscenza nei database". Scelta degli algoritmi di clustering. Recupero dati dal database di archiviazione dell'officina remota. Raggruppamento di studenti e compiti.

    term paper, aggiunto il 07/10/2017

    Miglioramento della registrazione dei dati e delle tecnologie di archiviazione. Specificità dei requisiti moderni per l'elaborazione dei dati delle informazioni. Il concetto di pattern che riflettono frammenti di relazioni multidimensionali nei dati al centro della moderna tecnologia di Data Mining.

    test, aggiunto il 09/02/2010

    Data mining, storia evolutiva del data mining e knowledge discovery. Elementi tecnologici e metodi di data mining. Fasi della scoperta della conoscenza. Rilevamento di modifiche e deviazioni. Discipline correlate, recupero delle informazioni ed estrazione del testo.

    rapporto aggiunto il 16/06/2012

    Data mining come processo di supporto decisionale basato sulla ricerca di modelli nascosti (modelli di informazioni) nei dati. I suoi modelli e le fasi di implementazione, la storia dello sviluppo di questa tecnologia, la valutazione dei vantaggi e degli svantaggi, le opportunità.

    saggio, aggiunto il 17/12/2014

    Classificazione delle attività di DataMining. Creazione di report e totali. Caratteristiche di Data Miner in STATISTICA. Classificazione, clustering e problema di regressione. Strumenti di analisi STATISTICA Data Miner. L'essenza del problema è la ricerca di regole di associazione. Analisi predittiva di sopravvivenza.

    term paper, aggiunto il 19/05/2011

    Aree promettenti di analisi dei dati: analisi informazioni di testo, estrazione dei dati. Analisi di informazioni strutturate archiviate in database. Il processo di analisi dei documenti di testo. Caratteristiche dell'elaborazione preliminare dei dati.

    abstract, aggiunto il 13/02/2014

    Classificazione delle attività di data mining. Il compito di raggruppare e trovare regole di associazione. Determinazione della classe di un oggetto in base alle sue proprietà e caratteristiche. Trovare frequenti dipendenze tra oggetti o eventi. Elaborazione dati analitici operativi.

    test, aggiunto il 13/01/2013

Ministero dell'Istruzione e della Scienza della Federazione Russa

Istituto di istruzione di bilancio dello Stato federale di istruzione professionale superiore

"NATIONAL RESEARCH TOMSK POLYTECHNICAL UNIVERSITY"

Istituto di cibernetica

Direzione Informatica e ingegneria informatica

Dipartimento di VT

Test

nella disciplina informatica e ingegneria informatica

Argomento: metodi di data mining

introduzione

Estrazione dei dati. Concetti e definizioni di base

1 Fasi del processo di data mining

2 Componenti dei sistemi minerari

3 Metodi di data mining nel Data Mining

Metodi di data mining

1 Derivazione delle regole di associazione

2 algoritmi di rete neurale

3 Metodi Nearest Neighbor e k-Nearest Neighbor

4 Alberi decisionali

5 Algoritmi di clustering

6 Algoritmi genetici

Applicazioni

Produttori di strumenti di data mining

Critica dei metodi

Conclusione

Lista di referenze

introduzione

Il risultato dello sviluppo tecnologie informatiche è una colossale quantità di dati accumulati in formato elettronico, in rapida crescita. Allo stesso tempo, i dati, di regola, hanno una struttura eterogenea (testi, immagini, audio, video, documenti ipertestuali, database relazionali). I dati accumulati per un lungo periodo di tempo possono contenere modelli, tendenze e relazioni, che sono informazioni preziose per la pianificazione, la previsione, il processo decisionale e il controllo dei processi. Tuttavia, una persona è fisicamente incapace di analizzare efficacemente tali volumi di dati eterogenei. I metodi delle statistiche matematiche tradizionali hanno a lungo affermato di essere lo strumento principale per l'analisi dei dati. Tuttavia, non consentono di sintetizzare nuove ipotesi, ma possono essere utilizzati solo per confermare ipotesi formulate in precedenza e analisi esplorative “approssimative”, che costituiscono la base dell'elaborazione analitica online (OLAP). Spesso è la formulazione di un'ipotesi che risulta essere il compito più difficile nell'analisi per il successivo processo decisionale, poiché non tutti i modelli nei dati sono evidenti a prima vista. Pertanto, le tecnologie di data mining sono considerate uno degli argomenti più importanti e promettenti per la ricerca e l'applicazione nel settore della tecnologia dell'informazione. In questo caso, il data mining si riferisce al processo di determinazione di conoscenze nuove, corrette e potenzialmente utili sulla base di grandi quantità di dati. Pertanto, MIT Technology Review ha caratterizzato il data mining come una delle dieci tecnologie emergenti che cambieranno il mondo.

1. Data mining. Concetti e definizioni di base

Il Data Mining è il processo di rilevamento dell'interpretazione della conoscenza precedentemente sconosciuta, non banale, praticamente utile e accessibile nei dati "grezzi", necessaria per prendere decisioni in vari ambiti dell'attività umana.

L'essenza e lo scopo della tecnologia di Data Mining possono essere formulati come segue: è una tecnologia progettata per cercare grandi quantità di dati per schemi non ovvi, oggettivi e utili nella pratica.

I modelli non ovvi sono modelli che non possono essere rilevati dai metodi di elaborazione delle informazioni standard o dalla consulenza di esperti.

Le regolarità oggettive vanno intese come regolarità che corrispondono pienamente alla realtà, a differenza dell'opinione degli esperti, che è sempre soggettiva.

Questo concetto di analisi dei dati presuppone che:

§ i dati possono essere imprecisi, incompleti (contenere lacune), contraddittori, eterogenei, indiretti e allo stesso tempo avere volumi giganteschi; pertanto, la comprensione dei dati in applicazioni specifiche richiede un notevole sforzo intellettuale;

§ gli stessi algoritmi per l'analisi dei dati possono avere "elementi di intelligenza", in particolare, la capacità di apprendere da precedenti, cioè di trarre conclusioni generali basate su osservazioni private; lo sviluppo di tali algoritmi richiede anche un notevole sforzo intellettuale;

§ I processi di elaborazione dei dati grezzi in informazioni e delle informazioni in conoscenza non possono essere eseguiti manualmente e richiedono automazione.

La tecnologia Data Mining si basa sul concetto di modelli (modelli) che riflettono frammenti di relazioni multidimensionali nei dati. Questi modelli rappresentano modelli inerenti ai sottocampioni di dati che possono essere espressi in modo compatto in una forma leggibile dall'uomo.

La ricerca dei pattern viene eseguita con metodi che non sono limitati dal quadro di ipotesi a priori sulla struttura del campione e sul tipo di distribuzioni dei valori degli indicatori analizzati.

Una caratteristica importante del Data Mining è la non standard e la non ovvietà dei modelli ricercati. In altre parole, gli strumenti di Data Mining differiscono dagli strumenti di elaborazione dei dati statistici e dagli strumenti OLAP in quanto invece di controllare le interdipendenze assunte in anticipo dagli utenti, sono in grado di trovare tali interdipendenze da sole sulla base dei dati disponibili e di costruire ipotesi sulla loro natura. Esistono cinque tipi standard di pattern identificati dai metodi di Data Mining:

· Associazione: un'alta probabilità che gli eventi siano collegati tra loro. Un esempio di associazione sono gli articoli in un negozio che vengono spesso acquistati insieme;

· Sequenza - alta probabilità di una catena di eventi correlati nel tempo. Un esempio di sequenza è una situazione in cui, entro un certo periodo di tempo dopo l'acquisizione di un elemento, è altamente probabile che un altro venga acquisito;

· Classificazione - ci sono segni che caratterizzano il gruppo a cui appartiene questo o quell'evento o oggetto;

Il clustering è un modello simile alla classificazione e diverso da esso in quanto i gruppi stessi non sono specificati - vengono rilevati automaticamente durante l'elaborazione dei dati;

· Modelli temporanei - la presenza di modelli nella dinamica del comportamento di determinati dati. Un tipico esempio di un modello temporale sono le fluttuazioni stagionali della domanda di determinati beni o servizi.

1.1 Fasi del processo di data mining

Tradizionalmente, le seguenti fasi si distinguono nel processo di data mining:

1. Studio dell'area disciplinare, a seguito della quale vengono formulati gli obiettivi principali dell'analisi.

2. Raccolta dati.

Preelaborazione dei dati:

un. Pulizia dei dati: eliminazione delle incongruenze e del "rumore" casuale dai dati originali

b. Integrazione dei dati: combinazione di dati da più possibili origini in un unico magazzino. Trasformazione dei dati. In questa fase, i dati vengono convertiti in una forma adatta per l'analisi. Vengono comunemente utilizzati aggregazione dei dati, campionamento degli attributi, compressione dei dati e riduzione della dimensionalità.

4. Analisi dei dati. In questa fase, vengono applicati algoritmi di mining per estrarre i modelli.

5. Interpretazione dei modelli trovati. Questo passaggio può includere la visualizzazione dei pattern estratti, l'identificazione di pattern veramente utili in base a qualche funzione di utilità.

Uso di nuove conoscenze.

1.2 Componenti dei sistemi minerari

In genere, i sistemi di data mining hanno i seguenti componenti principali:

1. Database, data warehouse o altro repository di informazioni. Può essere uno o più database, data warehouse, fogli di calcolo, altri tipi di repository che possono essere ripuliti e integrati.

2. Server database o data warehouse. Il server specificato è responsabile dell'estrazione dei dati essenziali in base alla richiesta dell'utente.

Base di conoscenza. È la conoscenza del dominio che indica come cercare e valutare l'utilità dei modelli risultanti.

Servizio di knowledge mining. È parte integrante del sistema di data mining e contiene una serie di moduli funzionali per attività quali caratterizzazione, ricerca di associazioni, classificazione, analisi dei cluster e analisi della varianza.

Modulo di valutazione del pattern. Questo componente calcola le misure di interesse o l'utilità dei modelli.

Interfaccia grafica utente. Questo modulo è responsabile della comunicazione tra l'utente e il sistema di data mining, la visualizzazione dei modelli in varie forme.

1.3 Metodi di data mining nel Data Mining

La maggior parte dei metodi analitici utilizzati nella tecnologia di data mining sono algoritmi e metodi matematici ben noti. Una novità nella loro applicazione è la possibilità del loro utilizzo per risolvere alcuni problemi specifici, a causa delle capacità emergenti di hardware e software. Va notato che la maggior parte dei metodi di Data Mining sono stati sviluppati nell'ambito della teoria intelligenza artificiale... Consideriamo i metodi più utilizzati:

Conclusione delle regole dell'associazione.

2. Algoritmi di rete neurale, la cui idea si basa su un'analogia con il funzionamento del tessuto nervoso ed è che i parametri iniziali sono considerati segnali che vengono trasformati in base alle connessioni esistenti tra "neuroni", e la risposta dell'intera rete è considerata come la risposta risultante dall'analisi sui dati originali.

Selezione di un analogo stretto dei dati iniziali dai dati storici esistenti. Chiamato anche il metodo "vicino più vicino".

Gli alberi decisionali sono una struttura gerarchica basata su una serie di domande che richiedono una risposta "Sì" o "No".

I modelli di cluster vengono utilizzati per raggruppare eventi simili in gruppi in base ai valori simili di diversi campi in un set di dati.

Nel prossimo capitolo descriveremo i metodi sopra in maggior dettaglio.

2. Metodi di data mining

2.1 Inferenza delle regole di associazione

Le regole di associazione sono regole della forma "se ... allora ...". La ricerca di tali regole in un set di dati rivela relazioni nascoste in dati apparentemente non correlati. Uno degli esempi più frequentemente citati della ricerca di regole di associazione è il problema di trovare relazioni stabili nel carrello. La sfida consiste nell'identificare quali articoli vengono acquistati dai clienti insieme in modo che i professionisti del marketing possano posizionare correttamente tali articoli nel negozio per aumentare le vendite.

Le regole di associazione sono definite come istruzioni della forma (X1, X2,…, Xn) -\u003e Y, dove si presume che Y possa essere presente in una transazione, a condizione che X1, X2,…, Xn siano presenti nella stessa transazione. Va notato che la parola "può" implica che la regola non è un'identità, ma vale solo con una certa probabilità. Inoltre, Y può essere un insieme di elementi, non solo un elemento. La probabilità di trovare Y in una transazione in cui sono presenti elementi X1, X2, ..., Xn è chiamata confidenza. La percentuale di transazioni che contengono una regola del numero totale di transazioni è chiamata supporto. Il livello di fiducia che una regola deve superare è chiamato interesse.

Esistono diversi tipi di regole di associazione. Nella loro forma più semplice, le regole dell'associazione riportano solo la presenza o l'assenza di un'associazione. Tali regole sono chiamate regole di associazione booleana. Un esempio di tale regola è: "I clienti che acquistano yogurt acquistano anche burro magro".

Le regole che riuniscono più regole di associazione sono chiamate Regole di associazione multilivello o generalizzate. Quando si costruiscono tali regole, gli elementi vengono solitamente raggruppati in base a una gerarchia e le ricerche vengono condotte al livello concettuale più elevato. Ad esempio, "i clienti che acquistano il latte comprano anche il pane". In questo esempio, il latte e il pane contengono una gerarchia di diversi tipi e marchi, ma la ricerca in fondo non troverà regole interessanti.

Un tipo più complesso di regola sono le regole di associazione quantitativa. Questo tipo di regola viene cercato utilizzando attributi quantitativi (ad esempio, prezzo) o categoriali (ad esempio, sesso) ed è definito come ( , ,…,} -> ... Ad esempio, "i clienti di età compresa tra i 30 ei 35 anni e con un reddito annuo di oltre 75.000 acquistano auto per un valore superiore a 20.000".

I tipi di regole precedenti non risolvono il fatto che le transazioni dipendono intrinsecamente dal tempo. Ad esempio, una ricerca prima che un prodotto fosse messo in vendita o dopo che è scomparso dal mercato influirebbe negativamente sulla soglia di supporto. Con questo in mente, è stato introdotto il concetto di durata di un attributo negli algoritmi di ricerca delle regole di associazione temporale.

Il problema di trovare regole di associazione può essere generalmente scomposto in due parti: ricerca di insiemi di elementi ricorrenti e generazione di regole basate su insiemi che si verificano frequentemente. Per la maggior parte, le ricerche precedenti hanno seguito queste linee e le hanno ampliate in varie direzioni.

Dall'avvento dell'algoritmo Apriori, questo algoritmo è stato il più comunemente utilizzato nel primo passaggio. Molti miglioramenti, ad esempio, in termini di velocità e scalabilità, mirano a migliorare l'algoritmo Apriori, a correggere la sua proprietà errata di generare troppi candidati per i set di elementi più comuni. Apriori genera insiemi di elementi utilizzando solo gli insiemi di elementi di grandi dimensioni trovati nel passaggio precedente, senza riesaminare le transazioni. L'algoritmo AprioriTid modificato migliora Apriori utilizzando il database solo al primo passaggio. I calcoli nei passaggi successivi utilizzano solo i dati generati nel primo passaggio e che sono molto più piccoli del database originale. Ciò porta a enormi guadagni di produttività. Un'ulteriore versione migliorata dell'algoritmo, denominata AprioriHybrid, può essere ottenuta utilizzando Apriori nei primi passaggi, quindi, nei passaggi successivi, quando i k-esimi set candidati possono essere già completamente allocati nella memoria del computer, passare ad AprioriTid.

Ulteriori sforzi per migliorare l'algoritmo Apriori sono legati alla parallelizzazione dell'algoritmo (Count Distribution, Data Distribution, Candidate Distribution, ecc.), Al suo ridimensionamento (Intelligent Data Distribution, Hybrid Distribution), all'introduzione di nuove strutture di dati come alberi di elementi ricorrenti (FP-growth ).

Il secondo passaggio è per lo più autentico e interessante. Nuove modifiche aggiungono la dimensione, la qualità e il supporto temporale sopra descritti alle regole delle regole booleane tradizionali. Un algoritmo evolutivo viene spesso utilizzato per trovare le regole.

2.2 Algoritmi di rete neurale

Le reti neurali artificiali sono apparse come risultato dell'applicazione di un apparato matematico allo studio del funzionamento del sistema nervoso umano al fine di riprodurlo. Vale a dire: la capacità del sistema nervoso di apprendere e correggere gli errori, che dovrebbe consentire di simulare, anche se in modo piuttosto rozzo, il lavoro del cervello umano. La parte strutturale e funzionale principale della rete neurale è il neurone formale, mostrato in Fig. 1, dove x0, x1, ..., xn sono i componenti del vettore dei segnali di ingresso, w0, w1, ..., wn sono i valori dei pesi dei segnali di ingresso del neurone e y è il segnale di uscita del neurone.

Figura: 1. Neurone formale: sinapsi (1), sommatore (2), trasduttore (3).

Un neurone formale è costituito da 3 tipi di elementi: sinapsi, sommatore e trasduttore. Una sinapsi caratterizza la forza della connessione tra due neuroni.

Il sommatore aggiunge i segnali di ingresso pre-moltiplicati per i pesi corrispondenti. Il convertitore implementa la funzione di un argomento: l'output del sommatore. Questa funzione è chiamata funzione di attivazione o funzione di trasferimento del neurone.

I neuroni formali descritti sopra possono essere combinati in modo tale che i segnali di uscita di alcuni neuroni siano inviati ad altri. L'insieme risultante di neuroni interconnessi è chiamato reti neurali artificiali (ANN) o, in breve, reti neurali.

Esistono tre tipi generali di neuroni, a seconda della loro posizione nella rete neurale:

Neuroni di input, a cui vengono inviati i segnali di input. Tali neuroni neuroni hanno, di regola, un ingresso con un peso unitario, non vi è alcun bias e il valore dell'uscita del neurone è uguale al segnale di ingresso;

Neuroni di output (nodi di output), i cui valori di output rappresentano i segnali di output risultanti della rete neurale;

Neuroni nascosti, che non hanno connessioni dirette con i segnali di ingresso, mentre i valori dei segnali di uscita dei neuroni nascosti non sono i segnali di uscita della RNA.

Secondo la struttura delle connessioni interneuronali, si distinguono due classi di ANN:

ANN di propagazione diretta, in cui il segnale si propaga solo dai neuroni di input ai neuroni di output.

ANN ricorrenti - ANN con feedback. In tali ANN, i segnali possono essere trasmessi tra qualsiasi neurone, indipendentemente dalla loro posizione nella ANN.

Esistono due approcci generali per insegnare ANN:

Imparare con un insegnante.

Imparare senza un insegnante.

L'apprendimento supervisionato implica l'utilizzo di una serie predefinita di esempi di insegnamento. Ogni esempio contiene un vettore di segnali di ingresso e un vettore corrispondente di segnali di uscita di riferimento, che dipendono dall'attività in corso. Questo set è chiamato training set o training set. L'addestramento della rete neurale è finalizzato a una tale variazione dei pesi delle connessioni ANN, in cui il valore dei segnali di uscita ANN differisce il meno possibile dai valori richiesti dei segnali di uscita per un dato vettore di segnali di ingresso.

Nell'apprendimento non supervisionato, i pesi delle connessioni vengono regolati come risultato della competizione tra i neuroni o tenendo conto della correlazione dei segnali di uscita dei neuroni tra i quali esiste una connessione. In caso di apprendimento senza supervisione, il campione di formazione non viene utilizzato.

Le reti neurali vengono utilizzate per risolvere un'ampia gamma di attività, come la pianificazione dei carichi utili per le navette spaziali e la previsione dei tassi di cambio. Tuttavia, non vengono spesso utilizzati nei sistemi di data mining a causa della complessità del modello (la conoscenza registrata come i pesi di diverse centinaia di connessioni interneuronali è completamente al di là dell'analisi e dell'interpretazione da parte dell'uomo) e del lungo tempo di addestramento su un ampio campione di addestramento. D'altra parte, le reti neurali presentano vantaggi per l'uso nelle attività di analisi dei dati come la robustezza ai dati rumorosi e l'alta precisione.

2.3 Metodi Nearest Neighbor e k-Nearest Neighbor

L'algoritmo del vicino più vicino e l'algoritmo del vicino più vicino k (KNN) si basano sulla somiglianza delle caratteristiche. L'algoritmo del vicino più vicino seleziona un oggetto tra tutti gli oggetti conosciuti che è il più vicino possibile (utilizzando la metrica della distanza tra gli oggetti, ad esempio, Euclideo) a un nuovo oggetto precedentemente sconosciuto. Il problema principale con il metodo del vicino più vicino è la sua sensibilità ai valori anomali nei dati di addestramento.

Il problema descritto è evitato dall'algoritmo KNN, che distingue tra tutte le osservazioni già vicine k-più vicine simili a un nuovo oggetto. In base alle classi dei vicini più vicini, viene presa una decisione in merito al nuovo oggetto. Un compito importante di questo algoritmo è selezionare il coefficiente k, il numero di record che saranno considerati simili. Una modifica dell'algoritmo, in cui il contributo del vicino è proporzionale alla distanza dal nuovo oggetto (metodo dei vicini più vicini ponderati k), consente di ottenere una maggiore precisione di classificazione. Il metodo k vicini più vicini consente inoltre di stimare l'accuratezza della previsione. Ad esempio, tutti i k vicini più vicini hanno la stessa classe, quindi la probabilità che l'oggetto selezionato abbia la stessa classe è molto alta.

Tra le caratteristiche dell'algoritmo, vale la pena notare la resistenza a valori anomali anomali, poiché la probabilità che tale record cada nel numero di vicini k-più vicini è piccola. Se ciò è accaduto, è probabile che anche l'impatto sul voto (soprattutto ponderato) (per k\u003e 2) sia insignificante e, pertanto, anche l'impatto sul risultato della classificazione sarà piccolo. Inoltre, i vantaggi sono la semplice implementazione, la facilità di interpretazione del risultato dell'algoritmo, la possibilità di modificare l'algoritmo utilizzando le funzioni e le metriche di combinazione più appropriate, che consente di regolare l'algoritmo per un'attività specifica. L'algoritmo KNN presenta anche una serie di svantaggi. Innanzitutto, il set di dati utilizzato per l'algoritmo deve essere rappresentativo. In secondo luogo, il modello non può essere separato dai dati: tutti gli esempi devono essere utilizzati per classificare un nuovo esempio. Questa caratteristica limita fortemente l'uso dell'algoritmo.

2.4 Alberi decisionali

Con il termine "alberi decisionali" si intende una famiglia di algoritmi basati sulla rappresentazione di regole di classificazione in una struttura gerarchica e sequenziale. Questa è la classe di algoritmi più popolare per la risoluzione dei problemi di data mining.

Una famiglia di algoritmi per la costruzione di alberi decisionali rende possibile prevedere il valore di un parametro per un dato caso sulla base di una grande quantità di dati su altri casi simili. Di solito, gli algoritmi di questa famiglia vengono utilizzati per risolvere problemi che consentono di dividere tutti i dati di origine in diversi gruppi discreti.

Quando gli algoritmi per la costruzione di alberi decisionali vengono applicati a un set di dati di input, il risultato viene visualizzato come un albero. Tali algoritmi consentono diversi livelli di tale divisione, dividendo i gruppi risultanti (rami degli alberi) in gruppi più piccoli in base ad altre caratteristiche. La divisione continua fino a quando i valori che dovrebbero essere previsti non diventano gli stessi (o, nel caso di un valore continuo del parametro previsto, si chiudono) per tutti i gruppi ottenuti (foglie dell'albero). Sono questi valori che vengono utilizzati per fare previsioni basate su questo modello.

Il funzionamento degli algoritmi per la costruzione di alberi decisionali si basa sull'applicazione di metodi di regressione e analisi di correlazione. Uno degli algoritmi più popolari in questa famiglia è CART (Classification and Regression Trees), basato sulla divisione dei dati in un ramo di albero in due rami figli; in questo caso, l'ulteriore divisione di un particolare ramo dipende da quanto dei dati iniziali è descritto da questo ramo. Diversi altri algoritmi simili consentono di dividere un ramo in più rami figli. In questo caso la divisione viene effettuata sulla base del coefficiente di correlazione più elevato per il ramo dati descritto tra il parametro secondo il quale avviene la divisione e il parametro che deve essere previsto successivamente.

La popolarità dell'approccio è associata a chiarezza e chiarezza. Ma gli alberi decisionali sono fondamentalmente incapaci di trovare le regole "migliori" (più complete e accurate) nei dati. Implementano il principio ingenuo della visualizzazione sequenziale delle caratteristiche e trovano effettivamente parti di schemi reali, creando solo l'illusione di una conclusione logica.

2.5 Algoritmi di clustering

Il clustering è il compito di suddividere un insieme di oggetti in gruppi chiamati cluster. La principale differenza tra clustering e classificazione è che l'elenco dei gruppi non è chiaramente specificato ed è determinato durante il funzionamento dell'algoritmo.

L'applicazione della cluster analysis in generale si riduce alle seguenti fasi:

· Selezione di un campione di oggetti per il clustering;

· Determinazione dell'insieme di variabili con cui verranno valutati gli oggetti nel campione. Se necessario, normalizzare i valori delle variabili;

· Calcolo dei valori di misura di similarità tra oggetti;

· Applicazione del metodo di analisi dei cluster per creare gruppi di oggetti simili (cluster);

· Presentazione dei risultati dell'analisi.

Dopo aver ricevuto e analizzato i risultati, è possibile regolare la metrica selezionata e il metodo di raggruppamento fino a ottenere il risultato ottimale.

I gruppi gerarchici e piatti si distinguono tra gli algoritmi di clustering. Gli algoritmi gerarchici (chiamati anche algoritmi di tassonomia) creano più di un partizionamento di un campione in cluster disgiunti, ma un sistema di partizioni annidate. Pertanto, l'output dell'algoritmo è un albero di cluster, la cui radice è l'intero campione e le foglie sono i cluster più piccoli. Gli algoritmi flat creano una partizione di oggetti in cluster disgiunti.

Un'altra classificazione degli algoritmi di clustering è in algoritmi chiari e fuzzy. Algoritmi chiari (o non sovrapposti) assegnano un numero di cluster a ciascun oggetto campione, ovvero ogni oggetto appartiene a un solo cluster. Gli algoritmi fuzzy (o sovrapposti) associano ogni oggetto a un insieme di valori reali che mostrano il grado di relazione dell'oggetto con i cluster. Pertanto, ogni oggetto appartiene a ciascun cluster con una certa probabilità.

Tra gli algoritmi di clustering gerarchico, ci sono due tipi principali: algoritmi bottom-up e top-down. Gli algoritmi top-down funzionano in base al principio top-down: all'inizio, tutti gli oggetti vengono collocati in un cluster, che viene quindi suddiviso in cluster sempre più piccoli. Gli algoritmi bottom-up sono più comuni, che all'inizio del lavoro collocano ogni oggetto in un cluster separato, quindi combinano i cluster in cluster sempre più grandi finché tutti gli oggetti nel campione non sono contenuti in un cluster. Pertanto, viene costruito un sistema di partizioni annidate. I risultati di tali algoritmi vengono solitamente presentati come un albero.

Lo svantaggio degli algoritmi gerarchici è il sistema di partizioni complete, che può essere superfluo nel contesto del problema da risolvere.

Considera ora algoritmi piatti. I più semplici di questa classe sono gli algoritmi a legge quadrata. Il problema del clustering per questi algoritmi può essere considerato come la costruzione di un partizionamento ottimale degli oggetti in gruppi. In questo caso, l'ottimalità può essere definita come il requisito per ridurre al minimo l'errore quadratico medio della partizione:

,

dove c j - "centro di massa" del cluster j (punto con valori medi di caratteristiche per questo cluster).

L'algoritmo più comune in questa categoria è il metodo k-means. Questo algoritmo crea un determinato numero di cluster situati il \u200b\u200bpiù lontano possibile. Il funzionamento dell'algoritmo è suddiviso in più fasi:

Scegli a caso k punti, che sono i "centri di massa" iniziali dei cluster.

2. Assegnare ogni oggetto all'ammasso con il "centro di massa" più vicino.

Se il criterio per l'arresto dell'algoritmo non è soddisfatto, torna al punto 2.

Come criterio per arrestare il funzionamento dell'algoritmo, viene solitamente scelta la variazione minima dell'errore quadratico medio. È anche possibile interrompere il funzionamento dell'algoritmo se al passaggio 2 non ci sono stati oggetti spostati da cluster a cluster. Gli svantaggi di questo algoritmo includono la necessità di specificare il numero di cluster per il partizionamento.

L'algoritmo di clustering fuzzy più popolare è l'algoritmo c-means. È una modifica del metodo k-means. Passaggi dell'algoritmo:

1. Scegli una partizione fuzzy iniziale n oggetti su k cluster scegliendo la matrice di appartenenza U taglia n x k.

2. Utilizzando la matrice U, trova il valore del criterio di errore fuzzy:

,

dove c k - "centro di massa" di un ammasso sfocato k:

3. Raggruppare gli oggetti per diminuire questo valore del criterio di errore fuzzy.

4. Tornare al passaggio 2 finché la matrice non cambia U non diventerà insignificante.

Questo algoritmo potrebbe non funzionare se il numero di cluster non è noto in anticipo o è necessario assegnare in modo univoco ogni oggetto a un cluster.

Il prossimo gruppo di algoritmi sono algoritmi basati sulla teoria dei grafi. L'essenza di tali algoritmi è che un campione di oggetti è rappresentato come un grafico G \u003d (V, E), i cui vertici corrispondono agli oggetti, e i bordi hanno un peso pari alla "distanza" tra gli oggetti. I vantaggi degli algoritmi di clustering dei grafi sono la chiarezza, la relativa facilità di implementazione e la possibilità di apportare vari miglioramenti in base a considerazioni geometriche. Gli algoritmi principali sono l'algoritmo per l'estrazione dei componenti connessi, l'algoritmo per la costruzione dello spanning tree minimo e l'algoritmo di clustering strato per strato.

Per selezionare un parametro R di solito viene costruito un istogramma di distribuzioni di distanze a coppie. In problemi con una struttura di dati a cluster ben pronunciata, l'istogramma avrà due picchi - uno corrisponde alle distanze intra-cluster, il secondo - a distanze inter-cluster. Parametro R è selezionato dalla zona minima tra questi picchi. Allo stesso tempo, è piuttosto difficile controllare il numero di cluster utilizzando la soglia di distanza.

L'algoritmo dello spanning tree minimo costruisce prima uno spanning tree minimo sul grafico e quindi rimuove in sequenza i bordi con il peso più elevato. L'algoritmo di clustering strato per strato si basa sulla selezione dei componenti collegati del grafo a un certo livello di distanza tra gli oggetti (vertici). Il livello di distanza è impostato dalla soglia di distanza c... Ad esempio, se la distanza tra gli oggetti, allora.

L'algoritmo di clustering strato per strato forma una sequenza di sottografi del grafico G, che riflettono le relazioni gerarchiche tra i cluster:

,

dove G t \u003d (V, E t ) - grafico a livello a partire dal t, ,

a partire dal t - t-esima soglia di distanza, m - numero di livelli gerarchici,
G 0 \u003d (V, o), o è l'insieme vuoto di bordi del grafico ottenuto per t 0 = 1,
G m \u003d G, cioè un grafico di oggetti senza restrizioni sulla distanza (la lunghezza dei bordi del grafico), da allora t m \u003d 1.

Modificando le soglie di distanza ( a partire dal 0 , …, a partire dal m), dove 0 \u003d a partire dal 0 < a partire dal 1 < …< a partire dal m \u003d 1, è possibile controllare la profondità della gerarchia dei cluster risultanti. Pertanto, l'algoritmo di clustering layer-by-layer è in grado di creare sia una partizione dati piatta che una gerarchica.

Il clustering consente di raggiungere i seguenti obiettivi:

· Migliora la comprensione dei dati identificando i gruppi strutturali. La suddivisione del campione in gruppi di oggetti simili consente di semplificare ulteriormente l'elaborazione dei dati e il processo decisionale applicando il proprio metodo di analisi a ciascun cluster;

· Consente l'archiviazione compatta dei dati. Per fare ciò, invece di memorizzare l'intero campione, puoi lasciare un'osservazione tipica da ogni cluster;

· Rilevamento di nuovi oggetti atipici che non sono stati inclusi in alcun cluster.

In genere, il clustering viene utilizzato come ausilio per l'analisi dei dati.

2.6 Algoritmi genetici

Gli algoritmi genetici sono tra i metodi di ottimizzazione universali che consentono di risolvere problemi di vario tipo (combinatori, problemi generali con e senza restrizioni) e di vari gradi di complessità. In questo caso, gli algoritmi genetici sono caratterizzati dalla possibilità di ricerca sia a criterio singolo che a criterio multiplo in un ampio spazio, il cui paesaggio non è fluido.

Questo gruppo di metodi utilizza un processo iterativo di evoluzione della sequenza di generazioni di modelli, comprese le operazioni di selezione, mutazione e incrocio. All'inizio dell'algoritmo, la popolazione è formata in modo casuale. Per valutare la qualità delle soluzioni codificate, viene utilizzata la funzione fitness, necessaria per calcolare l'idoneità di ogni individuo. In base ai risultati della valutazione degli individui, i più adattati vengono selezionati per l'attraversamento. Come risultato dell'incrocio degli individui selezionati utilizzando l'operatore di crossing-over genetico, viene creata la prole, la cui informazione genetica si forma come risultato dello scambio di informazioni cromosomiche tra individui genitori. La prole creata forma una nuova popolazione e parte della prole muta, il che si esprime in un cambiamento casuale nei loro genotipi. La fase che include la sequenza "Stima della popolazione" - "Selezione" - "Incrocio" - "Mutazione" è chiamata generazione. L'evoluzione della popolazione consiste in una sequenza di tali generazioni.

Si distinguono i seguenti algoritmi per la selezione degli individui per l'attraversamento:

· Panmixia. Entrambi gli individui che compongono la coppia genitoriale sono selezionati casualmente dall'intera popolazione. Ogni individuo può diventare un membro di più coppie. Questo approccio è universale, ma l'efficienza dell'algoritmo diminuisce con l'aumentare delle dimensioni della popolazione.

· Selezione. Gli individui con una forma fisica almeno media possono diventare genitori. Questo approccio fornisce una convergenza più rapida dell'algoritmo.

· Inbreeding. Il metodo si basa sulla formazione di una coppia basata su una stretta relazione. Qui la parentela è intesa come la distanza tra i membri della popolazione sia in termini di distanza geometrica degli individui nello spazio dei parametri sia in termini di distanza di Heming tra i genotipi. Pertanto, viene fatta una distinzione tra consanguineità genotipica e fenotipica. Il primo membro della coppia per l'incrocio viene scelto a caso, e il secondo è più probabile che sia l'individuo il più vicino possibile ad esso. La consanguineità può essere caratterizzata dalla proprietà della concentrazione della ricerca nei nodi locali, che di fatto porta alla divisione della popolazione in gruppi locali separati attorno ad aree del paesaggio sospette di estremi.

· Outbreeding. Formazione di una coppia basata su parentele lontane, per gli individui più lontani. L'outbreeding ha lo scopo di impedire la convergenza dell'algoritmo alle soluzioni già trovate, costringendo l'algoritmo a cercare nuove aree inesplorate.

Algoritmi per formare una nuova popolazione:

· Selezione con spostamento. Di tutti gli individui con gli stessi genotipi, la preferenza è data a quelli la cui forma fisica è più alta. Pertanto, vengono raggiunti due obiettivi: le migliori soluzioni trovate con diversi set cromosomici non vengono perse e viene mantenuta costantemente una sufficiente diversità genetica nella popolazione. Lo sfollamento forma una nuova popolazione di individui distanti, invece di individui raggruppati attorno alla soluzione attuale trovata. Questo metodo viene utilizzato per attività multi-estreme.

· Selezione Elite. I metodi di selezione d'élite garantiscono la sopravvivenza dei membri migliori della popolazione. Allo stesso tempo, alcuni dei migliori individui passano alla generazione successiva senza alcun cambiamento. La rapida convergenza offerta dalla selezione d'élite può essere compensata da un metodo di selezione parentale appropriato. In questo caso, viene spesso utilizzato l'outbreeding. È questa combinazione di "outbreeding - selezione d'élite" che è una delle più efficaci.

· Selezione del torneo. La selezione del torneo implementa n tornei per selezionare n individui. Ogni torneo è costruito su un campione di k elementi della popolazione e scegliendo il miglior individuo tra loro. La selezione di tornei più comune con k \u003d 2.

Una delle applicazioni più popolari degli algoritmi genetici nel campo del Data Mining è la ricerca del modello più ottimale (ricerca di un algoritmo che corrisponda alle specifiche di una particolare area). Gli algoritmi genetici vengono utilizzati principalmente per ottimizzare la topologia e i pesi della rete neurale. Tuttavia, possono anche essere utilizzati come strumenti indipendenti.

3. Campi di applicazione

La tecnologia Data Mining ha una gamma di applicazioni davvero ampia, essendo, infatti, un insieme di strumenti universali per analizzare dati di qualsiasi tipo.

Marketing

Una delle prime aree in cui sono state applicate le tecnologie di data mining è stata il marketing. L'attività che ha avviato lo sviluppo dei metodi di Data Mining è chiamata analisi del carrello.

Questo compito è identificare le merci che gli acquirenti cercano di acquistare insieme. La conoscenza del carrello è necessaria per le campagne pubblicitarie, la formazione di raccomandazioni personali ai clienti, lo sviluppo di una strategia per la creazione di scorte di merci e le modalità del loro layout nelle aree di vendita.

Anche nel marketing, tali compiti vengono risolti determinando il pubblico di destinazione di un particolare prodotto per la sua promozione di maggior successo; uno studio dei modelli temporali che aiuta le aziende a prendere decisioni di inventario; creazione di modelli predittivi, che consente alle imprese di riconoscere la natura delle esigenze di varie categorie di clienti con determinati comportamenti; prevedere la fidelizzazione del cliente, che consente di identificare in anticipo il momento dell'uscita del cliente durante l'analisi del suo comportamento e, eventualmente, prevenire la perdita di un cliente prezioso.

Industria

Una delle direzioni importanti in quest'area è il monitoraggio e il controllo di qualità, dove utilizzando strumenti di analisi è possibile prevedere guasti alle apparecchiature, comparsa di malfunzionamenti e pianificare i lavori di riparazione. Prevedere la popolarità di alcune caratteristiche e sapere quali caratteristiche sono solitamente ordinate insieme aiuta ad ottimizzare la produzione, orientandola alle reali esigenze dei consumatori.

Medicinale

In medicina, anche l'analisi dei dati viene utilizzata con successo. Un esempio di compiti è l'analisi dei risultati degli esami, la diagnosi, il confronto dell'efficacia dei metodi di trattamento e dei farmaci, l'analisi delle malattie e la loro distribuzione, l'identificazione degli effetti collaterali. Le tecnologie di data mining come regole di associazione e modelli sequenziali sono state utilizzate con successo per identificare i collegamenti tra l'assunzione di farmaci e gli effetti collaterali.

Genetica molecolare e ingegneria genetica

Forse il compito più acuto e allo stesso tempo chiaro di rilevare modelli nei dati sperimentali è nella genetica molecolare e nell'ingegneria genetica. Qui è formulato come una definizione di marcatori, che sono intesi come codici genetici che controllano alcune caratteristiche fenotipiche di un organismo vivente. Tali codici possono contenere centinaia, migliaia o più di elementi correlati. Il risultato dell'analisi analitica dei dati è anche il rapporto scoperto dagli scienziati genetici tra i cambiamenti nella sequenza del DNA umano e il rischio di sviluppare varie malattie.

Chimica applicata

I metodi di data mining vengono utilizzati anche nel campo della chimica applicata. Qui sorge spesso la domanda sulla delucidazione delle caratteristiche della struttura chimica di alcuni composti che determinano le loro proprietà. Questo problema è particolarmente rilevante nell'analisi di composti chimici complessi, la cui descrizione include centinaia e migliaia di elementi strutturali e dei loro legami.

Lotta alla criminalità

Gli strumenti di data mining sono stati utilizzati relativamente di recente per garantire la sicurezza, tuttavia, sono già stati ottenuti risultati pratici che confermano l'efficacia del data mining in questo settore. Scienziati svizzeri hanno sviluppato un sistema per analizzare l'attività di protesta al fine di prevedere incidenti futuri e un sistema per monitorare le minacce informatiche emergenti e le azioni degli hacker nel mondo. Quest'ultimo sistema consente di prevedere le minacce informatiche e altri rischi per la sicurezza delle informazioni. Inoltre, i metodi di data mining vengono utilizzati con successo per rilevare le frodi con carte di credito. Analizzando le transazioni passate che sono state successivamente ritenute fraudolente, la banca individua alcuni stereotipi di tale frode.

Altre applicazioni

· Analisi del rischio. Ad esempio, identificando combinazioni di fattori associati a sinistri pagati, gli assicuratori possono ridurre le loro perdite di responsabilità. C'è un caso noto in cui una grande compagnia di assicurazioni negli Stati Uniti ha scoperto che gli importi pagati sulle dichiarazioni di persone sposate erano il doppio dell'importo pagato sulle dichiarazioni di persone single. L'azienda ha risposto a questa nuova conoscenza rivedendo la sua politica generale di sconti per i clienti familiari.

· Meteorologia. Previsioni meteorologiche utilizzando metodi di rete neurale, in particolare vengono utilizzate mappe di Kohonen auto-organizzate.

· Politica del personale. Gli strumenti di analisi aiutano i servizi HR a selezionare i candidati di maggior successo in base all'analisi dei dati del loro curriculum, per simulare le caratteristiche dei dipendenti ideali per una particolare posizione.

4. Produttori di strumenti di data mining

Gli strumenti di data mining vengono tradizionalmente indicati come prodotti software costosi. Pertanto, fino a tempi recenti, i principali consumatori di questa tecnologia erano banche, società finanziarie e assicurative, grandi imprese commerciali e le attività principali che richiedevano l'utilizzo del Data Mining erano la valutazione dei rischi di credito e assicurativi e lo sviluppo di politiche di marketing, piani tariffari e altri principi di collaborazione con i clienti. Negli ultimi anni, la situazione ha subito alcuni cambiamenti: sul mercato del software sono comparsi strumenti di Data Mining relativamente economici e persino sistemi di distribuzione gratuiti, che hanno reso questa tecnologia disponibile per le piccole e medie imprese.

Tra gli strumenti a pagamento e i sistemi di analisi dei dati, i leader sono SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) e StatSoft (STATISTICA Data Miner). Molto conosciute sono le soluzioni di Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) e (Oracle) Oracle Data Mining.

Anche la scelta del software libero è varia. Esistono sia strumenti di analisi universali, come JHepWork, KNIME, Orange, RapidMiner, sia strumenti specializzati, ad esempio Carrot2 - un framework per raggruppare dati di testo e risultati di ricerca, Chemicalize.org - una soluzione nel campo della chimica applicata, NLTK (Natural Language Toolkit) strumento di elaborazione del linguaggio naturale.

5. Critica dei metodi

I risultati del Data Mining dipendono in gran parte dal livello di preparazione dei dati e non dalle "capacità miracolose" di alcuni algoritmi o set di algoritmi. Circa il 75% del lavoro sul Data Mining consiste nella raccolta dei dati, che viene eseguita anche prima dell'utilizzo degli strumenti di analisi. L'uso analfabeta degli strumenti porterà a uno spreco del potenziale dell'azienda e, a volte, a milioni di dollari.

Secondo Herb Edelstein, un esperto di fama mondiale in Data Mining, Data Warehousing e CRM: “Una recente ricerca di Two Crows ha dimostrato che il Data Mining è ancora nelle sue fasi iniziali. Molte organizzazioni sono interessate a questa tecnologia, ma solo poche stanno implementando attivamente tali progetti. Un altro punto importante è stato chiarito: il processo di implementazione del Data Mining nella pratica risulta essere più complicato del previsto I team sono stati portati via dal mito che gli strumenti di Data Mining siano facili da usare. Si presume che sia sufficiente eseguire uno strumento del genere su un database di terabyte e appariranno immediatamente informazioni utili. In effetti, un progetto di Data Mining di successo richiede la comprensione dell'essenza dell'attività, la conoscenza dei dati e degli strumenti, nonché il processo di analisi dei dati ". Pertanto, prima di utilizzare la tecnologia Data Mining, è necessario analizzare a fondo le limitazioni imposte dai metodi e le criticità ad essa associate, nonché valutare con sobrietà le capacità della tecnologia. I problemi critici includono quanto segue:

1. La tecnologia non può fornire risposte a domande che non sono state poste. Non può sostituire l'analista, ma gli fornisce solo un potente strumento per facilitare e migliorare il suo lavoro.

2. La complessità dello sviluppo e del funzionamento dell'applicazione Data Mining.

Poiché questa tecnologia è un campo multidisciplinare, per sviluppare un'applicazione che includa il Data Mining, è necessario coinvolgere specialisti di diversi settori, oltre a garantire la loro interazione di alta qualità.

3. Qualifiche dell'utente.

Diversi strumenti di data mining hanno diversi gradi di facilità d'uso e richiedono determinate qualifiche utente. Pertanto, il software deve corrispondere al livello di formazione dell'utente. L'utilizzo del Data Mining dovrebbe essere indissolubilmente legato al miglioramento delle qualifiche dell'utente. Tuttavia, al momento sono pochi gli specialisti del data mining esperti nei processi aziendali.

4. L'estrazione di informazioni utili è impossibile senza una buona comprensione dell'essenza dei dati.

È necessaria un'attenta selezione del modello e interpretazione delle dipendenze o dei modelli trovati. Pertanto, lavorare con tali strumenti richiede una stretta collaborazione tra l'esperto in materia e lo specialista degli strumenti di data mining. I modelli permanenti devono essere integrati in modo intelligente nei processi aziendali per essere in grado di valutare e aggiornare i modelli. Recentemente, i sistemi di data mining sono stati forniti come parte della tecnologia del data warehouse.

5. Complessità della preparazione dei dati.

Un'analisi riuscita richiede una buona preelaborazione dei dati. Secondo gli analisti e gli utenti del database, il processo di pre-elaborazione può richiedere fino all'80% dell'intero processo di data mining.

Pertanto, affinché la tecnologia funzioni da sola, ci vorrà molto tempo e impegno, che viene speso per l'analisi preliminare dei dati, la selezione del modello e la sua correzione.

6. Una grande percentuale di risultati falsi, imprecisi o inutili.

Con l'aiuto delle tecnologie di data mining, è possibile trovare informazioni davvero molto preziose che possono offrire un vantaggio significativo nell'ulteriore pianificazione, gestione e processo decisionale. Tuttavia, i risultati ottenuti utilizzando i metodi di Data Mining contengono spesso conclusioni false e prive di significato. Molti esperti sostengono che gli strumenti di data mining possono produrre un'enorme quantità di risultati statisticamente inaffidabili. Per ridurre la percentuale di tali risultati, è necessario verificare l'adeguatezza dei modelli ottenuti sui dati di test. Tuttavia, è impossibile evitare completamente false conclusioni.

7. Costo elevato.

Un prodotto software di qualità è il risultato di uno sforzo significativo da parte dello sviluppatore. Pertanto, il software di data mining è tradizionalmente classificato come un prodotto software costoso.

8. Disponibilità di dati rappresentativi sufficienti.

Gli strumenti di data mining, a differenza di quelli statistici, teoricamente non richiedono una quantità di dati storici strettamente definita. Questa funzione può causare il rilevamento di falsi modelli inaffidabili e, di conseguenza, prendere decisioni errate sulla base di essi. È necessario controllare la significatività statistica della conoscenza scoperta.

algoritmo di rete neurale che raggruppa il data mining

Conclusione

Viene fornita una breve descrizione delle aree di applicazione e vengono fornite critiche alla tecnologia di Data Mining e il parere di esperti in questo settore.

Elencoletteratura

1. Han e Micheline Kamber. Data mining: concetti e tecniche. Seconda edizione. - Università dell'Illinois a Urbana-Champaign

Berry, Michael J. A. Tecniche di data mining: per marketing, vendite e gestione delle relazioni con i clienti - 2a ed.

Siu Nin Lam. Alla scoperta delle regole di associazione nel data mining. - Dipartimento di Informatica dell'Università dell'Illinois a Urbana-Champaign

I sistemi OLAP forniscono agli analisti un mezzo per testare ipotesi durante l'analisi dei dati, ovvero il compito principale di un analista è quello di generare ipotesi, che risolve in base alla sua conoscenza ed esperienza. Tuttavia, non solo una persona ha la conoscenza, ma anche i dati accumulati che vengono analizzati ... Tale conoscenza è contenuta in un'enorme quantità di informazioni che una persona non è in grado di esplorare in modo indipendente. Esiste quindi la possibilità di mancare ipotesi che possono portare benefici significativi.

Per rilevare la conoscenza "nascosta", vengono utilizzati metodi speciali di analisi automatica, con l'aiuto dei quali si deve estrarre praticamente la conoscenza dalle "macerie" delle informazioni. Dietro questa direzione, il termine "data mining" o "data mining" è fisso.

Esistono molte definizioni di DataMining che si completano a vicenda. Ecco qui alcuni di loro.

DataMining è il processo di scoperta di modelli non banali e praticamente utili nei database. (BaseGroup)

DataMining è il processo di estrazione, esplorazione e modellazione di grandi quantità di dati per scoprire schemi precedentemente sconosciuti al fine di ottenere vantaggi aziendali (SAS Institute)

Il data mining è un processo che mira a scoprire nuove correlazioni significative, modelli e tendenze come risultato del setacciamento di una grande quantità di dati archiviati utilizzando tecniche di riconoscimento di modelli più l'uso di tecniche statistiche e matematiche (GartnerGroup)

DataMining è l'esplorazione e la scoperta di conoscenze nascoste in dati grezzi da parte di una "macchina" (algoritmi, intelligenza artificiale).precedentemente sconosciuto, non banale, praticamente utile, disponibile per l'interpretazionezioni dall'uomo (A. Bargesyan "Technologies of data analysis")

DataMining è un processo di scoperta di conoscenze utili sul business. (N.M. Abdikeev "KBA")

Proprietà della conoscenza rilevabile

Considera le proprietà della conoscenza scoperta.

  • La conoscenza deve essere nuova, precedentemente sconosciuta. Lo sforzo speso per scoprire la conoscenza che è già nota all'utente non ripaga. Pertanto, è la nuova conoscenza precedentemente sconosciuta che è preziosa.
  • La conoscenza dovrebbe essere non banale. I risultati dell'analisi dovrebbero riflettere non ovvi, inaspettatimodelli nei dati che compongono la cosiddetta conoscenza nascosta. I risultati che avrebbero potuto essere ottenuti in modi più semplici (come l'ispezione visiva) non giustificano l'uso di potenti tecniche di DataMining.
  • La conoscenza dovrebbe essere praticamente utile. Le conoscenze acquisite dovrebbero essere applicabili, anche su nuovi dati, con un grado di affidabilità sufficientemente elevato. L'utilità sta nel fatto che questa conoscenza può portare qualche vantaggio nella sua applicazione.
  • La conoscenza dovrebbe essere disponibile per la comprensione umana. I modelli trovati devono essere spiegabili logicamente, altrimenti c'è la possibilità che siano casuali. Inoltre, la conoscenza scoperta dovrebbe essere presentata in una forma comprensibile per l'uomo.

In DataMining, i modelli vengono utilizzati per rappresentare la conoscenza acquisita. I tipi di modelli dipendono dai metodi per crearli. I più comuni sono: regole, alberi decisionali, cluster e funzioni matematiche.

Attività di DataMining

Ricordiamo che la tecnologia DataMining si basa sul concetto di pattern, che sono pattern. Come risultato del rilevamento di questi modelli nascosti ad occhio nudo, le attività di DataMining vengono risolte. Alcune attività di DataMining corrispondono a vari tipi di modelli che possono essere espressi in una forma comprensibile per l'uomo.

Non c'è consenso su quali attività debbano essere attribuite a DataMining. Le fonti più autorevoli elencano quanto segue: classificazione,

clustering, previsione, associazione, visualizzazione, analisi e scoperta

deviazioni, valutazione, analisi dei collegamenti, riepilogo.

Lo scopo della descrizione che segue è dare un'idea generale delle attività di DataMining, confrontarne alcune e presentare anche alcuni metodi con cui queste attività vengono risolte. Le attività di DataMining più comuni sono la classificazione, il clustering, l'associazione, la previsione e la visualizzazione. Pertanto, le attività sono suddivise in base ai tipi di informazioni prodotte, questa è la classificazione più generale delle attività di DataMining.

Classificazione

Il problema di dividere un insieme di oggetti o osservazioni in gruppi dati a priori, chiamati classi, all'interno di ognuno dei quali si presume siano simili tra loro, aventi approssimativamente le stesse proprietà e caratteristiche. In questo caso, la soluzione si ottiene in base aanalisi valori di attributi (segni).

La classificazione è uno dei compiti più importantiEstrazione dei dati ... È applicato inmarketing nel valutare l'affidabilità creditizia dei mutuatari, determinarefedeltà del cliente, riconoscimento di pattern , diagnostica medica e molte altre applicazioni. Se l'analista conosce le proprietà degli oggetti di ciascuna classe, quando una nuova osservazione appartiene a una certa classe, queste proprietà vengono automaticamente propagate ad essa.

Se il numero di classi è limitato a due, alloraclassificazione binaria , a cui è possibile ridurre molte attività più complesse. Ad esempio, invece di definire i livelli di rischio di credito come Alto, Medio o Basso, è possibile utilizzarne solo due: Emissione o Nega.

Esistono molti modelli diversi utilizzati per la classificazione in DataMining:reti neurali, alberi decisionali , supportano macchine vettoriali, vicini k-più vicini, algoritmi di copertura, ecc., nella costruzione dei quali viene utilizzato l'apprendimento supervisionato, quandovariabile di output (etichetta della classe ) è specificato per ciascuna osservazione. Formalmente, la classificazione si basa sulla partizionespazi caratteristici su aree, all'interno di ciascuna delle qualivettori multidimensionali sono considerati identici. In altre parole, se un oggetto cade in una regione di spazio associata a una certa classe, le appartiene.

Clustering

Breve descrizione. Il clustering è una logica continuazione dell'idea

classificazione. Questo è un compito più complesso, la particolarità del clustering è che le classi degli oggetti non sono inizialmente predefinite. Il raggruppamento porta alla divisione degli oggetti in gruppi.

Un esempio di metodo per risolvere il problema del clustering: apprendimento senza supervisione di un tipo speciale di reti neurali - mappe di Kohonen auto-organizzate.

Associazione (Associazioni)

Breve descrizione. Nel corso della risoluzione del problema di trovare regole di associazione, vengono trovati modelli tra eventi correlati nel set di dati.

La differenza tra l'associazione dai due precedenti task di DataMining: la ricerca di pattern viene effettuata non in base alle proprietà dell'oggetto analizzato, ma tra più eventi che si verificano contemporaneamente. L'algoritmo più famoso per risolvere il problema della ricerca di regole di associazione è l'algoritmo Apriori.

Sequenza o associazione sequenziale

Breve descrizione. La coerenza consente di trovare modelli temporali tra le transazioni. Il compito di una sequenza è simile a un'associazione, ma il suo scopo è stabilire modelli non tra eventi che si verificano simultaneamente, ma tra eventi correlati nel tempo (cioè, che si verificano in un intervallo di tempo specifico). In altre parole, la sequenza è determinata dall'alta probabilità di una catena di eventi legati nel tempo. In effetti, un'associazione è un caso speciale di una sequenza con un intervallo di tempo pari a zero. Questa attività DataMining è anche chiamata attività sequentialpattern.

Regola sequenza: dopo l'evento X, l'evento Y si verificherà dopo un certo tempo.

Esempio. Dopo aver acquistato un appartamento, i residenti acquistano un frigorifero nel 60% dei casi entro due settimane e un televisore nel 50% dei casi entro due mesi. La soluzione a questo problema è ampiamente utilizzata nel marketing e nella gestione, ad esempio, nella gestione del ciclo del cliente (CustomerLifecycleManagement).

Regressione, previsione (previsione)

Breve descrizione. Come risultato della risoluzione del problema di previsione in base alle caratteristiche dei dati storici, vengono stimati i valori mancanti o futuri degli indicatori numerici target.

Metodi di statistica matematica, reti neurali, ecc. Sono ampiamente utilizzati per risolvere tali problemi.

Compiti aggiuntivi

Determinazione di deviazioni o valori anomali (DeviationDetection), analisi di deviazioni o valori anomali

Breve descrizione. Lo scopo della risoluzione di questo problema è il rilevamento e l'analisi dei dati più diversi dall'insieme generale di dati, l'identificazione dei cosiddetti modelli non caratteristici.

Stima

Il compito della stima è ridotto alla previsione dei valori continui di una caratteristica.

LinkAnalysis

Il compito di trovare le dipendenze in un set di dati.

Visualizzazione (Visualization, GraphMining)

Come risultato della visualizzazione, viene creata un'immagine grafica dei dati analizzati. Per risolvere il problema di visualizzazione, vengono utilizzati metodi grafici che mostrano la presenza di pattern nei dati.

Un esempio di tecniche di visualizzazione è la presentazione dei dati nelle dimensioni 2-D e 3-D.

Riassunto

Il compito, il cui scopo è descrivere gruppi specifici di oggetti dal set di dati analizzato.

Abbastanza vicino alla classificazione di cui sopra è la divisione dei compiti di DataMining nei seguenti: ricerca e scoperta, previsione e classificazione, spiegazione e descrizione.

Esplorazione e scoperta automatiche (ricerca gratuita)

Compito di esempio: scoprire nuovi segmenti di mercato.

Per risolvere questa classe di problemi, vengono utilizzati metodi di analisi dei cluster.

Previsione e classificazione

Esempio di problema: previsione della crescita delle vendite in base ai valori correnti.

Metodi: regressione, reti neurali, algoritmi genetici, alberi decisionali.

I problemi di classificazione e previsione costituiscono un gruppo della cosiddetta modellazione induttiva, che si traduce nello studio dell'oggetto o del sistema analizzato. Nel processo di risoluzione di questi problemi, viene sviluppato un modello generale o un'ipotesi basata su un set di dati.

Spiegazione e descrizione

Attività di esempio: caratterizzazione dei clienti in base a dati demografici e cronologia degli acquisti.

Metodi: alberi decisionali, sistemi di regole, regole di associazione, analisi dei collegamenti.

Se il reddito del cliente è superiore a 50 unità convenzionalie la sua età è di oltre 30 anni, quindi la classe del cliente è la prima.

Confronto tra raggruppamento e classificazione

Caratteristica

Classificazione

Clustering

Controllabilità dell'apprendimento

Controllato

Incontrollato

Strategie

Imparare con un insegnante

Imparare senza un insegnante

Presenza dell'etichetta di classe

Set di apprendimento

accompagnato da un'etichetta indicante

la classe a cui il

osservazione

Etichette della classe insegnante

insiemi sconosciuti

Base per la classificazione

I nuovi dati vengono classificati in base al set di addestramento

Dato un sacco di dati con uno scopo

stabilire l'esistenza

classi o cluster di dati

Applicazioni DataMining

Va notato che oggi la tecnologia DataMining è più ampiamente utilizzata per risolvere i problemi aziendali. Forse il motivo è che è in questa direzione che il ritorno sull'utilizzo degli strumenti di DataMining può arrivare, secondo alcune fonti, fino al 1000% ed i costi della sua implementazione possono ripagare rapidamente.

Esamineremo in dettaglio le quattro principali applicazioni della tecnologia DataMining: scienza, affari, ricerca per il governo e Web.

compiti aziendali... Le direzioni principali: banche, finanza, assicurazioni, CRM, produzione, telecomunicazioni, commercio elettronico, marketing, mercato azionario e altri.

    Se emettere un prestito a un cliente

    Segmentazione del mercato

    Attrazione di nuovi clienti

    Frode con carta di credito

Applicazione DataMining per risolvere problemi a livello statale... Principali direzioni: ricerca di evasori fiscali; mezzi nella lotta al terrorismo.

Applicazione DataMining per ricerca scientifica... Aree principali: medicina, biologia, genetica molecolare e ingegneria genetica, bioinformatica, astronomia, chimica applicata, ricerca sulle tossicodipendenze e altre.

Applicazione DataMining per soluzione Attività web... Direzioni principali: motori di ricerca (motori di ricerca), contatori e altri.

E-commerce

Nel campo dell'e-commerce, DataMining viene utilizzato per formare

Questa classificazione consente alle aziende di identificare gruppi di clienti specifici e condurre politiche di marketing in linea con gli interessi e le esigenze dei clienti identificati. La tecnologia DataMining per l'e-commerce è strettamente correlata alla tecnologia WebMining.

I compiti principali del DataMining nella produzione industriale:

· Analisi sistemica complessa delle situazioni produttive;

· Previsione a breve e lungo termine dell'evoluzione delle situazioni produttive;

· Sviluppo di opzioni per soluzioni di ottimizzazione;

Previsione della qualità del prodotto in base ad alcuni parametri

processo tecnologico;

Rilevazione di tendenze nascoste e modelli di sviluppo della produzione

processi;

· Previsione dei modelli di sviluppo dei processi produttivi;

· Rilevazione di fattori di influenza nascosti;

Rilevamento e identificazione di relazioni precedentemente sconosciute tra

parametri di produzione e fattori di influenza;

Analisi dell'ambiente di interazione dei processi produttivi e previsione

cambiamenti nelle sue caratteristiche;

processi;

Visualizzazione dei risultati delle analisi, preparazione dei rapporti preliminari e dei progetti

soluzioni fattibili con stima dell'affidabilità e dell'efficienza delle possibili implementazioni.

Marketing

DataMining è ampiamente utilizzato nel marketing.

Domande di marketing di base "Cosa viene venduto?", "Come viene venduto?", "Chi è

consumatore? "

La lezione sui problemi di classificazione e clustering descrive in dettaglio l'uso dell'analisi dei cluster per risolvere problemi di marketing, come la segmentazione dei consumatori.

Un altro insieme comune di metodi per risolvere i problemi di marketing sono i metodi e gli algoritmi per trovare le regole di associazione.

Anche la ricerca di modelli temporali viene utilizzata con successo qui.

Al dettaglio

Nel campo della vendita al dettaglio, così come nel marketing, vengono utilizzati:

Algoritmi per trovare regole di associazione (per determinare insiemi ricorrenti

beni che i clienti acquistano contemporaneamente). L'identificazione di tali regole aiuta

collocare le merci sugli scaffali delle aree di vendita, sviluppare strategie per l'acquisto delle merci

e la loro collocazione nei magazzini, ecc.

Utilizzando sequenze temporali, ad esempio, per determinare

i volumi richiesti di scorte di merci nel magazzino.

Metodi di classificazione e clustering per determinare gruppi o categorie di clienti,

la conoscenza di ciò contribuisce alla promozione di successo delle merci.

Mercato azionario

Ecco un elenco di problemi del mercato azionario che possono essere risolti utilizzando la tecnologia dei dati

Mining: previsione dei valori futuri degli strumenti finanziari e dei loro indicatori

valori passati;

Previsione di tendenza (direzione futura del movimento - crescita, calo, piatto) della finanziaria

lo strumento e la sua forza (forte, moderatamente forte, ecc.);

Identificazione della struttura del cluster di mercato, industria, settore per un determinato insieme

caratteristiche;

· Gestione dinamica del portafoglio;

· Previsione di volatilità;

· Valutazione del rischio;

· Prevedere l'inizio della crisi e prevedere il suo sviluppo;

Selezione di asset, ecc.

Oltre alle aree di attività sopra descritte, la tecnologia DataMining può essere applicata in un'ampia varietà di aree aziendali in cui è necessaria l'analisi dei dati e una certa quantità di informazioni retrospettive è stata accumulata.

DataMining in CRM

Una delle aree più promettenti dell'applicazione DataMining è l'uso di questa tecnologia nel CRM analitico.

CRM (CustomerRelationshipManagement) - gestione delle relazioni con i clienti.

Quando queste tecnologie vengono utilizzate insieme, il knowledge mining viene combinato con il "guadagno" dai dati dei clienti.

Un aspetto importante nel lavoro dei reparti marketing e vendite è la preparazioneuna visione olistica dei clienti, informazioni sulle loro caratteristiche, caratteristiche, struttura della base clienti. Il CRM utilizza la cosiddetta profilazioneclienti, dando una visione completa dell'insieme informazione necessaria sui clienti.

La profilazione del cliente include i seguenti componenti: segmentazione della clientela, redditività del cliente, fidelizzazione del cliente, analisi della risposta del cliente. Ciascuno di questi componenti può essere analizzato utilizzando DataMining e la loro analisi insieme, poiché i componenti di profilazione, di conseguenza, possono fornire la conoscenza che non può essere ottenuta da ogni singola caratteristica.

WebMining

WebMining può essere tradotto come "data mining sul Web". WebIntelligence o Web.

L'intelligence è pronta per "aprire un nuovo capitolo" nel rapido sviluppo dell'e-business. La capacità di identificare gli interessi e le preferenze di ogni visitatore osservando il loro comportamento è un vantaggio competitivo serio e critico nel mercato dell'e-commerce.

I sistemi WebMining possono rispondere a molte domande, ad esempio, quale dei visitatori è un potenziale cliente del negozio Web, quale gruppo di clienti del negozio Web genera il reddito maggiore, quali sono gli interessi di un particolare visitatore o gruppo di visitatori.

Metodi

Classificazione del metodo

Esistono due gruppi di metodi:

  • metodi statistici basati sull'uso dell'esperienza accumulata media, che si riflette nei dati retrospettivi;
  • metodi cibernetici che includono una varietà di approcci matematici eterogenei.

Lo svantaggio di una tale classificazione: sia gli algoritmi statistici che quelli cibernetici in un modo o nell'altro si basano sul confronto dell'esperienza statistica con i risultati del monitoraggio della situazione attuale.

Il vantaggio di una tale classificazione è la sua convenienza per l'interpretazione: viene utilizzata per descrivere gli strumenti matematici dell'approccio moderno all'estrazione della conoscenza da matrici di osservazioni iniziali (operative e retrospettive), ad es. in attività di data mining.

Diamo uno sguardo più da vicino ai gruppi presentati sopra.

Metodi di data mining statistico

In questi i metodi sono rappresentati da quattro sezioni correlate:

  • analisi preliminare della natura dei dati statistici (verifica di ipotesi di stazionarietà, normalità, indipendenza, omogeneità, valutazione della forma della funzione distributiva, dei suoi parametri, ecc.);
  • identificazione di collegamenti e modelli (analisi di regressione lineare e non lineare, analisi di correlazione, ecc.);
  • analisi statistica multivariata (analisi discriminante lineare e non lineare, cluster analysis, analisi delle componenti, analisi fattoriale, ecc.);
  • modelli dinamici e previsioni basate su serie temporali.

L'arsenale di metodi statistici Data Mining è classificato in quattro gruppi di metodi:

  1. Analisi descrittiva e descrizione dei dati iniziali.
  2. Analisi delle relazioni (analisi di correlazione e regressione, analisi fattoriale, analisi della varianza).
  3. Analisi statistica multivariata (analisi delle componenti, analisi discriminante, analisi di regressione multivariata, correlazioni canoniche, ecc.).
  4. Analisi delle serie temporali (modelli dinamici e previsioni).

Metodi cibernetici di data mining

La seconda direzione del Data Mining è un insieme di approcci uniti dall'idea di matematica informatica e dall'uso della teoria dell'intelligenza artificiale.

Questo gruppo include i seguenti metodi:

  • reti neurali artificiali (riconoscimento, clustering, previsione);
  • programmazione evolutiva (inclusi algoritmi del metodo di contabilità di gruppo degli argomenti);
  • algoritmi genetici (ottimizzazione);
  • memoria associativa (ricerca di analoghi, prototipi);
  • logica fuzzy;
  • alberi decisionali;
  • sistemi di elaborazione delle conoscenze specialistiche.

Analisi di gruppo

Lo scopo del raggruppamento è trovare strutture esistenti.

Il clustering è una procedura descrittiva, non trae conclusioni statistiche, ma fornisce un'opportunità per condurre analisi esplorative e studiare la "struttura dei dati".

Il concetto stesso di "cluster" è definito in modo ambiguo: ogni studio ha i suoi "cluster". Il concetto di cluster è tradotto come "cluster", "grappolo". Un cluster può essere caratterizzato come un gruppo di oggetti con proprietà comuni.

Ci sono due caratteristiche di un cluster:

  • omogeneità interna;
  • isolamento esterno.

La domanda che gli analisti pongono quando risolvono molti problemi è come organizzare i dati in strutture visive, ad es. espandere le tassonomie.

Inizialmente, il raggruppamento è stato ampiamente utilizzato in scienze come la biologia, l'antropologia e la psicologia. Per risolvere i problemi economici, il clustering è stato poco utilizzato per molto tempo a causa delle specificità dei dati e dei fenomeni economici.

I cluster possono essere non sovrapposti, esclusivi o sovrapposti.

Va notato che come risultato dell'applicazione di vari metodi di analisi dei cluster, è possibile ottenere cluster di varie forme. Ad esempio, sono possibili cluster di tipo "catena", quando i cluster sono rappresentati da lunghe "catene", cluster di forma allungata, ecc., E alcuni metodi possono creare cluster di forma arbitraria.

Metodi diversi possono tendere a creare cluster di determinate dimensioni (ad esempio, piccoli o grandi) o presupporre la presenza di cluster di dimensioni diverse nel set di dati. Alcune tecniche di analisi dei cluster sono particolarmente sensibili al rumore o ai valori anomali, mentre altre sono meno sensibili. Come risultato dell'applicazione di diversi metodi di raggruppamento, si possono ottenere risultati diseguali, questo è normale ed è una caratteristica del funzionamento di uno o di un altro algoritmo. Queste caratteristiche dovrebbero essere prese in considerazione quando si sceglie un metodo di clustering.

Diamo una breve descrizione degli approcci di clustering.

Algoritmi basati sulla separazione dei dati (Partitioningalgorithms), incl. iterativo:

  • dividere gli oggetti in k gruppi;
  • riallocazione iterativa degli oggetti per migliorare il clustering.
  • Gerarchialgoritmi:
  • agglomerazione: ogni oggetto è inizialmente un cluster, cluster,
  • connettendosi tra loro, formano un cluster più grande, ecc.

Metodi basati sulla concentrazione di oggetti (metodi basati sulla densità):

  • basato sulla connettività degli oggetti;
  • ignorare il rumore, trovando grappoli di forma arbitraria.

Griglia - metodi (metodi basati su griglia):

  • quantizzare gli oggetti in strutture a griglia.

Metodi modello (basati su modello):

  • utilizzando il modello per trovare i cluster che meglio si adattano ai dati.

Metodi di analisi dei cluster. Metodi iterativi.

Con un gran numero di osservazioni, i metodi gerarchici di analisi dei cluster non sono adatti. In questi casi, vengono utilizzati metodi di partizionamento non gerarchico, che sono metodi iterativi per partizionare la popolazione originale. Nel processo di divisione, vengono formati nuovi cluster fino a quando non viene soddisfatta la regola di arresto.

Questo raggruppamento non gerarchico consiste nella divisione di un set di dati in un numero di cluster distinti. Esistono due approcci. Il primo è definire i confini dei cluster come le aree più dense nello spazio multidimensionale dei dati iniziali, ad es. definizione di cluster dove c'è una grande "concentrazione di punti". Il secondo approccio consiste nel ridurre al minimo la misura della differenza tra gli oggetti

L'algoritmo k-means

Il più comune tra i metodi non gerarchici è l'algoritmo k-means, chiamato anche analisi rapida dei cluster... Per una descrizione completa dell'algoritmo, vedere Hartigan e Wong (1978). A differenza dei metodi gerarchici, che non richiedono ipotesi preliminari sul numero di cluster, per poter utilizzare questo metodo, è necessario avere un'ipotesi sul numero più probabile di cluster.

L'algoritmo k-means costruisce k cluster situati alla massima distanza possibile l'uno dall'altro. Il principale tipo di problemi che l'algoritmo k-means risolve è la presenza di ipotesi (ipotesi) sul numero di cluster, mentre dovrebbero essere il più possibile differenti. La scelta del numero k può essere basata sui risultati di ricerche precedenti, considerazioni teoriche o intuizioni.

L'idea generale dell'algoritmo: un dato numero fisso k di cluster di osservazione viene confrontato con i cluster in modo che la media nel cluster (per tutte le variabili) differisca il più possibile l'una dall'altra.

Descrizione algoritmo

1. Distribuzione iniziale degli oggetti in cluster.

  • Viene scelto il numero k e nella prima fase questi punti vengono considerati "centri" dei cluster.
  • Ogni cluster ha un centro.

La scelta dei centroidi iniziali può essere effettuata come segue:

  • selezione di k-osservazioni per massimizzare la distanza iniziale;
  • selezione casuale di k-osservazioni;
  • selezione delle prime k-osservazioni.

Di conseguenza, ogni oggetto viene assegnato a un cluster specifico.

2. Un processo iterativo.

Vengono calcolati i centri dei cluster, che vengono quindi e ulteriormente considerati le medie coordinate dei cluster. Gli oggetti vengono ridistribuiti di nuovo.

Il processo di calcolo dei centri e di riallocazione degli oggetti continua fino a quando non viene soddisfatta una delle condizioni:

  • centri di cluster si sono stabilizzati, ad es. tutte le osservazioni appartengono al cluster a cui appartenevano prima dell'iterazione corrente;
  • il numero di iterazioni è uguale al numero massimo di iterazioni.

La figura mostra un esempio dell'algoritmo k-mean per k uguale a due.

Un esempio dell'algoritmo k-mean (k \u003d 2)

La scelta del numero di cluster è una questione complessa. Se non ci sono ipotesi su questo numero, si consiglia di creare 2 cluster, quindi 3, 4, 5, ecc., Confrontando i risultati ottenuti.

Verifica della qualità del clustering

Dopo aver ottenuto i risultati dell'analisi dei cluster utilizzando il metodo k-means, è necessario verificare la correttezza del clustering (ovvero valutare come i cluster differiscono l'uno dall'altro).

Per questo, i valori medi vengono calcolati per ogni cluster. Con un buon raggruppamento, si dovrebbero ottenere mezzi molto diversi per tutte le misurazioni o almeno per la maggior parte di esse.

Vantaggi dell'algoritmo k-means:

  • facilità d'uso;
  • velocità di utilizzo;
  • chiarezza e trasparenza dell'algoritmo.

Svantaggi dell'algoritmo k-mean:

  • l'algoritmo è troppo sensibile ai valori anomali che possono distorcere la media.

Una possibile soluzione a questo problema è utilizzare una modifica dell'algoritmo, l'algoritmo k-median;

  • l'algoritmo potrebbe essere lento basi grandi dati. Una possibile soluzione a questo problema è utilizzare il campionamento dei dati.

Reti bayesiane

Nella teoria della probabilità, il concetto di dipendenza dall'informazione è modellato dalla dipendenza condizionale (o strettamente: l'assenza di indipendenza condizionale), che descrive come la nostra fiducia nel risultato di un evento cambia quando acquisiamo nuove conoscenze sui fatti, a condizione che conosciamo già un certo insieme di altri fatti.

È conveniente e intuitivo rappresentare le dipendenze tra gli elementi mediante un percorso diretto che collega questi elementi in un grafico. Se la dipendenza tra gli elementi x e y non è diretta e viene eseguita tramite il terzo elemento z, è logico aspettarsi che l'elemento z si trovi sul percorso tra x e y. Tali nodi intermedi "interromperanno" la relazione tra x e y, ad es. simulare la situazione di indipendenza condizionale tra loro con un valore noto dei fattori di influenza diretti.Le reti bayesiane sono tali linguaggi di modellazione, che servono a descrivere le dipendenze condizionali tra i concetti di una determinata area tematica.

Le reti bayesiane sono strutture grafiche per rappresentare relazioni probabilistiche tra un gran numero di variabili e per eseguire inferenze probabilistiche basate su tali variabili.La classificazione "ingenua" (bayesiana) è un metodo di classificazione abbastanza trasparente e comprensibile. "Ingenua" è chiamata perché procede dal presuppostoindipendenza dei segni.

Proprietà di classificazione:

1. Utilizzo di tutte le variabili e determinazione di tutte le dipendenze tra di loro.

2. Avere due ipotesi sulle variabili:

  • tutte le variabili sono ugualmente importanti;
  • tutte le variabili sono statisticamente indipendenti, ad es. il valore di una variabile non dice nulla sul valore dell'altra.

Esistono due scenari principali per l'applicazione delle reti bayesiane:

1. Analisi descrittiva. L'area tematica viene visualizzata come un grafico, i cui nodi rappresentano concetti e gli archi direzionali mostrati dalle frecce illustrano le relazioni dirette tra questi concetti. La connessione tra i concetti di x e y significa: conoscere il valore di x aiuta a fare un'ipotesi più plausibile sul valore di y. L'assenza di una connessione diretta tra i concetti modella l'indipendenza condizionata tra loro per i valori noti di un certo insieme di concetti “separatori”. Ad esempio, il numero di scarpe di un bambino è ovviamente correlato alla capacità di lettura di un bambino attraverso l'età. Quindi, una misura di scarpa più grande dà più sicurezza che il bambino stia già leggendo, ma se conosciamo già l'età, conoscere la misura della scarpa non ci darà più informazioni aggiuntive sulla capacità di leggere del bambino.


Per un altro esempio opposto, si consideri fattori inizialmente non correlati come il fumo e il raffreddore. Ma se conosciamo un sintomo, ad esempio, che una persona soffre di tosse al mattino, sapere che la persona non fuma aumenta la nostra fiducia che la persona abbia il raffreddore.

2. Classificazione e previsione. La rete bayesiana, consentendo l'indipendenza condizionale di più concetti, consente di ridurre il numero di parametri di distribuzione congiunta, consentendo di stimarli con fiducia sui volumi di dati disponibili. Quindi, per 10 variabili, ognuna delle quali può assumere 10 valori, il numero di parametri di distribuzione congiunta è 10 miliardi - 1. Se assumiamo che solo 2 variabili dipendano l'una dall'altra, il numero di parametri diventa 8 * (10-1) + (10 * 10-1) \u003d 171. Avendo un modello di distribuzione congiunta realistico in termini di risorse computazionali, significato sconosciuto di un concetto, possiamo prevedere, ad esempio, il significato più probabile di questo concetto con significati noti di altri concetti.

Si notano tali vantaggi delle reti bayesiane come il metodo DataMining:

Il modello definisce le dipendenze tra tutte le variabili, questo lo rende facilegestire situazioni in cui i valori di alcune variabili sono sconosciuti;

Le reti bayesiane sono abbastanza semplici da interpretare e consentire sul palcomodellazione predittiva facile analisi what-if;

Il metodo bayesiano ti consente di combinare naturalmente modelli,derivato da dati e, ad esempio, da conoscenze specialistiche acquisite in forma esplicita;

L'utilizzo di reti bayesiane evita il problema della riqualificazione(overfitting), cioè eccessiva complicazione del modello, che è un punto debolemolti metodi (ad esempio, alberi decisionali e reti neurali).

L'ingenuo approccio bayesiano presenta i seguenti svantaggi:

È corretto moltiplicare le probabilità condizionali solo quando tutti gli inputle variabili sono infatti statisticamente indipendenti; sebbene questo metodo sia spessomostra risultati abbastanza buoni se la condizione della statisticaindipendenza, ma in teoria una situazione del genere dovrebbe essere gestita in modo più complessometodi basati sulla formazione di reti bayesiane;

La gestione immediata delle variabili continue non è possibile: sono necessarieconversione in una scala di intervalli in modo che gli attributi siano discreti; tuttavia talele trasformazioni a volte possono portare alla perdita di schemi significativi;

Il risultato della classificazione nell'approccio bayesiano ingenuo è influenzato solo davalori individuali delle variabili di input, influenza combinata delle coppie otripli di valori di attributi diversi non vengono presi in considerazione qui. Potrebbe migliorarela qualità del modello di classificazione in termini di accuratezza predittiva,tuttavia, aumenterebbe il numero di opzioni testate.

Reti neurali artificiali

Le reti neurali artificiali (di seguito reti neurali) possono essere sincrone e asincrone.Nelle reti neurali sincrone, in ogni momento, soloun neurone. In asincrono - lo stato cambia subito per un intero gruppo di neuroni, di regola, per tuttistrato. Si possono distinguere due architetture di base: reti a strati e completamente mesh.La chiave per le reti a più livelli è il concetto di un livello.Strato: uno o più neuroni, i cui input sono alimentati con lo stesso segnale comune.Le reti neurali a strati sono reti neurali in cui i neuroni sono divisi in gruppi separati (strati) in modo che l'elaborazione delle informazioni venga eseguita a strati.Nelle reti a strati, i neuroni dell'i-esimo strato ricevono segnali di input, li trasformano e li trasmettono attraverso i punti di diramazione ai neuroni dello strato (i + 1). E così via fino al kth strato, che dàsegnali di uscita per l'interprete e l'utente. Il numero di neuroni in ogni strato non è correlato al numero di neuroni in altri strati, può essere arbitrario.All'interno di un singolo livello, i dati vengono elaborati in parallelo e, attraverso l'intera rete, l'elaborazione viene eseguita in sequenza, da un livello all'altro. Le reti neurali stratificate includono, ad esempio, percettroni multistrato, reti di funzioni a base radiale, cognitron, non cognitron e reti di memoria associativa.Tuttavia, il segnale non viene sempre applicato a tutti i neuroni nello strato. Nel cognitron, ad esempio, ogni neurone dello strato corrente riceve segnali solo dai neuroni vicini ad esso nello strato precedente.

Le reti a strati, a loro volta, possono essere monostrato e multistrato.

Rete a livello singolo- una rete composta da uno strato.

Rete multistrato- una rete che ha diversi livelli.

In una rete multistrato, il primo livello è chiamato livello di input, i successivi sono interni o nascosti e l'ultimo livello è chiamato livello di output. Pertanto, gli strati intermedi sono tutti gli strati in un multistrato rete neurale, ad eccezione di input e output.Lo strato di input della rete implementa la comunicazione con i dati di input, l'output - con l'output.Pertanto, i neuroni possono essere input, output e nascosti.Lo strato di input è organizzato dai neuroni di input, che ricevono i dati e li distribuiscono agli input dei neuroni dello strato nascosto della rete.Un neurone nascosto (hiddenneuron) è un neurone situato nello strato nascosto della rete neurale.I neuroni di output (outputneuron), da cui è organizzato lo strato di output della rete, produconoi risultati della rete neurale.

In reti completamente connesseogni neurone trasmette il suo segnale di uscita al resto dei neuroni, compreso se stesso. I segnali di uscita della rete possono essere tutti o alcuni dei segnali di uscita dei neuroni dopo diversi cicli di clock del funzionamento della rete.

Tutti i segnali di ingresso vanno a tutti i neuroni.

Formazione sulla rete neurale

Prima di utilizzare una rete neurale, è necessario addestrarla.Il processo di apprendimento di una rete neurale consiste nell'adattare i suoi parametri interni per un compito specifico.L'algoritmo della rete neurale è iterativo, i suoi passaggi sono chiamati epoche o cicli.Un'epoca è un'iterazione nel processo di formazione, inclusa la presentazione di tutti gli esempi dal set di formazione e, possibilmente, il controllo della qualità della formazione sul controlloimpostato. Il processo di apprendimento viene svolto su un campione di formazione.Il campione di addestramento include i valori di input e i valori di output corrispondenti dal set di dati. Durante l'addestramento, la rete neurale rileva alcune dipendenze dei campi di output sull'input.Quindi, ci troviamo di fronte alla domanda: quali campi di input (caratteristiche) siamonecessario da utilizzare. Inizialmente, la scelta viene fatta in modo euristico, quindiil numero di ingressi può essere modificato.

La domanda sul numero di osservazioni nel set di dati può essere un po 'complicata. Sebbene esistano alcune regole che descrivono la relazione tra il numero richiesto di osservazioni e la dimensione della rete, la loro correttezza non è stata dimostrata.Il numero di osservazioni richieste dipende dalla complessità del problema da risolvere. Con un aumento del numero di caratteristiche, il numero di osservazioni aumenta in modo non lineare, questo problema è chiamato "maledizione della dimensione". Con quantità insufficientedati, si consiglia di utilizzare un modello lineare.

L'analista deve determinare il numero di strati nella rete e il numero di neuroni in ogni strato.Successivamente, è necessario assegnare tali valori di pesi e pregiudizi che possonominimizzare l'errore di decisione. I pesi e i bias vengono regolati automaticamente per ridurre al minimo la differenza tra il segnale desiderato e il segnale di uscita, chiamato errore di apprendimento.L'errore di apprendimento per la rete neurale costruita viene calcolato confrontandovalori di output e target (desiderati). La funzione di errore è formata dalle differenze ottenute.

La funzione di errore è una funzione oggettiva che deve essere ridotta al minimo nel processoapprendimento guidato di una rete neurale.Utilizzando la funzione di errore, è possibile valutare la qualità della rete neurale durante l'allenamento. Ad esempio, viene spesso utilizzata la somma dei quadrati degli errori.La qualità dell'addestramento di una rete neurale determina la sua capacità di risolvere i compiti in primo piano.

Riqualificare una rete neurale

Quando si addestrano reti neurali, spesso si verifica una grave difficoltàil problema dell'overfitting.Troppo aderente o troppo aderente: corrispondenza eccessivamente esattarete neurale a una serie specifica di esempi di addestramento, in cui la rete perdecapacità di generalizzare.Il sovrallenamento si verifica in caso di formazione troppo lunga, numero insufficiente diesempi di addestramento o struttura di rete neurale troppo complicata.L'overfitting è dovuto al fatto che la scelta del set di allenamento (allenamento)è casuale. Fin dai primi passi di apprendimento, c'è una diminuzione dell'errore. Sulpassaggi successivi per ridurre i parametri di errore (funzione obiettivo)adeguarsi alle caratteristiche del training set. Tuttavia, questo accade"adeguamento" non per le leggi generali della serie, ma per le caratteristiche della sua parte -sottoinsieme di formazione. In questo caso, l'accuratezza della previsione diminuisce.Una delle opzioni per affrontare l'overfitting della rete è dividere il campione di formazione per dueset (formazione e test).La rete neurale viene addestrata sul set di addestramento. Il modello costruito viene verificato sul set di prova. Questi set non dovrebbero sovrapporsi.Ad ogni passaggio, i parametri del modello cambiano, ma diminuiscono costantementeil valore della funzione obiettivo si verifica proprio sul training set. Quando si divide l'insieme in due, possiamo osservare la variazione dell'errore di previsione sull'insieme di test parallelamente alle osservazioni sull'insieme di addestramento. Alcuniil numero di passaggi nell'errore di previsione diminuisce su entrambi i set. Comunque avantia un certo punto l'errore sul set di test inizia ad aumentare, mentre l'errore sul set di training continua a diminuire. Questo momento è considerato l'inizio della riqualificazione.

Strumenti di DataMining

Sviluppo nel settore DataMining del mercato globale software vengono impiegati sia leader di fama mondiale che aziende emergenti. Gli strumenti di DataMining possono essere presentati come un'applicazione standalone o come componenti aggiuntivi del prodotto principale.Quest'ultima opzione è stata implementata da molti leader di mercato del software.Quindi, è già diventata una tradizione che gli sviluppatori di pacchetti statistici universali, oltre ai metodi tradizionali di analisi statistica, includano nel pacchettoun insieme specifico di metodi DataMining. Questi sono pacchetti come SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner).Alcuni fornitori OLAP offrono anche una serie di tecniche di DataMining, come la famiglia di prodotti Cognos. Esistono fornitori che includono soluzioni DataMining nella funzionalità del DBMS: Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Lista di referenze

  1. Abdikeev N.M. Danko T.P. S.V. Ildemenov Kiselev A.D., “Business Process Reengineering. Corso MBA ”, Mosca: casa editrice Eksmo, 2005. - 592 p. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. "Gestione della conoscenza nelle società e reingegnerizzazione aziendale" - M .: Infra-M, 2011 - 382 p. - ISBN 978-5-16-004300-5
  1. Barsegyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. "Metodi e modelli di analisi dei dati: OLAP e Data Mining", San Pietroburgo: BHV-Petersburg, 2004,336s., ISBN 5-94157-522-X
  1. Duca NEL., Samoylenko E., "Estrazione dei dati.Corso di formazione "SPb: Peter, 2001, 386s.
  1. Chubukova I.A., corso di data mining, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Practical Machine Learning Tools and Techniques (Terza edizione), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L., Multimedia Data Mining e Knowledge Discovery

Cos'è il data mining

il database aziendale di qualsiasi impresa moderna di solito contiene una serie di tabelle che memorizzano i record su determinati fatti o oggetti (ad esempio, sulle merci, le loro vendite, i clienti, i conti). Di norma, ogni record in una tabella di questo tipo descrive un oggetto o un fatto specifico. Ad esempio, una voce nella tabella delle vendite riflette il fatto che tale o quel prodotto è stato venduto a questo o quell'altro cliente da questo o quell'altro manager, e in generale non contiene nient'altro che queste informazioni. Tuttavia, l'aggregazione di un gran numero di tali record accumulati in diversi anni può diventare una fonte di informazioni aggiuntive e molto più preziose che non possono essere ottenute sulla base di un record specifico, vale a dire informazioni su modelli, tendenze o interdipendenze tra i dati. Esempi di tali informazioni sono le informazioni su come le vendite di un determinato prodotto dipendono dal giorno della settimana, dall'ora del giorno o dal periodo dell'anno, da quali categorie di acquirenti acquistano più spesso questo o quel prodotto, quale parte degli acquirenti di un determinato prodotto acquista un altro prodotto specifico, quale categoria di clienti più spesso non rimborsa in tempo il prestito erogato.

Questo tipo di informazioni viene solitamente utilizzato nelle previsioni, nella pianificazione strategica, nell'analisi dei rischi e il suo valore per l'impresa è molto alto. Apparentemente, questo è il motivo per cui il processo di ricerca è stato chiamato Data Mining (mining in inglese significa "mining", e la ricerca di modelli in un enorme insieme di dati fattuali è davvero simile a questo). Il termine Data Mining denota non tanto una tecnologia specifica quanto il processo di ricerca di correlazioni, tendenze, relazioni e modelli mediante vari algoritmi matematici e statistici: clustering, sub-campionamento, regressione e analisi di correlazione. Lo scopo di questa ricerca è presentare i dati in una forma che rifletta chiaramente i processi aziendali, nonché costruire un modello che possa essere utilizzato per prevedere processi critici per la pianificazione aziendale (ad esempio, le dinamiche della domanda di determinati beni o servizi o la dipendenza del loro acquisto da le caratteristiche del consumatore).

Si noti che la statistica matematica tradizionale, che per molto tempo è rimasta lo strumento principale per l'analisi dei dati, così come gli strumenti di elaborazione analitica online (OLAP), di cui abbiamo già scritto molte volte (vedi materiali su questo argomento nel nostro CD) , non può sempre essere applicato con successo per risolvere tali problemi. In genere, vengono utilizzati metodi statistici e OLAP per testare ipotesi preformulate. Tuttavia, spesso è la formulazione di un'ipotesi che risulta essere il compito più difficile nell'implementazione dell'analisi aziendale per il successivo processo decisionale, poiché non tutti i modelli nei dati sono evidenti a prima vista.

La moderna tecnologia di Data Mining si basa sul concetto di modelli che riflettono i modelli inerenti ai sottocampioni di dati. La ricerca di modelli viene eseguita con metodi che non utilizzano ipotesi a priori su questi sottocampioni. Se nell'analisi statistica o quando si utilizza OLAP, domande come "Qual è il numero medio di fatture non pagate dai clienti di questo servizio?" ... Allo stesso tempo, è la risposta alla seconda domanda che spesso fornisce un approccio più non banale alla politica di marketing e all'organizzazione del lavoro con i clienti.

Una caratteristica importante del Data Mining è la non standard e la non ovvietà dei modelli ricercati. In altre parole, gli strumenti di Data Mining differiscono dagli strumenti di elaborazione dei dati statistici e dagli strumenti OLAP in quanto invece di verificare le interdipendenze assunte in anticipo dagli utenti, sono in grado di trovare tali interdipendenze da sole sulla base dei dati disponibili e di costruire ipotesi sulla loro natura.

Va notato che l'utilizzo di strumenti di Data Mining non esclude l'utilizzo di strumenti statistici e strumenti OLAP, poiché i risultati dell'elaborazione dei dati utilizzando questi ultimi, di regola, contribuiscono a una migliore comprensione della natura dei modelli che dovrebbero essere ricercati.

Dati iniziali per il data mining

L'utilizzo del Data Mining è giustificato in presenza di una quantità di dati sufficientemente grande, idealmente contenuta in un data warehouse correttamente progettato (infatti, gli stessi data warehouse vengono solitamente creati per risolvere problemi di analisi e previsione legati al supporto decisionale). Abbiamo anche scritto più volte sui principi della costruzione di data warehouse; i materiali pertinenti possono essere trovati sul nostro CD-ROM, quindi non ci soffermeremo su questo problema. Ricordiamo solo che i dati nel magazzino sono un set rifornito uniforme per l'intera azienda e che consente di ripristinare il quadro delle sue attività in qualsiasi momento. Si noti inoltre che la struttura dei dati di archiviazione è progettata in modo tale che l'esecuzione delle query su di essa venga eseguita nel modo più efficiente possibile. Tuttavia, esistono strumenti di data mining che possono cercare modelli, correlazioni e tendenze non solo nei data warehouse, ma anche nei cubi OLAP, ovvero in set di dati statistici preelaborati.

Tipi di pattern rilevati dai metodi di data mining

secondo V.A. Duke, ce ne sono cinque tipi standard modelli rivelati dai metodi di data mining:

Associazione: alta probabilità che eventi si colleghino tra loro (ad esempio, un prodotto viene spesso acquistato insieme a un altro);

Sequenza: un'alta probabilità di una catena di eventi correlati nel tempo (ad esempio, entro un certo periodo dall'acquisto di un prodotto, un altro verrà acquistato con un alto grado di probabilità);

Classificazione - ci sono segni che caratterizzano il gruppo a cui appartiene questo o quell'evento o oggetto (di solito, alcune regole sono formulate sulla base dell'analisi di eventi già classificati);

Il clustering è un modello simile alla classificazione e diverso da esso in quanto i gruppi stessi non sono specificati - vengono rilevati automaticamente durante l'elaborazione dei dati;

Modelli temporali: la presenza di modelli nella dinamica del comportamento di determinati dati (un tipico esempio sono le fluttuazioni stagionali della domanda di determinati beni o servizi) utilizzati per le previsioni.

Metodi di data mining

esistono diversi metodi di data mining oggi. Sulla base della suddetta classificazione proposta da V.A. Duke, tra questi ci sono:

Regressione, ANOVA e analisi di correlazione (implementate nei più moderni pacchetti statistici, in particolare nei prodotti di SAS Institute, StatSoft, ecc.);

Metodi di analisi in una specifica area tematica, basati su modelli empirici (spesso utilizzati, ad esempio, in strumenti di analisi finanziaria poco costosi);

Algoritmi di rete neurale, la cui idea si basa su un'analogia con il funzionamento di un tessuto nervoso e sta nel fatto che i parametri iniziali sono considerati segnali che vengono trasformati in accordo con le connessioni esistenti tra "neuroni", e la risposta dell'intera rete al dati. In questo caso le connessioni vengono realizzate utilizzando il cosiddetto network training mediante un ampio campione contenente sia i dati iniziali che le risposte corrette;

Algoritmi: selezione di un analogo stretto dei dati iniziali dai dati storici esistenti. Chiamato anche il metodo "vicino più vicino";

Gli alberi decisionali sono una struttura gerarchica basata su una serie di domande che implicano una risposta "Sì" o "No"; sebbene per di qua l'elaborazione dei dati non sempre trova idealmente i modelli esistenti; è abbastanza spesso utilizzata nei sistemi di previsione per la chiarezza della risposta ricevuta;

I modelli di cluster (a volte chiamati anche modelli di segmentazione) vengono utilizzati per raggruppare eventi simili in gruppi basati sui valori simili di diversi campi in un insieme di dati; molto popolare anche nei sistemi di previsione;

Algoritmi di ricerca limitata che calcolano le frequenze di combinazioni di eventi logici semplici in sottogruppi di dati;

Programmazione evolutiva - ricerca e generazione di un algoritmo che esprime l'interdipendenza dei dati, sulla base di un algoritmo inizialmente specificato, modificato durante la ricerca; a volte la ricerca delle interdipendenze viene effettuata tra alcuni tipi specifici di funzioni (ad esempio, i polinomi).

Puoi leggere di più su questi e altri algoritmi di Data Mining, nonché sugli strumenti che li implementano, nel libro "Data Mining: A Training Course" di V. A. Duke e A. P. Samoilenko, pubblicato dalla casa editrice "Peter" nel 2001. Oggi è uno dei pochi libri in russo dedicati a questo problema.

Produttori leader di strumenti di data mining

gli strumenti di data mining, come la maggior parte degli strumenti di Business Intelligence, appartengono tradizionalmente a costosi strumenti software, alcuni dei quali costano decine di migliaia di dollari. Pertanto, fino a poco tempo, i principali consumatori di questa tecnologia erano banche, società finanziarie e assicurative, grandi imprese commerciali e le attività principali che richiedevano l'uso del Data Mining erano la valutazione dei rischi di credito e assicurativi e lo sviluppo di politiche di marketing, piani tariffari e altri principi di collaborazione con i clienti. NEL l'anno scorso la situazione ha subito alcuni cambiamenti: sul mercato del software sono comparsi strumenti di Data Mining relativamente economici di diversi produttori, che hanno reso questa tecnologia disponibile per le piccole e medie imprese che prima non ci avevano pensato.

I moderni strumenti di Business Intelligence includono generatori di report, strumenti di elaborazione dati analitici, strumenti per lo sviluppo di soluzioni BI (piattaforme BI) e le cosiddette Enterprise BI Suite: strumenti di analisi ed elaborazione dei dati su scala aziendale che consentono di eseguire una serie di azioni relative all'analisi dei dati e creazione di report e spesso includono un set integrato di strumenti e strumenti BI per lo sviluppo di applicazioni BI. Questi ultimi, di regola, contengono sia strumenti di reporting che strumenti OLAP, e spesso strumenti di Data Mining.

Secondo gli analisti del Gartner Group, i leader nel mercato dell'analisi e dell'elaborazione dei dati su scala aziendale sono Business Objects, Cognos, Information Builders e Microsoft e Oracle rivendicano anche la leadership (Fig. 1). Per quanto riguarda gli strumenti di sviluppo per soluzioni BI, i principali contendenti alla leadership in questo settore sono Microsoft e il SAS Institute (Fig. 2).

Si noti che gli strumenti di Business Intelligence di Microsoft sono prodotti relativamente economici disponibili per un'ampia gamma di aziende. Questo è il motivo per cui prenderemo in considerazione alcuni aspetti pratici dell'utilizzo del Data Mining utilizzando l'esempio dei prodotti di questa azienda nelle parti successive di questo articolo.

Letteratura:

1. Duke V.A. Data mining: data mining. - http://www.olap.ru/basic/dm2.asp.

2. Duke V.A., Samoilenko A.P. Data Mining: corso di formazione. - SPb.: Peter, 2001.

3. B. de Ville. Microsoft Data Mining. Stampa digitale, 2001.

Attualmente, elementi di intelligenza artificiale vengono introdotti attivamente nelle attività pratiche del manager. A differenza dei tradizionali sistemi di intelligenza artificiale, la tecnologia di ricerca intelligente e analisi dei dati o "data mining" (Data Mining - DM) non cerca di simulare l'intelligenza naturale, ma potenzia le sue capacità con la potenza dei moderni server informatici, motori di ricerca e data warehouse. Molto spesso, accanto alle parole "Data Mining" ci sono le parole "Knowledge Discovery in Databases".

Figura: 6.17.

Il Data Mining è il processo di scoperta dell'interpretazione della conoscenza in dati grezzi precedentemente sconosciuta, non banale, praticamente utile e accessibile, necessaria per prendere decisioni in vari ambiti dell'attività umana. Il data mining è di grande valore per manager e analisti nelle loro attività quotidiane. Gli uomini d'affari hanno capito che con l'aiuto dei metodi di data mining possono ottenere vantaggi competitivi tangibili.

La moderna tecnologia Data Mining (Discovery-driven Data Mining) si basa sul concetto di Pattern, che riflette frammenti di relazioni multidimensionali nei dati. Questi modelli rappresentano modelli inerenti ai campioni di dati che possono essere espressi in modo compatto in una forma leggibile dall'uomo. La ricerca dei pattern viene eseguita con metodi che non sono limitati dal framework di ipotesi a priori sulla struttura campionaria e sul tipo di distribuzioni degli indicatori analizzati. Nella fig. 6.17 mostra uno schema di trasformazione dei dati utilizzando la tecnologia Data Mining.

Figura: 6.18.

La base per tutti i tipi di sistemi di previsione sono le informazioni storiche memorizzate nel database sotto forma di serie temporali. Se è possibile costruire modelli che riflettano adeguatamente le dinamiche di comportamento degli indicatori target, è probabile che possano essere utilizzati per prevedere il comportamento del sistema in futuro. Nella fig. 6.18 mostra il ciclo completo dell'applicazione della tecnologia Data Mining.

Una disposizione importante del Data Mining è la non banalità dei modelli ricercati. Ciò significa che i modelli trovati dovrebbero riflettere le regolarità non ovvie, inaspettate (Inaspettate) nei dati che compongono la cosiddetta conoscenza nascosta (Conoscenza nascosta). Gli uomini d'affari sono giunti a capire che i dati "grezzi" contengono un profondo livello di conoscenza e, se vengono scavati correttamente, si possono trovare vere e proprie pepite che possono essere utilizzate in competizione.

L'ambito del Data Mining non è limitato da nulla: la tecnologia può essere applicata ovunque ci siano enormi quantità di dati "grezzi"!


Prima di tutto, i metodi di Data Mining interessavano le imprese commerciali che implementavano progetti basati sul Data Warehousing. L'esperienza di molte di queste imprese mostra che il ritorno sull'utilizzo del data mining può raggiungere il 1000%. Ci sono rapporti di benefici economici che sono 10-70 volte superiori al costo iniziale di $ 350.000 a $ 750.000. Ci sono informazioni su un progetto da 20 milioni di dollari che è stato ripagato in soli 4 mesi. Un altro esempio è il risparmio annuo di $ 700.000 grazie all'implementazione del Data Mining in una delle catene di supermercati nel Regno Unito.

Microsoft ha annunciato ufficialmente che sta intensificando la sua attività di data mining. Un team di ricerca Microsoft dedicato guidato da Osama Fayyad e sei partner invitati (Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS) stanno preparando un progetto congiunto per sviluppare uno standard di scambio dati e strumenti per l'integrazione di strumenti di Data Mining con database e data warehouse.

Il data mining è un campo multidisciplinare che è sorto e si sta sviluppando sulla base dei risultati della statistica applicata, del riconoscimento di modelli, dei metodi di intelligenza artificiale, della teoria dei database, ecc. (Figura 6.19). Da qui l'abbondanza di metodi e algoritmi implementati in vari sistemi di Data Mining esistenti. [Duke V.A. www.inftech.webservis.ru/it/datamining/ar2.html]. Molti di questi sistemi integrano diversi approcci contemporaneamente. Tuttavia, di regola, in ogni sistema c'è qualche componente chiave su cui viene piazzata la scommessa principale.

Esistono cinque tipi standard di pattern identificati utilizzando i metodi di data mining: associazione, sequenza, classificazione, raggruppamento e previsione.

Figura: 6.19. Aree di applicazione della tecnologia Data Mining

L'associazione si verifica quando più eventi sono correlati tra loro. Ad esempio, uno studio condotto in un supermercato di computer potrebbe mostrare che il 55% di coloro che acquistano un computer prende anche una stampante o uno scanner e, se c'è uno sconto per un set del genere, acquista una stampante nell'80% dei casi. Conoscendo tale associazione, è facile per i manager valutare l'efficacia dello sconto fornito.

Se c'è una catena di eventi legati nel tempo, allora si parla di una sequenza. Quindi, ad esempio, dopo aver acquistato una casa, nel 45% dei casi viene acquistata una nuova stufa entro un mese e entro due settimane il 60% dei nuovi coloni acquista un frigorifero.

Con l'aiuto della classificazione vengono rivelate le caratteristiche che caratterizzano il gruppo a cui appartiene questo o quell'oggetto. Questo viene fatto analizzando oggetti già classificati e formulando una serie di regole.

Il clustering differisce dalla classificazione in quanto i gruppi stessi non sono predefiniti. Utilizzando il clustering, gli strumenti di data mining selezionano in modo indipendente vari gruppi omogenei di dati.

LA CAMPANA

C'è chi ha letto questa notizia prima di te.
Iscriviti per ricevere gli ultimi articoli.
E-mail
Nome
Cognome
Come vuoi leggere The Bell
Niente spam