LA CAMPANA

C'è chi ha letto questa notizia prima di te.
Iscriviti per ricevere gli ultimi articoli.
E-mail
Nome
Cognome
Come vorresti leggere La campana
Niente spam

Reti neurali artificiali, algoritmi genetici, programmazione evolutiva, memoria associativa, logica fuzzy. I metodi di data mining spesso includono metodi statistici(analisi descrittiva, analisi di correlazione e regressione, analisi fattoriale, analisi della varianza, analisi delle componenti, analisi discriminante, analisi delle serie temporali). Tali metodi, tuttavia, richiedono alcune idee a priori sui dati da analizzare, il che è in qualche modo in contrasto con gli obiettivi. estrazione dei dati(rilevamento di conoscenze non banali e praticamente utili prima sconosciute).

Uno degli scopi più importanti dei metodi di Data Mining è visualizzare i risultati dei calcoli, il che rende possibile l'utilizzo degli strumenti di Data Mining da parte di persone che non hanno una formazione matematica speciale. Allo stesso tempo, l'uso di metodi statistici per l'analisi dei dati richiede una buona padronanza della teoria della probabilità e della statistica matematica.

introduzione

I metodi di data mining (o, equivalentemente, Knowledge Discovery In Data, in breve, KDD) si trovano all'intersezione di database, statistiche e intelligenza artificiale.

Digressione storica

Il campo del Data Mining è iniziato con un seminario condotto da Grigory Pyatetsky-Shapiro nel 1989.

In precedenza, mentre lavorava presso GTE Labs, Grigory Pyatetsky-Shapiro si è interessato alla domanda: è possibile trovare automaticamente determinate regole per velocizzare alcune query su database di grandi dimensioni. Allo stesso tempo, sono stati proposti due termini: Data Mining ("data mining") e Knowledge Discovery In Data (che dovrebbe essere tradotto come "scoperta della conoscenza nei database").

Formulazione del problema

Inizialmente, l'attività è impostata come segue:

  • c'è un database abbastanza grande;
  • si presume che ci sia una "conoscenza nascosta" nel database.

È necessario sviluppare metodi per scoprire la conoscenza nascosta in grandi volumi di dati "grezzi" iniziali.

Cosa significa "conoscenza nascosta"? Deve essere conoscenza di:

  • precedentemente sconosciuto, ovvero tale conoscenza che dovrebbe essere nuova (e non confermare alcuna informazione ricevuta in precedenza);
  • non banali - cioè quelli che non possono essere semplicemente visti (con analisi visiva diretta dei dati o quando si calcolano semplici caratteristiche statistiche);
  • praticamente utile - cioè tale conoscenza che è di valore per il ricercatore o il consumatore;
  • accessibile per l'interpretazione, ovvero tale conoscenza che è facile da presentare in una forma visiva per l'utente e facile da spiegare in termini di area disciplinare.

Questi requisiti determinano in gran parte l'essenza dei metodi di data mining e in quale forma e in quale proporzione la tecnologia di data mining utilizza sistemi di gestione di database, metodi e metodi di analisi statistica. intelligenza artificiale.

Data mining e database

I metodi di data mining hanno senso da applicare solo a database sufficientemente grandi. Ogni specifica area di ricerca ha un proprio criterio per la "grandezza" del database.

Lo sviluppo delle tecnologie di database ha portato prima alla creazione di un linguaggio specializzato: il linguaggio di query del database. Per i database relazionali, questo è il linguaggio SQL, che ha fornito ampie opportunità per creare, modificare e recuperare i dati archiviati. Poi c'era la necessità di ottenere informazioni analitiche (ad esempio, informazioni sulle attività di un'impresa per un certo periodo), e poi si è scoperto che i tradizionali database relazionali, ben adattati, ad esempio, per tenere registri operativi (in un'impresa ), sono poco adatti all'analisi. ciò ha portato, a sua volta, alla creazione dei cosiddetti. "data store", la cui struttura stessa nel miglior modo possibile corrisponde a un'analisi matematica completa.

Data mining e statistica

I metodi di data mining si basano su metodi matematici di elaborazione dei dati, inclusi metodi statistici. Nelle soluzioni industriali, spesso, tali metodi sono direttamente inclusi nei pacchetti di data mining. Tuttavia, va tenuto presente che i ricercatori spesso utilizzano irragionevolmente test parametrici anziché non parametrici per semplificare e, in secondo luogo, i risultati dell'analisi sono difficili da interpretare, il che è completamente in contrasto con gli obiettivi e gli obiettivi del Data mining . Tuttavia, vengono utilizzati metodi statistici, ma la loro applicazione è limitata all'esecuzione solo di alcune fasi dello studio.

Data mining e intelligenza artificiale

La conoscenza ottenuta con i metodi di data mining è solitamente rappresentata come Modelli. Questi modelli sono:

  • regole di associazione;
  • alberi decisionali;
  • grappoli;
  • funzioni matematiche.

I metodi per costruire tali modelli sono generalmente riferiti all'area del cosiddetto. "intelligenza artificiale".

Compiti

I compiti risolti dai metodi di Data Mining sono solitamente suddivisi in descrittivi (ing. descrittivo) e predittiva (ing. predittivo).

Nei compiti descrittivi, la cosa più importante è fornire una descrizione visiva dei modelli nascosti esistenti, mentre nei compiti predittivi, la questione della previsione per quei casi per i quali non ci sono ancora dati è in primo piano.

Le attività descrittive includono:

  • cercare regole o schemi di associazione (campioni);
  • raggruppamento di oggetti, analisi dei cluster;
  • costruire un modello di regressione.

I compiti predittivi includono:

  • classificazione degli oggetti (per classi predefinite);
  • analisi di regressione, analisi di serie temporali.

Algoritmi di apprendimento

I problemi di classificazione sono caratterizzati dall'”apprendimento supervisionato”, in cui la costruzione (formazione) del modello viene eseguita su un campione contenente vettori di input e output.

Per i problemi di clustering e associazione, viene utilizzato "apprendimento non supervisionato", in cui il modello è costruito su un campione che non ha un parametro di output. Il valore del parametro di output ("riferito a un cluster ...", "sembra un vettore ...") viene selezionato automaticamente nel processo di apprendimento.

Per problemi di riduzione della descrizione, è tipico nessuna separazione in vettori di input e output. A partire dal classico lavoro di C. Pearson sull'analisi delle componenti principali, l'attenzione si concentra sull'approssimazione dei dati.

Fasi di apprendimento

Si distingue una tipica serie di fasi per la risoluzione dei problemi utilizzando i metodi di Data Mining:

  1. Formazione di ipotesi;
  2. Raccolta dati;
  3. Preparazione dei dati (filtraggio);
  4. Selezione del modello;
  5. Selezione dei parametri del modello e dell'algoritmo di apprendimento;
  6. Formazione modello ( ricerca automatica altri parametri del modello);
  7. Analisi della qualità dell'istruzione, se il passaggio all'item 5 o 4 è insoddisfacente;
  8. Analisi dei modelli identificati, se il passaggio al passaggio 1, 4 o 5 non è soddisfacente.

Preparazione dei dati

Prima di utilizzare gli algoritmi di Data Mining, è necessario preparare un set di dati analizzati. Poiché l'IAD può rilevare solo i modelli presenti nei dati, i dati iniziali, da un lato, devono essere di volume sufficiente affinché questi modelli siano presenti in essi e, dall'altro, essere sufficientemente compatti da consentire l'analisi tempo accettabile. Nella maggior parte dei casi, data warehouse o data mart fungono da dati di origine. È necessaria la preparazione per analizzare i dati multidimensionali prima del clustering o del data mining.

I dati puliti vengono ridotti a set di funzionalità (o vettori se l'algoritmo può funzionare solo con vettori a dimensione fissa), un set di funzionalità per osservazione. L'insieme delle caratteristiche è formato in base alle ipotesi su quali caratteristiche dei dati grezzi abbiano un elevato potere predittivo basato sulla potenza di calcolo richiesta per l'elaborazione. Ad esempio, un'immagine del viso in bianco e nero di 100×100 pixel contiene 10.000 bit di dati grezzi. Possono essere convertiti in un vettore di funzionalità rilevando occhi e bocche nell'immagine. Di conseguenza, c'è una riduzione della quantità di dati da 10mila bit a un elenco di codici di posizione, riducendo notevolmente la quantità di dati analizzati e quindi il tempo di analisi.

Numerosi algoritmi sono in grado di elaborare dati mancanti che hanno potere predittivo (ad esempio, l'assenza di un determinato tipo di acquisto da parte di un cliente). Ad esempio, quando si utilizza il metodo delle regole di associazione (Inglese) russo non vengono elaborati vettori di caratteristiche, ma insiemi di dimensioni variabili.

La scelta della funzione obiettivo dipenderà da quale sia lo scopo dell'analisi; la scelta della funzione "giusta" è fondamentale per il successo del data mining.

Le osservazioni sono divise in due categorie: training set e test set. Il set di addestramento viene utilizzato per "addestrare" l'algoritmo di data mining e il set di test viene utilizzato per testare i modelli trovati.

Guarda anche

  • Rete neurale probabilistica di Reshetov

Appunti

Letteratura

  • Paklin NB, Oreshkov V. I. Business Intelligence: dai dati alla conoscenza (+ CD). - San Pietroburgo. : Ed. Pietro, 2009. - 624 pag.
  • Duca V., Samoylenko A. Data Mining: corso di formazione (+CD). - San Pietroburgo. : Ed. Pietro, 2001. - 368 pag.
  • Zhuravlev Yu.I. , Ryazanov V.V., Senko O.V. RICONOSCIMENTO. Metodi matematici. Sistema software. Applicazioni pratiche. - M.: Ed. "Fasi", 2006. - 176 p. - ISBN 5-7036-0108-8
  • Zinoviev A. Yu. Visualizzazione di dati multidimensionali. - Krasnojarsk: Ed. Università tecnica statale di Krasnoyarsk, 2000. - 180 p.
  • Chubukova I.A. Data mining: un tutorial. - M.: Internet University Tecnologie informatiche: BINOM: Laboratorio della conoscenza, 2006. - 382 p. - ISBN 5-9556-0064-7
  • Ian H. Witten, Eibe Frank e Mark A. Hall Data mining: strumenti e tecniche pratiche di machine learning. - 3a edizione. - Morgan Kaufmann, 2011. - P. 664. - ISBN 9780123748560

Collegamenti

  • Software di data mining nella directory dei collegamenti Open Directory Project (dmoz).

Fondazione Wikimedia. 2010.

Estrazione dei dati

Il data mining è una metodologia e un processo per scoprire grandi quantità di dati che si accumulano sistemi di informazione aziende, prima sconosciute, non banali, praticamente utili e accessibili per l'interpretazione delle conoscenze necessarie ai processi decisionali nei vari ambiti dell'attività umana. Il data mining è una delle fasi della più ampia metodologia Knowledge Discovery in Databases.

Le conoscenze scoperte nel processo di Data Mining devono essere non banali e precedentemente sconosciute. La non banalità suggerisce che tale conoscenza non può essere scoperta con una semplice analisi visiva. Dovrebbero descrivere le relazioni tra le proprietà degli oggetti aziendali, prevedere i valori di alcune funzionalità in base ad altre e così via. La conoscenza trovata dovrebbe essere applicabile a nuovi oggetti.

L'utilità pratica delle conoscenze è dovuta alla possibilità del loro utilizzo nel processo di supporto alle decisioni manageriali e di miglioramento delle attività aziendali.

La conoscenza dovrebbe essere presentata in una forma comprensibile per gli utenti che non hanno una formazione matematica speciale. Ad esempio, le costruzioni logiche "se, allora" sono percepite più facilmente da una persona. Inoltre, tali regole possono essere utilizzate in vari DBMS come query SQL. Nel caso in cui la conoscenza estratta non sia trasparente per l'utente, dovrebbero esserci metodi di post-elaborazione che consentano di portarla in una forma interpretabile.

Il data mining non è uno, ma una combinazione di un gran numero di diversi metodi di scoperta della conoscenza. Tutte le attività risolte dai metodi di Data Mining possono essere suddivise condizionatamente in sei tipi:

Il data mining è di natura multidisciplinare, in quanto include elementi di metodi numerici, statistica matematica e teoria della probabilità, teoria dell'informazione e logica matematica, intelligenza artificiale e apprendimento automatico.

I compiti dell'analisi aziendale sono formulati in modi diversi, ma la soluzione della maggior parte di essi si riduce all'uno o all'altro compito di Data Mining oa una combinazione di essi. Ad esempio, la valutazione del rischio è una soluzione a un problema di regressione o classificazione, la segmentazione del mercato è il raggruppamento, lo stimolo della domanda è regole di associazione. Le attività di Data Mining, infatti, sono elementi da cui è possibile "assemblare" la soluzione ai più reali problemi aziendali.

Per risolvere i problemi di cui sopra, vengono utilizzati vari metodi e algoritmi di Data Mining. In considerazione del fatto che il Data Mining si è sviluppato e si sta sviluppando all'intersezione di discipline come la statistica matematica, la teoria dell'informazione, l'apprendimento automatico e i database, è del tutto naturale che la maggior parte degli algoritmi e dei metodi di Data Mining siano stati sviluppati sulla base di vari metodi da questi discipline. Ad esempio, l'algoritmo di clustering k-mean è stato preso in prestito dalla statistica.

I sistemi OLAP forniscono all'analista un mezzo per testare le ipotesi durante l'analisi dei dati, ovvero il compito principale dell'analista è generare ipotesi, che risolve in base alla sua conoscenza ed esperienza.Tuttavia, non solo una persona ha conoscenza, ma anche i dati accumulati che vengono analizzati. Tale conoscenza è contenuta in un'enorme quantità di informazioni che una persona non è in grado di esplorare da sola. Al riguardo, esiste la possibilità di mancare ipotesi che possano portare notevoli benefici.

Per rilevare la conoscenza "nascosta", vengono utilizzati metodi speciali di analisi automatica, con l'aiuto del quale è necessario estrarre praticamente la conoscenza dai "blocchi" delle informazioni. In questa direzione è stato assegnato il termine “data mining (DataMining)” o “data mining”.

Esistono molte definizioni di DataMining che si completano a vicenda. Eccone alcuni.

DataMining è il processo di scoperta di modelli non banali e praticamente utili nei database. (gruppo base)

Il data mining è il processo di estrazione, esplorazione e modellazione di grandi quantità di dati per scoprire modelli (patter) precedentemente sconosciuti al fine di ottenere vantaggi aziendali (SAS Institute)

DataMining è un processo che mira a scoprire nuove correlazioni, modelli e tendenze significative setacciando grandi quantità di dati archiviati utilizzando tecniche di riconoscimento dei modelli e l'applicazione di metodi statistici e matematici (GartnerGroup)

Il DataMining è lo studio e la scoperta da parte di una “macchina” (algoritmi, strumenti di intelligenza artificiale) in dati grezzi di conoscenze nascoste cheprecedentemente sconosciuto, non banale, praticamente utile, disponibile per l'interpretazioneumano (A. Bargesyan "Tecnologie per l'analisi dei dati")

DataMining è il processo di scoperta di conoscenze utili sul business (N.M. Abdikeev "KBA")

Proprietà della conoscenza rilevabile

Considera le proprietà della conoscenza da scoprire.

  • La conoscenza deve essere nuova, precedentemente sconosciuta. Lo sforzo speso per scoprire conoscenze già note all'utente non ripaga. Pertanto, è una conoscenza nuova, precedentemente sconosciuta, che ha valore.
  • La conoscenza deve essere non banale. I risultati dell'analisi dovrebbero riflettere cose non ovvie, inaspettatemodelli nei dati che compongono la cosiddetta conoscenza nascosta. Risultati che si potrebbero ottenere di più modi semplici(ad esempio, mediante ispezione visiva) non giustificano l'uso di potenti metodi di DataMining.
  • La conoscenza dovrebbe essere praticamente utile. Le conoscenze rilevate dovrebbero essere applicabili, anche sui nuovi dati, con un grado di affidabilità sufficientemente elevato. L'utilità sta nel fatto che questa conoscenza può portare qualche beneficio nella sua applicazione.
  • La conoscenza deve essere accessibile alla comprensione umana. Gli schemi trovati devono essere logicamente spiegabili, altrimenti c'è la possibilità che siano casuali. Inoltre, la conoscenza scoperta dovrebbe essere presentata in una forma comprensibile dall'uomo.

In DataMining, i modelli vengono utilizzati per rappresentare la conoscenza acquisita. I tipi di modelli dipendono dai metodi della loro creazione. I più comuni sono: regole, alberi decisionali, cluster e funzioni matematiche.

Attività di data mining

Ricordiamo che la tecnologia DataMining si basa sul concetto di pattern, che sono le regolarità. Come risultato della scoperta di queste regolarità nascoste ad occhio nudo, i problemi di DataMining vengono risolti. tipi diversi i modelli che possono essere espressi in una forma leggibile dall'uomo corrispondono a determinate attività di DataMining.

Non c'è consenso su quali compiti dovrebbero essere attribuiti a DataMining. Le fonti più autorevoli elencano quanto segue: classificazione,

clustering, previsione, associazione, visualizzazione, analisi e discovery

deviazioni, valutazione, analisi delle relazioni, debriefing.

Lo scopo della descrizione che segue è quello di fornire una panoramica dei problemi di DataMining, di confrontarne alcuni e anche di presentare alcuni dei metodi con cui questi problemi vengono risolti. Le attività di DataMining più comuni sono la classificazione, il clustering, l'associazione, la previsione e la visualizzazione. Pertanto, i compiti sono suddivisi in base ai tipi di informazioni prodotte, questo è il massimo classificazione generale attività di data mining.

Classificazione

Il compito di dividere un insieme di oggetti o osservazioni in gruppi dati a priori, chiamati classi, all'interno dei quali si presume che siano simili tra loro, aventi approssimativamente le stesse proprietà e caratteristiche. In questo caso, la soluzione si ottiene sulla base di analisi valori degli attributi (caratteristiche).

La classificazione è uno dei compiti più importanti estrazione dei dati . Si applica in marketing nel valutare il merito creditizio dei mutuatari, determinare fedeltà del cliente, riconoscimento del modello , diagnostica medica e molte altre applicazioni. Se l'analista conosce le proprietà degli oggetti di ciascuna classe, quando una nuova osservazione appartiene a una determinata classe, queste proprietà si applicano automaticamente ad essa.

Se il numero di classi è limitato a due, alloraclassificazione binaria , a cui si possono ridurre molti problemi più complessi. Ad esempio, invece di definire tali gradi di rischio di credito come "Alto", "Medio" o "Basso", puoi utilizzarne solo due: "Emissione" o "Rifiuta".

Per la classificazione in DataMining, vengono utilizzati molti modelli diversi: reti neurali, alberi decisionali , supportano macchine vettoriali, k-vicini più vicini, algoritmi di copertura, ecc., che sono costruiti utilizzando l'apprendimento supervisionato quandovariabile di uscita(etichetta di classe ) per ciascuna osservazione. Formalmente, la classificazione si basa sulla partizionespazi caratteristici in aree, all'interno di ciascuna delle qualivettori multidimensionali sono considerati identici. In altre parole, se un oggetto è caduto in una regione di spazio associata a una certa classe, gli appartiene.

Raggruppamento

Breve descrizione. Il raggruppamento è una logica continuazione dell'idea

classificazione. Questo compito è più complicato, la particolarità del clustering è che le classi di oggetti non sono inizialmente predeterminate. Il risultato del raggruppamento è la divisione degli oggetti in gruppi.

Un esempio di metodo per risolvere un problema di clustering: formazione "senza insegnante" di un tipo speciale di reti neurali: le mappe auto-organizzanti di Kohonen.

Associazione (Associazioni)

Breve descrizione. Nel corso della risoluzione del problema della ricerca di regole di associazione, vengono trovati schemi tra eventi correlati in un set di dati.

La differenza tra l'associazione e le due precedenti attività di DataMining è che la ricerca dei pattern non si basa sulle proprietà dell'oggetto analizzato, ma tra più eventi che si verificano contemporaneamente. L'algoritmo più noto per risolvere il problema della ricerca di regole di associazione è l'algoritmo Apriori.

Sequenza o associazione sequenziale

Breve descrizione. La sequenza consente di trovare schemi temporali tra le transazioni. Il compito di una sequenza è simile a un'associazione, ma il suo obiettivo è stabilire schemi non tra eventi che si verificano simultaneamente, ma tra eventi collegati nel tempo (cioè che si verificano in un determinato intervallo di tempo). In altre parole, la sequenza è determinata dall'elevata probabilità di una catena di eventi legati nel tempo. In effetti, un'associazione è un caso speciale di una sequenza con ritardo zero. Questo problema di DataMining è anche chiamato problema di pattern sequenziale.

Regola di sequenza: dopo l'evento X, l'evento Y si verificherà dopo un certo tempo.

Esempio. Dopo aver acquistato un appartamento, gli inquilini nel 60% dei casi acquistano un frigorifero entro due settimane e entro due mesi, nel 50% dei casi, viene acquistato un televisore. La soluzione a questo problema è ampiamente utilizzata nel marketing e nella gestione, ad esempio nella gestione del ciclo di vita del cliente (CustomerLifecycleManagement).

Regressione, previsione (Previsione)

Breve descrizione. A seguito della risoluzione del problema della previsione, sulla base delle caratteristiche dei dati storici, vengono stimati i valori mancanti o futuri degli indicatori numerici target.

Per risolvere tali problemi, sono ampiamente utilizzati metodi di statistica matematica, reti neurali, ecc.

Compiti aggiuntivi

Determinazione di deviazioni o valori anomali (DeviationDetection), analisi della varianza o dei valori anomali

Breve descrizione. Lo scopo della soluzione di questo problema è il rilevamento e l'analisi di dati che differiscono maggiormente dall'insieme generale di dati, l'identificazione dei cosiddetti pattern non caratteristici.

Stima

Il compito di stima si riduce a prevedere i valori continui di una caratteristica.

Analisi dei collegamenti (LinkAnalysis)

Il compito di trovare le dipendenze in un set di dati.

Visualizzazione (Visualizzazione, GraphMining)

Come risultato della visualizzazione, viene creata un'immagine grafica dei dati analizzati. Per risolvere il problema di visualizzazione, vengono utilizzati metodi grafici per mostrare la presenza di pattern nei dati.

Un esempio di metodi di visualizzazione è la presentazione dei dati in dimensioni 2D e 3D.

Riassunto

L'attività, il cui scopo è la descrizione di gruppi specifici di oggetti dal set di dati analizzato.

Abbastanza vicino alla classificazione di cui sopra è la divisione delle attività di DataMining in quanto segue: ricerca e scoperta, previsione e classificazione, spiegazione e descrizione.

Ricerca e scoperta automatiche (ricerca libera)

Esempio di attività: scoperta di nuovi segmenti di mercato.

Per risolvere questa classe di problemi, vengono utilizzati metodi di analisi dei cluster.

Pronostico e classifica

Esempio di problema: prevedere la crescita delle vendite in base ai valori correnti.

Metodi: regressione, reti neurali, algoritmi genetici, alberi decisionali.

I compiti di classificazione e previsione costituiscono un gruppo di cosiddetta modellazione induttiva, che si traduce nello studio dell'oggetto o del sistema analizzato. Nel processo di risoluzione di questi problemi, viene sviluppato un modello generale o un'ipotesi sulla base di un set di dati.

Spiegazione e descrizione

Esempio di problema: caratterizzare i clienti in base ai dati demografici e alla cronologia degli acquisti.

Metodi: alberi decisionali, sistemi di regole, regole di associazione, link analysis.

Se il reddito del cliente è superiore a 50 unità convenzionali e la sua età ha più di 30 anni, quindi la classe cliente è la prima.

Confronto tra clustering e classificazione

Caratteristica

Classificazione

Raggruppamento

Controllabilità dell'apprendimento

controllato

incontrollabile

Strategie

Imparare con un insegnante

Imparare senza un insegnante

Presenza di un'etichetta di classe

Set da allenamento

corredata da etichetta indicante

la classe a cui appartiene

osservazione

Etichette di classe di insegnamento

insiemi sconosciuti

Base per la classificazione

I nuovi dati vengono classificati in base al training set

Dati molti dati per lo scopo

stabilire l'esistenza

classi o cluster di dati

Ambiti di datamining

Va notato che oggi la tecnologia DataMining è ampiamente utilizzata per risolvere i problemi aziendali. Forse il motivo è che è in questa direzione che il ritorno sull'utilizzo degli strumenti di DataMining può arrivare, secondo alcune fonti, fino al 1000%, e i costi della sua implementazione possono essere rapidamente ripagati.

Analizzeremo in dettaglio le quattro principali applicazioni della tecnologia DataMining: scienza, economia, ricerca governativa e Web.

compiti aziendali. Aree principali: bancario, finanziario, assicurativo, CRM, manifatturiero, telecomunicazioni, e-commerce, marketing, mercato azionario e altri.

    Se concedere un prestito al cliente

    Segmentazione del mercato

    Attrazione di nuovi clienti

    Frode con carta di credito

Applicazione di DataMining per risolvere problemi a livello statale. Direzioni principali: ricerca evasori fiscali; mezzi nella lotta al terrorismo.

Applicazione di DataMining per ricerca scientifica. Aree principali: medicina, biologia, genetica molecolare e ingegneria genetica, bioinformatica, astronomia, chimica applicata, ricerca sulla tossicodipendenza e altre.

Applicare il datamining a una soluzione Attività web. Direzioni principali: motori di ricerca (motori di ricerca), contatori e altri.

Commercio elettronico

Nel campo dell'e-commerce, DataMining viene utilizzato per generare

Questa classificazione consente alle aziende di identificare gruppi specifici di clienti e di condurre politiche di marketing in base agli interessi e alle esigenze identificati dei clienti. La tecnologia DataMining per l'e-commerce è strettamente correlata alla tecnologia WebMining.

I compiti principali del DataMining nella produzione industriale:

analisi di sistema complesso delle situazioni produttive;

· previsione a breve ea lungo termine dell'evoluzione delle situazioni produttive;

sviluppo di opzioni per soluzioni di ottimizzazione;

Prevedere la qualità di un prodotto in base ad alcuni parametri

processo tecnologico;

rilevamento di tendenze nascoste e modelli di sviluppo della produzione

processi;

modelli previsionali di sviluppo dei processi produttivi;

rilevamento di fattori di influenza nascosti;

rilevamento e identificazione di relazioni precedentemente sconosciute tra

parametri di produzione e fattori di influenza;

analisi dell'ambiente di interazione dei processi produttivi e previsione

cambiamenti nelle sue caratteristiche;

processi;

visualizzazione dei risultati delle analisi, preparazione di relazioni preliminari e progetti

soluzioni fattibili con stime dell'affidabilità e dell'efficienza delle possibili implementazioni.

Marketing

Nel campo del marketing, il DataMining è ampiamente utilizzato.

Domande di marketing di base "Cosa è in vendita?", "Com'è in vendita?", "Chi è

consumatore?"

Nella lezione sui problemi di classificazione e clustering, viene descritto in dettaglio l'uso della cluster analysis per risolvere problemi di marketing, come la segmentazione dei consumatori.

Un altro insieme comune di metodi per risolvere i problemi di marketing sono i metodi e gli algoritmi per la ricerca di regole di associazione.

Anche qui viene utilizzata con successo la ricerca di modelli temporali.

Al dettaglio

Nella vendita al dettaglio, come nel marketing, applica:

Algoritmi per la ricerca di regole di associazione (per determinare gli insiemi che ricorrono frequentemente

beni che gli acquirenti acquistano contemporaneamente). L'identificazione di tali regole aiuta

posizionare le merci sugli scaffali delle sale di scambio, sviluppare strategie per l'acquisto di merci

e la loro collocazione in magazzini, ecc.

uso di sequenze temporali, ad esempio, per determinare

la quantità richiesta di inventario nel magazzino.

metodi di classificazione e clustering per identificare gruppi o categorie di clienti,

la cui conoscenza contribuisce al successo della promozione dei beni.

Mercato azionario

Ecco un elenco di problemi del mercato azionario che possono essere risolti utilizzando la tecnologia dei dati

Mining: previsione dei valori futuri di strumenti e indicatori finanziari

valori passati;

previsione dell'andamento (direzione futura del movimento - crescita, ribasso, piatto) della finanziaria

strumento e la sua forza (forte, moderatamente forte, ecc.);

allocazione della struttura dei cluster del mercato, dell'industria, del settore secondo un determinato insieme

caratteristiche;

· gestione dinamica del portafoglio;

previsione di volatilità;

valutazione del rischio;

la previsione dell'inizio della crisi e la previsione del suo sviluppo;

selezione dei beni, ecc.

Oltre alle aree di attività sopra descritte, la tecnologia DataMining può essere applicata in un'ampia varietà di aree di business in cui è necessaria l'analisi dei dati ed è stata accumulata una certa quantità di informazioni retrospettive.

Applicazione del DataMining in CRM

Una delle applicazioni più promettenti di DataMining è l'uso di questa tecnologia nel CRM analitico.

CRM (Customer Relationship Management) - gestione delle relazioni con i clienti.

Quando queste tecnologie vengono utilizzate insieme, il knowledge mining viene combinato con il "money mining" dai dati dei clienti.

Un aspetto importante nel lavoro dei dipartimenti marketing e vendite è la preparazioneuna visione olistica dei clienti, informazioni sulle loro caratteristiche, caratteristiche, struttura della base clienti. Il CRM utilizza la cosiddetta profilazioneclienti, dando un quadro completo dell'insieme informazione necessaria sui clienti.

La profilazione del cliente include seguenti componenti: segmentazione dei clienti, redditività dei clienti, fidelizzazione dei clienti, analisi della risposta dei clienti. Ciascuno di questi componenti può essere esplorato utilizzando DataMining e analizzarli insieme come componenti di profilazione può portare a conoscenze che non possono essere ottenute da ogni singola caratteristica.

webmining

WebMining può essere tradotto come "data mining sul Web". WebIntelligence o Web.

L'intelligence è pronta ad "aprire un nuovo capitolo" nel rapido sviluppo dell'e-business. La capacità di determinare gli interessi e le preferenze di ciascun visitatore osservandone il comportamento è un vantaggio competitivo serio e critico nel mercato dell'e-commerce.

I sistemi di WebMining possono rispondere a molte domande, ad esempio quale dei visitatori è un potenziale cliente del negozio Web, quale gruppo di clienti del negozio Web porta più entrate, quali sono gli interessi di un particolare visitatore o gruppo di visitatori.

Metodi

Classificazione dei metodi

Esistono due gruppi di metodi:

  • metodi statistici basati sull'uso dell'esperienza media accumulata, che si riflette nei dati retrospettivi;
  • metodi cibernetici, inclusi molti approcci matematici eterogenei.

Lo svantaggio di tale classificazione è che sia gli algoritmi statistici che quelli cibernetici in un modo o nell'altro si basano sul confronto dell'esperienza statistica con i risultati del monitoraggio della situazione attuale.

Il vantaggio di una tale classificazione è la sua comodità per l'interpretazione: viene utilizzata nella descrizione di strumenti matematici approccio moderno all'estrazione di conoscenze da matrici di osservazioni iniziali (operative e retrospettive), cioè nelle attività di data mining.

Diamo un'occhiata più da vicino ai gruppi di cui sopra.

Metodi statistici Data mining

In questi i metodi sono quattro sezioni correlate:

  • analisi preliminare della natura dei dati statistici (verifica delle ipotesi di stazionarietà, normalità, indipendenza, omogeneità, valutazione del tipo di funzione di distribuzione, dei suoi parametri, ecc.);
  • identificare i collegamenti e modelli(analisi di regressione lineare e non lineare, analisi di correlazione, ecc.);
  • analisi statistica multidimensionale (analisi discriminante lineare e non lineare, analisi dei cluster, analisi delle componenti, analisi fattoriale, ecc.);
  • modelli dinamici e previsioni basate su serie storiche.

L'arsenale di metodi statistici Data Mining è classificato in quattro gruppi di metodi:

  1. Analisi descrittiva e descrizione dei dati iniziali.
  2. Analisi delle relazioni (analisi di correlazione e regressione, analisi fattoriale, analisi della varianza).
  3. Analisi statistica multivariata (analisi delle componenti, analisi discriminante, analisi di regressione multivariata, correlazioni canoniche, ecc.).
  4. Analisi delle serie storiche (modelli dinamici e previsionali).

Metodi di data mining cibernetici

La seconda direzione del Data Mining è un insieme di approcci accomunati dall'idea della matematica informatica e dall'uso della teoria dell'intelligenza artificiale.

Questo gruppo include i seguenti metodi:

  • reti neurali artificiali (riconoscimento, clustering, previsione);
  • programmazione evolutiva (compresi gli algoritmi del metodo di contabilità di gruppo degli argomenti);
  • algoritmi genetici (ottimizzazione);
  • memoria associativa (ricerca di analoghi, prototipi);
  • logica sfocata;
  • alberi decisionali;
  • sistemi esperti di elaborazione della conoscenza.

analisi di gruppo

Lo scopo del raggruppamento è cercare le strutture esistenti.

Il clustering è una procedura descrittiva, non trae conclusioni statistiche, ma offre l'opportunità di condurre analisi esplorative e studiare la "struttura dei dati".

Il concetto stesso di "cluster" è definito in modo ambiguo: ogni studio ha i suoi "cluster". Il concetto di cluster (cluster) è tradotto come "cluster", "mazzo". Un cluster può essere descritto come un gruppo di oggetti con proprietà comuni.

Ci sono due caratteristiche di un cluster:

  • omogeneità interna;
  • isolamento esterno.

Una domanda che gli analisti si pongono in molti problemi è come organizzare i dati in strutture visive, ad es. espandere le tassonomie.

Inizialmente, il clustering era ampiamente utilizzato in scienze come la biologia, l'antropologia e la psicologia. Per molto tempo, il clustering è stato poco utilizzato per risolvere problemi economici a causa delle specificità dei dati e dei fenomeni economici.

I cluster possono essere non sovrapposti o esclusivi (non sovrapposti, esclusivi) e intersecanti (sovrapposti).

Va notato che come risultato dell'applicazione di vari metodi di analisi dei cluster, è possibile ottenere cluster di varie forme. Ad esempio, sono possibili cluster di tipo "catena", quando i cluster sono rappresentati da lunghe "catene", cluster allungati, ecc. e alcuni metodi possono creare cluster di forma arbitraria.

Vari metodi possono mirare a creare cluster di determinate dimensioni (ad esempio piccoli o grandi) o assumere cluster di dimensioni diverse nel set di dati. Alcuni metodi di analisi dei cluster sono particolarmente sensibili al rumore o ai valori anomali, mentre altri lo sono meno. Come risultato dell'applicazione di diversi metodi di clustering, è possibile ottenere risultati diversi, questo è normale ed è una caratteristica del funzionamento di un particolare algoritmo. Queste caratteristiche dovrebbero essere prese in considerazione quando si sceglie un metodo di clustering.

Portiamo breve descrizione approcci al clustering.

Algoritmi basati sulla partizione dei dati (Partitioningalgorithms), incl. iterativo:

  • divisione di oggetti in k cluster;
  • ridistribuzione iterativa di oggetti per migliorare il clustering.
  • Algoritmi gerarchici (Hierarchyalgoritms):
  • agglomerato: ogni oggetto è inizialmente un cluster, cluster,
  • connettersi tra loro, formare un gruppo più grande, ecc.

Metodi basati sulla concentrazione di oggetti (Metodi basati sulla densità):

  • basato sulla connettività degli oggetti;
  • ignora i rumori, trovando cluster di forma arbitraria.

Griglia - metodi (metodi basati su griglia):

  • quantizzazione di oggetti in strutture a griglia.

Metodi del modello (basati sul modello):

  • utilizzando il modello per trovare i cluster che meglio si adattano ai dati.

Metodi di analisi dei cluster. metodi iterativi.

Con un gran numero di osservazioni, i metodi gerarchici di analisi dei cluster non sono adatti. In questi casi vengono utilizzati metodi non gerarchici basati sulla divisione, che sono metodi iterativi per dividere la popolazione originale. Durante il processo di divisione, si formano nuovi cluster fino a quando non viene soddisfatta la regola di arresto.

Tale raggruppamento non gerarchico consiste nel dividere un set di dati in un certo numero di cluster distinti. Ci sono due approcci. Il primo è definire i confini dei cluster come le aree più dense nello spazio multidimensionale dei dati iniziali, cioè definizione di un cluster dove c'è una grande "concentrazione di punti". Il secondo approccio consiste nel ridurre al minimo la misura della differenza dell'oggetto

Algoritmo k-medie (k-medie)

Il più comune tra i metodi non gerarchici è l'algoritmo k-mean, chiamato anche analisi rapida dei cluster. Descrizione completa algoritmo può essere trovato nel lavoro di Hartigan e Wong (1978). A differenza dei metodi gerarchici, che non richiedono assunzioni preliminari sul numero di cluster, per poter utilizzare questo metodo è necessario avere un'ipotesi sul numero più probabile di cluster.

L'algoritmo k-mean costruisce k cluster distanziati il ​​più possibile. Il principale tipo di problemi che risolve l'algoritmo k-mean è la presenza di ipotesi (ipotesi) sul numero di cluster, mentre dovrebbero essere il più diversi possibile. La scelta del numero k può essere basata su ricerche precedenti, considerazioni teoriche o intuizioni.

L'idea generale dell'algoritmo: un dato numero fisso k di cluster di osservazione vengono confrontati con i cluster in modo tale che le medie nel cluster (per tutte le variabili) differiscano il più possibile l'una dall'altra.

Descrizione dell'algoritmo

1. Distribuzione iniziale degli oggetti per cluster.

  • Viene scelto il numero k, e nella prima fase questi punti sono considerati i "centri" dei cluster.
  • Ogni cluster corrisponde a un centro.

La scelta dei centroidi iniziali può essere effettuata come segue:

  • scegliere k-osservazioni per massimizzare la distanza iniziale;
  • selezione casuale di k-osservazioni;
  • scelta delle prime k-osservazioni.

Di conseguenza, ogni oggetto viene assegnato a un cluster specifico.

2. Processo iterativo.

Vengono calcolati i centri dei cluster, che poi e oltre sono considerati i mezzi coordinati dei cluster. Gli oggetti vengono ridistribuiti di nuovo.

Il processo di calcolo dei centri e ridistribuzione degli oggetti continua finché non viene soddisfatta una delle seguenti condizioni:

  • i centri dei cluster si sono stabilizzati, ovvero tutte le osservazioni appartengono al cluster a cui appartenevano prima dell'iterazione corrente;
  • il numero di iterazioni è uguale al numero massimo di iterazioni.

La figura mostra un esempio del funzionamento dell'algoritmo k-medie per k uguale a due.

Un esempio dell'algoritmo k-medie (k=2)

La scelta del numero di cluster è una questione complessa. Se non ci sono ipotesi su questo numero, si consiglia di creare 2 cluster, quindi 3, 4, 5, ecc., confrontando i risultati.

Verifica della qualità del clustering

Dopo aver ottenuto i risultati dell'analisi dei cluster utilizzando il metodo k-mean, si dovrebbe verificare la correttezza del clustering (vale a dire, valutare come i cluster differiscono l'uno dall'altro).

Per fare ciò, vengono calcolati i valori medi per ciascun cluster. Un buon raggruppamento dovrebbe produrre mezzi molto diversi per tutte le misurazioni, o almeno per la maggior parte di esse.

Vantaggi dell'algoritmo k-mean:

  • facilità d'uso;
  • velocità di utilizzo;
  • chiarezza e trasparenza dell'algoritmo.

Svantaggi dell'algoritmo k-mean:

  • l'algoritmo è troppo sensibile ai valori anomali che possono distorcere la media.

Possibile soluzione questo problema consiste nell'usare una modifica dell'algoritmo -k-algoritmo mediano;

  • l'algoritmo può essere lento su database di grandi dimensioni. Una possibile soluzione a questo problema è utilizzare il campionamento dei dati.

Reti bayesiane

Nella teoria della probabilità, il concetto di dipendenza dall'informazione è modellato dalla dipendenza condizionale (o strettamente: mancanza di indipendenza condizionale), che descrive come la nostra fiducia nell'esito di un evento cambia quando acquisiamo nuove conoscenze sui fatti, dato che già sapevamo qualche insieme di altri fatti.

È conveniente e intuitivo rappresentare le dipendenze tra elementi per mezzo di un percorso diretto che collega questi elementi in un grafico. Se la relazione tra gli elementi xey non è diretta e avviene attraverso il terzo elemento z, allora è logico aspettarsi che ci sarà un elemento z sul percorso tra xey. Tali nodi intermedi "tagliano" la dipendenza tra x e y, cioè modellare una situazione di indipendenza condizionata tra loro con un valore noto di fattori diretti di influenza.Tali linguaggi di modellazione sono reti bayesiane, che servono a descrivere le dipendenze condizionali tra i concetti di una determinata area disciplinare.

Le reti bayesiane sono strutture grafiche per rappresentare relazioni probabilistiche tra un gran numero di variabili e per eseguire inferenze probabilistiche basate su tali variabili.La classificazione "naive" (bayesiana) è un metodo di classificazione abbastanza trasparente e comprensibile. "Naive" è chiamata perché procede dall'assunzione di reciprocheindipendenza delle caratteristiche.

Proprietà di classificazione:

1. Utilizzo di tutte le variabili e definizione di tutte le dipendenze tra di esse.

2. Avere due ipotesi sulle variabili:

  • tutte le variabili sono ugualmente importanti;
  • tutte le variabili sono statisticamente indipendenti, cioè Il valore di una variabile non dice nulla sul valore dell'altra.

Esistono due scenari principali per l'utilizzo delle reti bayesiane:

1. Analisi descrittiva. L'area tematica viene visualizzata come un grafico, i cui nodi rappresentano concetti e gli archi diretti visualizzati dalle frecce illustrano le relazioni dirette tra questi concetti. La relazione tra xey significa che conoscere il valore di x ti aiuta a indovinare meglio il valore di y. L'assenza di una connessione diretta tra concetti modella l'indipendenza condizionale tra di loro, dati i valori noti di un certo insieme di concetti "separatori". Ad esempio, il numero di scarpe di un bambino è ovviamente correlato alla capacità di un bambino di leggere attraverso l'età. Così, taglia più grande le scarpe danno più sicurezza che il bambino stia già leggendo, ma se conosciamo già l'età, conoscere la misura della scarpa non ci darà più informazioni aggiuntive sulla capacità del bambino di leggere.


Come un altro esempio opposto, prendi in considerazione fattori inizialmente non correlati come il fumo e il raffreddore. Ma se conosciamo un sintomo, ad esempio, che una persona soffre di tosse mattutina, sapere che una persona non fuma aumenta la nostra fiducia che una persona abbia il raffreddore.

2. Classificazione e previsione. La rete bayesiana, consentendo l'indipendenza condizionale di una serie di concetti, consente di ridurre il numero di parametri di distribuzione congiunta, consentendo di stimarli con sicurezza sui volumi di dati disponibili. Quindi, con 10 variabili, ognuna delle quali può assumere 10 valori, il numero di parametri di distribuzione congiunta è 10 miliardi - 1. Se assumiamo che solo 2 variabili dipendono l'una dall'altra tra queste variabili, allora il numero di parametri diventa 8 * ( 10-1) + (10 * 10-1) = 171. Avendo un modello di distribuzione congiunta realistico in termini di risorse computazionali, possiamo prevedere il valore sconosciuto di un concetto come, ad esempio, il valore più probabile di questo concetto con valori noti di altri concetti.

Notano tali vantaggi delle reti bayesiane come metodo di DataMining:

Le dipendenze tra tutte le variabili sono definite nel modello, questo lo rende facilegestire situazioni in cui i valori di alcune variabili sono sconosciuti;

Le reti bayesiane sono semplicemente interpretate e consentite sul palcola modellazione predittiva consente di effettuare facilmente l'analisi dello scenario "what if";

Il metodo bayesiano consente di combinare in modo naturale modelli,derivato da dati e, ad esempio, conoscenze specialistiche acquisite in modo esplicito;

L'utilizzo di reti bayesiane evita il problema dell'overfitting(overfitting), cioè eccessiva complicazione del modello, che è un punto debolemolti metodi (ad esempio alberi decisionali e reti neurali).

L'approccio bayesiano ingenuo presenta i seguenti svantaggi:

La moltiplicazione delle probabilità condizionali è corretta solo quando tutti gli inputle variabili sono infatti statisticamente indipendenti; anche se questo metodo è spessomostra risultati abbastanza buoni se la condizione della statisticaindipendenza, ma teoricamente una situazione del genere dovrebbe essere gestita da persone più complessemetodi basati sulla formazione delle reti bayesiane;

Impossibile elaborare direttamente le variabili continue: sono necessarieconversione in una scala di intervallo in modo che gli attributi siano discreti; tuttavia, talele trasformazioni a volte possono portare alla perdita di schemi significativi;

Il risultato della classificazione nell'approccio bayesiano naive è influenzato solo davalori individuali di variabili di input, influenza combinata di coppie otriplette di valori di attributi diversi non vengono prese in considerazione qui. Questo potrebbe migliorarela qualità del modello di classificazione in termini di accuratezza predittiva,tuttavia, aumenterebbe il numero di varianti testate.

Reti neurali artificiali

Le reti neurali artificiali (di seguito denominate reti neurali) possono essere sincrone e asincrone.Solo nelle reti neurali sincrone, in ogni momento un neurone. In asincrono: lo stato cambia immediatamente l'intero gruppo neuroni, di regola, in tutto strato. Si possono distinguere due architetture di base: reti stratificate e completamente connesse.Il concetto chiave nelle reti a strati è il concetto di livello.Strato: uno o più neuroni, i cui ingressi sono forniti con lo stesso segnale comune.Le reti neurali a strati sono reti neurali in cui i neuroni sono divisi in gruppi separati (strati) in modo che l'elaborazione delle informazioni venga eseguita a strati.Nelle reti a strati, i neuroni dell'i-esimo strato ricevono segnali di input, li trasformano e li passano attraverso i punti di diramazione ai neuroni (i + 1) dello strato. E così via fino al k-esimo strato, che dàsegnali di uscita per l'interprete e l'utente. Il numero di neuroni in ogni strato non è correlato al numero di neuroni in altri strati, può essere arbitrario.All'interno di un livello, i dati vengono elaborati in parallelo e attraverso l'intera rete, l'elaborazione viene eseguita in sequenza, da un livello all'altro. Le reti neurali stratificate includono, ad esempio, perceptron multistrato, reti di funzioni di base radiale, reti di memoria associativa, cognitron, non cognitron.Tuttavia, il segnale non viene sempre applicato a tutti i neuroni dello strato. In un cognitrone, ad esempio, ogni neurone dello strato corrente riceve segnali solo dai neuroni vicini ad esso nello strato precedente.

Le reti a più livelli, a loro volta, possono essere a livello singolo e multistrato.

Rete a strato singolo- una rete composta da uno strato.

Rete multistrato- una rete a più livelli.

In una rete multistrato, il primo livello è chiamato livello di input, i livelli successivi sono chiamati interni o nascosti e l'ultimo livello è il livello di output. Pertanto, gli strati intermedi sono tutti strati in un multistrato rete neurale fatta eccezione per input e output.Il livello di input della rete implementa la connessione con i dati di input, il livello di output - con l'output.Pertanto, i neuroni possono essere inseriti, emessi e nascosti.Il livello di input è organizzato dai neuroni di input che ricevono i dati e li distribuiscono agli input dei neuroni nel livello nascosto della rete.Un neurone nascosto è un neurone situato nello strato nascosto di una rete neurale.Vengono prodotti i neuroni di output, da cui è organizzato lo strato di output della reterisultati della rete neurale.

In reti completamente connesse ogni neurone trasmette il suo segnale di uscita al resto dei neuroni, compreso se stesso. I segnali di uscita della rete possono essere tutti o alcuni dei segnali di uscita dei neuroni dopo diversi cicli di clock della rete.

Tutti i segnali di ingresso vengono inviati a tutti i neuroni.

Formazione di reti neurali

Prima di utilizzare una rete neurale, è necessario addestrarla.Il processo di apprendimento di una rete neurale consiste nell'adattarne i parametri interni per un compito specifico.L'algoritmo della rete neurale è iterativo, i suoi passaggi sono chiamati epoche o cicli.Epoch - un'iterazione nel processo di apprendimento, inclusa la presentazione di tutti gli esempi del training set e, possibilmente, il controllo della qualità della formazione sul controllo impostare. Il processo di apprendimento viene effettuato sul campione di formazione.L'esempio di addestramento include i valori di input e i valori di output corrispondenti dal set di dati. Nel corso dell'allenamento, la rete neurale trova delle dipendenze dei campi di output da quelli di input.Pertanto, ci troviamo di fronte alla domanda: di quali campi di input (caratteristiche) abbiamo bisognonecessario da usare. Inizialmente, la scelta viene fatta euristicamente, quindiil numero di ingressi può essere modificato.

La complessità può sollevare il problema del numero di osservazioni nel set di dati. Sebbene ci siano alcune regole che descrivono la relazione tra quantità necessaria osservazioni e la dimensione della rete, la loro validità non è stata dimostrata.Il numero di osservazioni necessarie dipende dalla complessità del problema da risolvere. Con un aumento del numero di caratteristiche, il numero di osservazioni aumenta in modo non lineare, questo problema è chiamato "maledizione della dimensionalità". Con quantità insufficientedati, si consiglia di utilizzare un modello lineare.

L'analista deve determinare il numero di strati nella rete e il numero di neuroni in ogni strato.Successivamente, è necessario assegnare tali valori di pesi e distorsioni che possonominimizzare l'errore di decisione. I pesi e le polarizzazioni vengono regolati automaticamente in modo tale da ridurre al minimo la differenza tra il segnale desiderato e quello di uscita, che viene chiamato errore di addestramento.L'errore di apprendimento per la rete neurale costruita viene calcolato mediante confrontovalori di output e target (desiderati). La funzione di errore è formata dalle differenze ottenute.

La funzione di errore è una funzione obiettivo che deve essere ridotta al minimo nel processoapprendimento controllato della rete neurale.Utilizzando la funzione di errore, è possibile valutare la qualità della rete neurale durante l'allenamento. Ad esempio, viene spesso utilizzata la somma degli errori al quadrato.La capacità di risolvere i compiti assegnati dipende dalla qualità dell'addestramento della rete neurale.

Riqualificazione della rete neurale

Quando si addestrano le reti neurali, sorge spesso una seria difficoltà, chiamataproblema di overfitting.Overfitting, o overfitting - overfittingrete neurale a un insieme specifico di esempi di addestramento, in cui la rete perdecapacità di generalizzazione.L'overfitting si verifica quando l'allenamento è troppo lungo, non abbastanzaesempi di addestramento o struttura della rete neurale eccessivamente complicata.L'overfitting è dovuto al fatto che la scelta dell'allenamento (allenamento) è impostataè casuale. Fin dai primi passi di formazione, l'errore è ridotto. Sulpassaggi successivi al fine di ridurre i parametri di errore (funzione obiettivo).adattato alle caratteristiche del training set. Tuttavia, questo accade"adeguamento" non agli schemi generali della serie, ma alle caratteristiche della sua parte -sottoinsieme di formazione. In questo caso, l'accuratezza della previsione diminuisce.Una delle opzioni per affrontare la riqualificazione della rete è dividere il campione di formazione in dueset (allenamento e test).Sul set di addestramento, viene addestrata la rete neurale. Sul set di prova viene verificato il modello costruito. Questi insiemi non devono intersecarsi.Ad ogni passaggio, i parametri del modello cambiano, tuttavia, una diminuzione costantevalore della funzione obiettivo avviene proprio sul training set. Quando dividiamo il set in due, possiamo osservare il cambiamento nell'errore di previsione sul test set in parallelo con le osservazioni sul training set. Alcuniil numero di passi di errore di previsione diminuisce su entrambi i set. Tuttavia, suad un certo punto l'errore sul test set inizia ad aumentare, mentre l'errore sul training set continua a diminuire. Questo momento è considerato l'inizio della riqualificazione.

Strumenti di data mining

Sviluppo nel settore DataMining del mercato mondiale Software sono occupati sia i leader di fama mondiale che le nuove società emergenti. Gli strumenti di DataMining possono essere presentati come un'applicazione standalone o come componenti aggiuntivi del prodotto principale.Quest'ultima opzione è implementata da molti leader del mercato del software.Quindi, è già diventata una tradizione che gli sviluppatori di pacchetti statistici universali, oltre ai metodi tradizionali di analisi statistica, includano nel pacchettoun certo insieme di metodi di DataMining. Questi sono pacchetti come SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Alcuni sviluppatori di soluzioni OLAP offrono anche una serie di tecniche di DataMining, come la famiglia di prodotti Cognos. Esistono provider che includono soluzioni DataMining nelle funzionalità del DBMS: si tratta di Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMintelligentMinerforData).

Bibliografia

  1. Abdikeev NM Danko TP Ildemenov S.V. Kiselev A.D., “Reingegnerizzazione dei processi aziendali. Corso MBA”, Mosca: Eksmo Publishing House, 2005. - 592 p. - (MBA)
  1. Abdikeev NM, Kiselev d.C. "Gestione della conoscenza nelle imprese e reingegnerizzazione aziendale" - M.: Infra-M, 2011.- 382 p. – ISBN 978-5-16-004300-5
  1. Barseghyan A.A., Kupriyanov MS, Stepanenko V.V., Holod I.I. "Metodi e modelli di analisi dei dati: OLAP e Data Mining", San Pietroburgo: BHV-Petersburg, 2004, 336 pp., ISBN 5-94157-522-X
  1. Duca A., Samoilenko MA., "Estrazione dei dati.Corso di formazione "SPb: Piter, 2001, 386s.
  1. Chubukova I.A., Corso di Data Mining, http://www.intuit.ru/department/database/datamining/
  1. Ian H. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data mining: strumenti pratici e tecniche di apprendimento automatico (terza edizione), ISBN 978-0-12-374856-0
  1. Petrushin VA , Khan L. , Estrazione di dati multimediali e scoperta della conoscenza

Inviare il tuo buon lavoro nella knowledge base è semplice. Usa il modulo sottostante

Gli studenti, i dottorandi, i giovani scienziati che utilizzano la base di conoscenze nei loro studi e nel loro lavoro ti saranno molto grati.

Documenti simili

    Descrizione funzionalità Tecnologie di data mining come processi per la scoperta di dati sconosciuti. Lo studio di sistemi di inferenza di regole di associazione e meccanismi di algoritmi di reti neurali. Descrizione degli algoritmi di clustering e degli ambiti di Data Mining.

    test, aggiunto il 14/06/2013

    Nozioni di base per il clustering. Usare il Data Mining come un modo per "scoprire la conoscenza nei database". Scelta degli algoritmi di clustering. Recupero dei dati dall'archivio del database dell'officina remota. Raggruppare studenti e compiti.

    tesina, aggiunta il 07/10/2017

    Miglioramento delle tecnologie per la registrazione e la memorizzazione dei dati. La specificità dei moderni requisiti per il trattamento dei dati informativi. Il concetto di modelli che riflettono frammenti di relazioni multidimensionali nei dati al centro tecnologia moderna estrazione dei dati.

    prova, aggiunto il 02/09/2010

    Data mining, storia dello sviluppo del data mining e scoperta della conoscenza. Elementi tecnologici e metodi di data mining. Passi nella scoperta della conoscenza. Rilevamento di modifiche e deviazioni. Discipline correlate, reperimento di informazioni ed estrazione di testi.

    relazione, aggiunta il 16/06/2012

    Data Mining come processo di supporto alle decisioni basato sulla ricerca di modelli nascosti (modelli informativi) nei dati. I suoi modelli e le fasi di attuazione, la storia dello sviluppo di questa tecnologia, la valutazione dei vantaggi e degli svantaggi, le opportunità.

    saggio, aggiunto il 17/12/2014

    Classificazione delle attività di DataMining. Creazione di report e riepiloghi. Funzionalità di Data Miner in Statistica. Il problema della classificazione, clustering e regressione. Strumenti di analisi Statistica Data Miner. L'essenza del problema è la ricerca di regole di associazione. Analisi dei predittori di sopravvivenza.

    tesina, aggiunta il 19/05/2011

    Aree promettenti dell'analisi dei dati: l'analisi informazioni di testo, estrazione dei dati. Analisi delle informazioni strutturate memorizzate nei database. Processo di analisi documenti di testo. Caratteristiche della preelaborazione dei dati.

    abstract, aggiunto il 13/02/2014

    Classificazione delle attività di Data Mining. Il problema del clustering e della ricerca di regole di associazione. Determinazione della classe di un oggetto in base alle sue proprietà e caratteristiche. Trovare dipendenze frequenti tra oggetti o eventi. Elaborazione dati analitici-operativi.

    test, aggiunto il 13/01/2013

Attualmente, gli elementi di intelligenza artificiale vengono attivamente introdotti nelle attività pratiche di un manager. A differenza dei tradizionali sistemi di intelligenza artificiale, la tecnologia di ricerca e analisi intelligente dei dati o "data mining" (Data Mining - DM) non tenta di simulare l'intelligenza naturale, ma ne potenzia le capacità con la potenza dei moderni server informatici, motori di ricerca e data warehouse. Spesso accanto alle parole "Data Mining" ci sono le parole "scoperta della conoscenza nei database" (Knowledge Discovery nei database).

Riso. 6.17.

Il data mining è il processo di scoperta di conoscenze precedentemente sconosciute, non banali, praticamente utili e accessibili nei dati grezzi, che sono necessarie per prendere decisioni in varie aree dell'attività umana. Il data mining è di grande valore per manager e analisti nelle loro attività quotidiane. Gli uomini d'affari hanno capito che con l'aiuto dei metodi di Data Mining possono ottenere vantaggi competitivi tangibili.

La moderna tecnologia di Data Mining (Discovery-driven Data Mining) si basa sul concetto di pattern (Pattern), che riflette frammenti di relazioni multidimensionali nei dati. Questi modelli sono modelli inerenti ai campioni di dati che possono essere espressi in modo conciso in una forma leggibile dall'uomo. La ricerca dei pattern viene effettuata con modalità non limitate da assunzioni a priori sulla struttura del campione e sul tipo di distribuzioni dei valori degli indicatori analizzati. Sulla fig. 6.17 mostra uno schema di trasformazione dei dati che utilizza la tecnologia di Data Mining.

Riso. 6.18.

La base per tutti i tipi di sistemi di previsione sono le informazioni storiche archiviate nel database sotto forma di serie temporali. Se è possibile costruire modelli che riflettano adeguatamente la dinamica del comportamento degli indicatori target, è probabile che possano essere utilizzati anche per prevedere il comportamento del sistema in futuro. Sulla fig. 6.18 mostra l'intero ciclo di utilizzo della tecnologia di Data Mining.

Una disposizione importante del Data Mining è la non banalità dei pattern ricercati. Ciò significa che i pattern trovati devono riflettere le regolarità non ovvie, inaspettate (Inaspettate) nei dati, costituendo la cosiddetta conoscenza nascosta (Hidden Knowledge). Gli uomini d'affari hanno capito che i dati "grezzi" (Raw Data) contengono un profondo livello di conoscenza e, con il loro scavo competente, si possono trovare vere pepite che possono essere utilizzate in competizione.

L'ambito del Data Mining è illimitato: la tecnologia può essere applicata ovunque ci siano enormi quantità di dati "grezzi"!


Innanzitutto, i metodi di Data Mining erano di interesse per le imprese commerciali che implementavano progetti basati su data warehouse di informazioni (Data Warehousing). L'esperienza di molte di queste imprese mostra che il ritorno sull'uso del Data Mining può raggiungere il 1000%. Ci sono segnalazioni di un effetto economico che è 10-70 volte superiore ai costi iniziali da 350 a 750 mila dollari. Ci sono informazioni su un progetto da 20 milioni di dollari che ha dato i suoi frutti in soli 4 mesi. Un altro esempio è il risparmio annuo di 700mila dollari dovuto all'implementazione del Data Mining in una delle catene di supermercati del Regno Unito.

Microsoft ha annunciato ufficialmente il rafforzamento della propria attività nel campo del Data Mining. Uno speciale gruppo di ricerca Microsoft guidato da Osama Fayyad e sei partner invitati (Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS) stanno preparando un progetto congiunto per sviluppare uno standard di scambio di dati e strumenti per l'integrazione di strumenti di data mining con database e data warehouse .

Il Data Mining è un campo multidisciplinare che è emerso e si sta sviluppando sulla base dei risultati della statistica applicata, del riconoscimento di modelli, dei metodi di intelligenza artificiale, della teoria dei database, ecc. (Fig. 6.19). Da qui l'abbondanza di metodi e algoritmi implementati in vari sistemi di Data Mining esistenti. [Dyuk VA www.inftech.webservis.ru/it/datamining/ar2.html]. Molti di questi sistemi integrano diversi approcci contemporaneamente. Tuttavia, di regola, in ogni sistema c'è qualche componente chiave su cui viene fatta la scommessa principale.

Puoi nominarne cinque tipi standard modelli rivelati utilizzando i metodi di Data Mining: associazione, sequenza, classificazione, raggruppamento e previsione.

Riso. 6.19. Aree di applicazione della tecnologia di Data Mining

Un'associazione si verifica quando più eventi sono correlati tra loro. Ad esempio, uno studio condotto in un supermercato di computer potrebbe mostrare che il 55% di coloro che acquistano un computer prende anche una stampante o uno scanner, e quando c'è uno sconto per un tale set, la stampante viene acquistata nell'80% dei casi. Avendo informazioni su tale associazione, è facile per i gestori valutare l'efficacia dello sconto fornito.

Se c'è una catena di eventi collegati nel tempo, allora si parla di sequenza. Quindi, ad esempio, dopo aver acquistato una casa nel 45% dei casi, entro un mese viene acquistata anche una nuova stufa e entro due settimane il 60% dei nuovi arrivati ​​acquista un frigorifero.

Con l'aiuto della classificazione, vengono rivelati i segni che caratterizzano il gruppo a cui appartiene questo o quell'oggetto. Questo viene fatto analizzando oggetti già classificati e formulando un certo insieme di regole.

Il raggruppamento differisce dalla classificazione in quanto i gruppi stessi non sono predeterminati. Con l'aiuto del clustering, gli strumenti di Data Mining allocano in modo indipendente vari gruppi omogenei di dati.

LA CAMPANA

C'è chi ha letto questa notizia prima di te.
Iscriviti per ricevere gli ultimi articoli.
E-mail
Nome
Cognome
Come vorresti leggere La campana
Niente spam