LA CLOCHE

Il y a ceux qui ont lu cette nouvelle avant vous.
Abonnez-vous pour recevoir les derniers articles.
E-mail
Nom
Nom de famille
Comment voulez-vous lire La cloche
Pas de spam

Réseaux de neurones artificiels, algorithmes génétiques, programmation évolutive, mémoire associative, logique floue. Les méthodes d'exploration de données incluent souvent Méthodes statistiques(analyse descriptive, analyse de corrélation et de régression, analyse factorielle, analyse de variance, analyse en composantes, analyse discriminante, analyse de séries temporelles). De telles méthodes présupposent cependant des idées a priori sur les données analysées, ce qui est quelque peu en contradiction avec les objectifs. Exploration de données(découverte de connaissances auparavant inconnues, non triviales et pratiquement utiles).

L'un des objectifs les plus importants des méthodes de Data Mining est de visualiser les résultats des calculs, ce qui permet d'utiliser les outils de Data Mining par des personnes n'ayant pas de formation mathématique particulière. Dans le même temps, l'utilisation de méthodes statistiques pour l'analyse des données nécessite une bonne maîtrise de la théorie des probabilités et des statistiques mathématiques.

introduction

Les méthodes de Data Mining (ou, ce qui revient au même, Knowledge Discovery In Data, en abrégé KDD) se situent à l'intersection des bases de données, des statistiques et de l'intelligence artificielle.

Excursion historique

Le domaine de l'exploration de données a commencé avec un atelier dirigé par Grigory Pyatetsky-Shapiro en 1989.

Auparavant, alors qu'il travaillait chez GTE Labs, Grigory Pyatetsky-Shapiro s'est intéressé à la question : est-il possible de trouver automatiquement certaines règles pour accélérer certaines requêtes vers de grandes bases de données. Dans le même temps, deux termes ont été proposés - Data Mining ("data mining") et Knowledge Discovery In Data (qui devrait être traduit par "knowledge discovery in databases").

Formulation du problème

Initialement, la tâche est définie comme suit :

  • il y a une assez grande base de données ;
  • il est supposé que la base de données contient des "connaissances cachées".

Il est nécessaire de développer des méthodes pour découvrir des connaissances cachées dans de grands volumes de données brutes.

Que signifie « connaissance cachée » ? Cela doit être une connaissance :

  • inconnu auparavant - c'est-à-dire une connaissance qui devrait être nouvelle (et ne confirmant aucune information précédemment obtenue);
  • non triviaux - c'est-à-dire ceux qui ne peuvent pas être vus comme ça (avec une analyse visuelle directe des données ou lors du calcul de caractéristiques statistiques simples);
  • pratique - c'est-à-dire une connaissance qui a de la valeur pour le chercheur ou le consommateur ;
  • accessible pour l'interprétation - c'est-à-dire une connaissance facile à présenter sous une forme visuelle pour l'utilisateur et facile à expliquer en termes de domaine.

Ces exigences déterminent en grande partie l'essence des méthodes d'exploration de données et sous quelle forme et dans quel rapport les systèmes de gestion de bases de données, les méthodes statistiques d'analyse et les méthodes sont utilisées dans la technologie d'exploration de données. intelligence artificielle.

Exploration de données et bases de données

Il est logique que les méthodes d'exploration de données ne s'appliquent qu'à des bases de données suffisamment volumineuses. Chaque domaine de recherche spécifique a son propre critère de "grandeur" de la base de données.

Le développement des technologies de bases de données a d'abord conduit à la création d'un langage spécialisé - le langage des requêtes vers les bases de données. Pour les bases de données relationnelles, il s'agit d'un langage SQL qui a fourni de nombreuses opportunités pour créer, modifier et récupérer des données stockées. Ensuite, il s'est avéré nécessaire d'obtenir des informations analytiques (par exemple, des informations sur les activités d'une entreprise pendant une certaine période), puis il s'est avéré que les bases de données relationnelles traditionnelles, bien adaptées, par exemple, à la conduite de la comptabilité opérationnelle (dans une entreprise ), se prêtent mal à l'analyse. cela a conduit, à son tour, à la création de la soi-disant. « Magasins de données », dont la structure même la meilleure façon correspond à la réalisation d'une analyse mathématique complète.

Exploration de données et statistiques

Les méthodes d'exploration de données sont basées sur des méthodes mathématiques de traitement des données, y compris des méthodes statistiques. Dans les solutions industrielles, ces méthodes sont souvent directement incluses dans les packages d'exploration de données. Cependant, il convient de garder à l'esprit que par souci de simplification, les chercheurs utilisent souvent de manière déraisonnable des tests paramétriques au lieu de tests non paramétriques, et d'autre part, les résultats de l'analyse sont difficiles à interpréter, ce qui est totalement en contradiction avec les buts et objectifs du Data mining. Néanmoins, des méthodes statistiques sont utilisées, mais leur application se limite à la mise en œuvre de certaines étapes seulement de l'étude.

Exploration de données et intelligence artificielle

Les connaissances obtenues par les méthodes d'exploration de données sont généralement représentées sous la forme des modèles... De tels modèles sont :

  • règles d'association;
  • arbres de décision;
  • groupes;
  • fonctions mathématiques.

Les méthodes de construction de tels modèles se réfèrent généralement au domaine de la soi-disant. "Intelligence artificielle".

Tâches

Les tâches résolues par les méthodes d'exploration de données sont généralement divisées en tâches descriptives (eng. descriptif) et prédictif (eng. prédictif).

Dans les problèmes descriptifs, le plus important est de donner une description visuelle des modèles cachés existants, tandis que dans les problèmes prédictifs, la question de la prédiction pour les cas pour lesquels les données ne sont pas encore disponibles est au premier plan.

Les tâches descriptives comprennent :

  • rechercher des règles d'association ou des modèles (modèles) ;
  • regroupement d'objets, analyse de clusters;
  • construire un modèle de régression.

Les tâches prédictives comprennent :

  • classification d'objets (pour les classes prédéfinies) ;
  • analyse de régression, analyse de séries chronologiques.

Algorithmes d'apprentissage

Les problèmes de classification sont caractérisés par un « apprentissage supervisé », dans lequel la construction (apprentissage) du modèle est effectuée sur la base d'un échantillon contenant des vecteurs d'entrée et de sortie.

Pour les tâches de clustering et d'association, un "apprentissage non supervisé" est utilisé, dans lequel le modèle est construit sur un échantillon qui ne contient pas de paramètre de sortie. La valeur du paramètre de sortie ("fait référence à un cluster ...", "ressemble à un vecteur ...") est sélectionnée automatiquement dans le processus d'apprentissage.

Pour les tâches de réduction de la description, il est typique pas de division en vecteurs d'entrée et de sortie... A partir des travaux classiques de K. Pearson sur la méthode des composantes principales, l'accent est mis sur l'approximation des données.

Étapes d'apprentissage

Une série typique d'étapes de résolution de problèmes à l'aide de méthodes d'exploration de données est mise en évidence :

  1. Formation d'une hypothèse;
  2. Collecte de données;
  3. Préparation des données (filtrage);
  4. Sélection du modèle ;
  5. Sélection des paramètres du modèle et de l'algorithme d'apprentissage ;
  6. Formation modèle ( recherche automatique autres paramètres du modèle);
  7. Analyse de la qualité de la formation, si le passage à l'item 5 ou 4 n'est pas satisfaisant ;
  8. Analyse des patrons identifiés, si le passage aux items 1, 4 ou 5 n'est pas satisfaisant.

Préparation des données

Avant d'utiliser les algorithmes de Data Mining, il est nécessaire de préparer un ensemble de données analysées. Étant donné que l'IAD ne peut détecter que les modèles présents dans les données, les données initiales, d'une part, doivent avoir un volume suffisant pour que ces modèles y soient présents et, d'autre part, être suffisamment compactes pour que l'analyse prenne un temps acceptable. Le plus souvent, les entrepôts de données ou les magasins de données agissent comme des données sources. Une préparation est nécessaire pour analyser les données multidimensionnelles avant le regroupement ou l'exploration de données.

Les données nettoyées sont réduites à des ensembles de caractéristiques (ou vecteurs, si l'algorithme ne peut fonctionner qu'avec des vecteurs de dimension fixe), un ensemble de caractéristiques par observation. Un ensemble de caractéristiques est formé conformément aux hypothèses concernant les caractéristiques de données brutes ayant un pouvoir prédictif élevé sur la base de la puissance de calcul requise pour le traitement. Par exemple, une image en noir et blanc de 100 × 100 pixels d'un visage contient 10 000 bits de données brutes. Ils peuvent être convertis en un vecteur de caractéristiques en détectant dans l'image des yeux et de la bouche. En conséquence, la quantité de données diminue de 10 000 bits à une liste de codes de position, réduisant considérablement la quantité de données analysées, et donc le temps d'analyse.

Un certain nombre d'algorithmes sont capables de traiter des données manquantes qui ont un pouvoir prédictif (par exemple, le client n'a pas un certain type d'achats). Disons lors de l'utilisation de la méthode de règle d'association (Anglais) russe ce ne sont pas des vecteurs de caractéristiques qui sont traités, mais des ensembles de dimensions variables.

Le choix de la fonction cible dépendra de l'objet de l'analyse ; Choisir la « bonne » fonction est fondamental pour réussir l'exploration de données.

Les observations se répartissent en deux catégories : ensemble d'apprentissage et ensemble de test. L'ensemble d'apprentissage est utilisé pour « entraîner » l'algorithme d'exploration de données et l'ensemble de test est utilisé pour vérifier les modèles trouvés.

voir également

  • Réseau de neurones probabilistes de Reshetov

Remarques (modifier)

Littérature

  • Paklin N.B., Orechkov V.I. Business analytics : des données à la connaissance (+ CD). - SPb. : Éd. Pierre, 2009 .-- 624 p.
  • Duc V., Samoilenko A. Data Mining : stage de formation (+ CD). - SPb. : Éd. Pierre, 2001 .-- 368 p.
  • Yu.I. Zhuravlev , Riazanov V.V., Senko O.V. RECONNAISSANCE. Méthodes mathématiques. Système logiciel. Applications pratiques. - M. : Éd. "Fazis", 2006. - 176 p. - ISBN 5-7036-0108-8
  • A. Yu. Zinoviev Visualisation de données multidimensionnelles. - Krasnoïarsk : Éd. Université technique d'État de Krasnoïarsk, 2000 .-- 180 p.
  • Chubukova I.A. Exploration de données : un guide d'étude. - M. : Internet Université des Technologies de l'Information : BINOM : Laboratoire de la Connaissance, 2006. - 382 p. - ISBN 5-9556-0064-7
  • Ian H. Witten, Eibe Frank et Mark A. Hall Exploration de données : outils et techniques pratiques d'apprentissage automatique. - 3e édition. - Morgan Kaufmann, 2011. - P. 664. - ISBN 9780123748560

Liens

  • Logiciel d'exploration de données dans le répertoire de liens Open Directory Project (dmoz).

Fondation Wikimédia. 2010.

Exploration de données

L'exploration de données est une méthodologie et un processus permettant de découvrir de grandes quantités de données s'accumulant dans systèmes d'information des entreprises qui étaient auparavant inconnues, non triviales, pratiquement utiles et accessibles pour l'interprétation des connaissances nécessaires à la prise de décisions dans diverses sphères de l'activité humaine. L'exploration de données est l'une des étapes de la méthodologie plus large de la découverte des connaissances dans les bases de données.

Les connaissances découvertes dans le processus d'exploration de données doivent être non triviales et inconnues auparavant. La non-trivialité suggère que de telles connaissances ne peuvent pas être découvertes par une simple analyse visuelle. Ils doivent décrire les relations entre les propriétés des objets métier, prédire les valeurs de certaines fonctionnalités en fonction d'autres, etc. Les connaissances trouvées devraient également être applicables à de nouveaux objets.

L'utilité pratique de la connaissance est due à la possibilité de son utilisation dans le processus d'accompagnement de l'adoption de décisions managériales et d'amélioration des activités de l'entreprise.

Les connaissances doivent être présentées sous une forme compréhensible pour les utilisateurs qui n'ont pas de connaissances mathématiques particulières. Par exemple, les constructions logiques « si, alors » sont plus facilement perçues par une personne. De plus, ces règles peuvent être utilisées dans divers SGBD en tant que requêtes SQL. Dans le cas où la connaissance extraite n'est pas transparente pour l'utilisateur, il devrait y avoir des méthodes de post-traitement pour l'amener sous une forme interprétable.

L'exploration de données n'est pas une, mais une collection d'un grand nombre de méthodes différentes de découverte de connaissances. Toutes les tâches résolues par les méthodes de Data Mining peuvent être conditionnellement divisées en six types :

L'exploration de données est de nature multidisciplinaire, car elle comprend des éléments de méthodes numériques, de statistiques mathématiques et de théorie des probabilités, de théorie de l'information et de logique mathématique, d'intelligence artificielle et d'apprentissage automatique.

Les tâches d'analyse métier sont formulées de différentes manières, mais la solution de la plupart d'entre elles se résume à l'une ou l'autre tâche d'exploration de données ou à une combinaison d'entre elles. Par exemple, l'évaluation des risques est une solution à un problème de régression ou de classification, la segmentation du marché est le clustering, la stimulation de la demande est des règles associatives. En fait, les tâches de Data Mining sont des éléments à partir desquels on peut "assembler" la solution de la plupart des problèmes métier réels.

Pour résoudre les tâches ci-dessus, diverses méthodes et algorithmes d'exploration de données sont utilisés. Compte tenu du fait que le Data Mining s'est développé et se développe à l'intersection de disciplines telles que les statistiques mathématiques, la théorie de l'information, l'apprentissage automatique et les bases de données, il est naturel que la plupart des algorithmes et méthodes de Data Mining aient été développés sur la base de diverses méthodes de ces disciplines. . Par exemple, l'algorithme de clustering k-means a été emprunté aux statistiques.

Les systèmes OLAP fournissent aux analystes un moyen de tester des hypothèses lors de l'analyse de données, c'est-à-dire que la tâche principale de l'analyste est de générer des hypothèses, qu'il résout sur la base de ses connaissances et de son expérience.Cependant, non seulement une personne a des connaissances, mais aussi le des données accumulées qui sont analysées ... Une telle connaissance est contenue dans une énorme quantité d'informations qu'une personne est incapable d'explorer par elle-même. Par conséquent, il existe une possibilité de manquer des hypothèses qui peuvent apporter des avantages significatifs.

Pour détecter les connaissances "cachées", des méthodes spéciales d'analyse automatique sont utilisées, à l'aide desquelles il faut pratiquement extraire des connaissances des "gravats" d'informations. Derrière cette direction, le terme « data mining » ou « data mining » a été corrigé.

Il existe de nombreuses définitions du DataMining qui se complètent. En voici quelques uns.

Le DataMining est le processus de découverte de modèles non triviaux et pratiquement utiles dans les bases de données. (Groupe de base)

Le DataMining est le processus d'extraction, d'exploration et de modélisation de grandes quantités de données pour découvrir des modèles jusqu'alors inconnus afin d'obtenir des avantages commerciaux (SAS Institute)

L'exploration de données est un processus qui vise à découvrir de nouvelles corrélations, modèles et tendances significatifs en passant au crible un grand volume de données stockées en utilisant des techniques de reconnaissance de formes et l'utilisation de méthodes statistiques et mathématiques (GartnerGroup)

Le DataMining est l'exploration et la découverte de connaissances cachées par une « machine » (algorithmes, intelligence artificielle) dans des données brutes.inconnu auparavant, non trivial, pratiquement utile, disponible pour interprétationpar une personne (A. Bargesyan "Technologies d'analyse de données")

Le DataMining est un processus de découverte de connaissances utiles sur les affaires (N.M. Abdikeev "KBA")

Propriétés des connaissances découvrables

Considérez les propriétés des connaissances découvertes.

  • Les connaissances doivent être nouvelles, inconnues auparavant. L'effort consacré à la découverte de connaissances déjà connues de l'utilisateur n'est pas payant. Par conséquent, ce sont les nouvelles connaissances, auparavant inconnues, qui ont de la valeur.
  • La connaissance doit être non triviale. Les résultats de l'analyse doivent refléter des données non évidentes, inattenduesmodèles dans les données qui composent la soi-disant connaissance cachée. Des résultats qui pourraient être obtenus plus de manière simple(par exemple, la visualisation visuelle) ne justifient pas l'utilisation de méthodes puissantes de DataMining.
  • La connaissance doit être utile en pratique. Les connaissances trouvées doivent être applicables, y compris sur de nouvelles données, avec un degré de fiabilité suffisamment élevé. L'utilité réside dans le fait que cette connaissance peut apporter un certain bénéfice dans son application.
  • La connaissance doit être disponible pour la compréhension humaine. Les modèles trouvés doivent être logiquement explicables, sinon il est possible qu'ils soient aléatoires. De plus, les connaissances découvertes doivent être présentées sous une forme compréhensible pour les humains.

Dans DataMining, des modèles sont utilisés pour représenter les connaissances acquises. Les types de modèles dépendent des méthodes utilisées pour les créer. Les plus courants sont : les règles, les arbres de décision, les clusters et les fonctions mathématiques.

Tâches d'exploration de données

Rappelons que la technologie DataMining est basée sur le concept de patterns, qui sont des patterns. Grâce à la détection de ces modèles cachés à l'œil nu, les tâches de DataMining sont résolues. Divers types les modèles qui peuvent être exprimés sous une forme compréhensible pour les humains correspondent à certaines tâches de DataMining.

Il n'y a pas de consensus sur les tâches à attribuer à DataMining. La plupart des sources faisant autorité énumèrent les éléments suivants : classification,

clustering, prédiction, association, visualisation, analyse et découverte

écarts, bilan, analyse des liens, synthèse.

Le but de la description qui suit est de donner une idée générale des tâches de DataMining, d'en comparer certaines, et aussi de présenter certaines des méthodes par lesquelles ces tâches sont résolues. Les tâches DataMining les plus courantes sont la classification, le clustering, l'association, la prévision et la visualisation. Ainsi, les tâches sont réparties selon les types d'informations produites, c'est la plus classification générale Tâches de DataMining.

Classification

Le problème de diviser un ensemble d'objets ou d'observations en groupes donnés a priori, appelés classes, au sein de chacun desquels ils sont supposés être similaires les uns aux autres, ayant approximativement les mêmes propriétés et caractéristiques. Dans ce cas, la solution est obtenue en se basant sur une analyse valeurs des attributs (signes).

La classification est l'une des tâches les plus importantes Extraction de données ... Il est appliqué en commercialisation lors de l'évaluation de la solvabilité des emprunteurs, déterminer fidélité du consommateur, la reconnaissance de formes , diagnostics médicaux et de nombreuses autres applications. Si l'analyste connaît les propriétés des objets de chaque classe, alors lorsqu'une nouvelle observation appartient à une certaine classe, ces propriétés lui sont automatiquement propagées.

Si le nombre de cours est limité à deux, alorsclassement binaire , à laquelle de nombreuses tâches plus complexes peuvent être réduites. Par exemple, au lieu de définir les niveaux de risque de crédit comme Élevé, Moyen ou Faible, vous pouvez en utiliser seulement deux : Émettre ou Refuser.

Il existe de nombreux modèles différents utilisés pour la classification dans DataMining : réseaux de neurones, arbres de décision , machines à vecteurs de support, k plus proches voisins, algorithmes de couverture, etc., dans la construction desquels l'apprentissage supervisé est utilisé lorsquevariable de sortie(étiquette de classe ) est spécifié pour chaque observation. Formellement, la classification est basée sur la partitionespaces de fonction sur la zone, au sein de laquellevecteurs multidimensionnels sont considérés comme identiques. En d'autres termes, si un objet tombe dans une région de l'espace associée à une certaine classe, il lui appartient.

Regroupement

Brève description. Le clustering est une suite logique de l'idée

classification. C'est une tâche plus complexe, la particularité du clustering est que les classes d'objets ne sont pas initialement prédéfinies. Le résultat du regroupement est la division des objets en groupes.

Un exemple de méthode pour résoudre un problème de clustering : apprentissage non supervisé d'un type particulier de réseaux de neurones - les cartes de Kohonen auto-organisées.

Association (Associations)

Brève description. Au cours de la résolution du problème de recherche de règles d'association, des modèles sont trouvés entre des événements liés dans l'ensemble de données.

La différence entre l'association et les deux tâches DataMining précédentes : la recherche de motifs s'effectue non pas en fonction des propriétés de l'objet analysé, mais entre plusieurs événements qui se produisent simultanément. L'algorithme le plus connu pour résoudre le problème de la recherche de règles d'association est l'algorithme Apriori.

Séquence ou association séquentielle

Brève description. La cohérence vous permet de trouver des modèles temporels entre les transactions. La tâche d'une séquence est similaire à une association, mais son but est d'établir des modèles non pas entre des événements se produisant simultanément, mais entre des événements liés dans le temps (c'est-à-dire se produisant à un intervalle de temps spécifique). En d'autres termes, la séquence est déterminée par la forte probabilité d'une chaîne d'événements liés dans le temps. En fait, une association est un cas particulier d'une séquence avec un décalage temporel égal à zéro. Cette tâche DataMining est également appelée tâche de modèle séquentiel.

Règle de séquence : après l'événement X, après un certain temps, l'événement Y se produira.

Exemple. Après avoir acheté un appartement, les habitants achètent un réfrigérateur dans 60 % des cas dans les deux semaines et un téléviseur dans 50 % des cas dans les deux mois. La solution à ce problème est largement utilisée dans le marketing et la gestion, par exemple, lors de la gestion du cycle client (CustomerLifecycleManagement).

Régression, prévision

Brève description. À la suite de la résolution du problème de prévision sur la base des caractéristiques des données historiques, les valeurs manquantes ou futures des indicateurs numériques cibles sont estimées.

Les méthodes de statistiques mathématiques, les réseaux de neurones, etc. sont largement utilisés pour résoudre de tels problèmes.

Des tâches supplémentaires

Détermination des écarts ou des valeurs aberrantes (DeviationDetection), analyse des écarts ou des valeurs aberrantes

Brève description. Le but de la résolution de ce problème est la détection et l'analyse des données les plus différentes de l'ensemble général de données, l'identification des modèles dits non caractéristiques.

Estimation

Le problème d'estimation se réduit à prédire les valeurs continues d'une caractéristique.

Analyse des liens

La tâche de trouver des dépendances dans un ensemble de données.

Visualisation (Visualisation, GraphMining)

À la suite de la visualisation, une image graphique des données analysées est créée. Pour résoudre le problème de visualisation, des méthodes graphiques sont utilisées qui montrent la présence de motifs dans les données.

Un exemple de techniques de visualisation est la présentation de données en dimensions 2D et 3D.

Récapitulation

La tâche, dont le but est de décrire des groupes spécifiques d'objets de l'ensemble de données analysé.

Assez proche de la classification ci-dessus est la division des tâches de DataMining en ce qui suit : recherche et découverte, prévision et classification, explication et description.

Exploration et découverte automatiques (recherche gratuite)

Exemple de tâche : découvrir de nouveaux segments de marché.

Pour résoudre cette classe de problèmes, des méthodes d'analyse de cluster sont utilisées.

Prévision et classification

Exemple de problème : Prédire la croissance des ventes en fonction des valeurs actuelles.

Méthodes : régression, réseaux de neurones, algorithmes génétiques, arbres de décision.

Les problèmes de classification et de prévision constituent un ensemble de modélisations dites inductives, qui aboutit à l'étude de l'objet ou du système analysé. Dans le processus de résolution de ces problèmes, un modèle général ou une hypothèse est développé sur la base d'un ensemble de données.

Explication et description

Exemple de tâche : caractériser les clients par des données démographiques et des historiques d'achats.

Méthodes : arbres de décision, systèmes de règles, règles d'association, analyse de liens.

Si le revenu du client est supérieur à 50 unités conventionnelles, et son âge est supérieur à 30 ans, alors la classe du client est la première.

Comparaison du clustering et de la classification

Caractéristique

Classification

Regroupement

Contrôlabilité de l'apprentissage

Contrôlé

Incontrôlé

Stratégies

Enseignement supervisé

Apprendre sans professeur

La présence d'une étiquette de classe

Ensemble d'apprentissage

accompagné d'une étiquette indiquant

la classe à laquelle le

observation

Étiquettes de classe d'enseignement

les ensembles sont inconnus

Base de classement

Les nouvelles données sont classées en fonction de l'ensemble d'apprentissage

Étant donné beaucoup de données avec un but

établir l'existence

classes ou clusters de données

Applications du DataMining

Il convient de noter qu'aujourd'hui, la technologie DataMining est la plus largement utilisée dans la résolution de problèmes commerciaux. Peut-être que la raison est que c'est dans ce sens que le retour sur l'utilisation des outils de DataMining peut aller, selon certaines sources, jusqu'à 1000% et que les coûts de sa mise en œuvre peuvent rapidement s'amortir.

Nous examinerons en détail les quatre principales applications de la technologie DataMining : la science, les affaires, la recherche pour le gouvernement et le Web.

tâches commerciales... Orientations principales : banque, finance, assurance, CRM, fabrication, télécommunications, commerce électronique, marketing, bourse et autres.

    S'il faut accorder un prêt à un client

    Segmentation du marché

    Attirer de nouveaux clients

    Fraude de carte de crédit

Application DataMining pour résoudre les problèmes au niveau de l'État... Orientations principales : recherche de fraudeurs fiscaux ; moyens dans la lutte contre le terrorisme.

Application DataMining pour recherche scientifique... Principaux domaines : médecine, biologie, génétique moléculaire et génie génétique, bioinformatique, astronomie, chimie appliquée, recherche sur la toxicomanie et autres.

Application de DataMining pour solution Tâches Web... Directions principales : moteurs de recherche (searchengines), compteurs et autres.

Commerce électronique

Dans le domaine du e-commerce, le DataMining est utilisé pour former

Cette classification permet aux entreprises d'identifier des groupes de clients spécifiques et de mener des politiques de marketing conformes aux intérêts et aux besoins des clients identifiés. La technologie DataMining pour le commerce électronique est étroitement liée à la technologie WebMining.

Les principales missions du DataMining en production industrielle :

· Analyse système complexe des situations de production;

· Prévision à court et long terme de l'évolution des situations de production ;

· Développement d'options pour des solutions d'optimisation;

Prévision de la qualité du produit en fonction de certains paramètres

processus technologique;

Détection des tendances cachées et des modèles de développement de la production

processus;

· Prévision des modèles de développement des processus de production ;

· Détection des facteurs d'influence cachés;

Détection et identification de relations auparavant inconnues entre

paramètres de production et facteurs d'influence;

Analyse de l'environnement d'interaction des processus de production et de prévision

changements dans ses caractéristiques;

processus;

Visualisation des résultats d'analyse, préparation de rapports préliminaires et de projets

solutions réalisables avec des estimations de la fiabilité et de l'efficacité des implémentations possibles.

Commercialisation

Le DataMining est largement utilisé en marketing.

Questions marketing de base « Qu'est-ce qui est vendu ? », « Comment est-il vendu ? », « Qui est

consommateur ?"

La conférence sur les problèmes de classification et de clustering décrit en détail l'utilisation de l'analyse de cluster pour résoudre des problèmes de marketing, tels que la segmentation des consommateurs.

Un autre ensemble commun de méthodes pour résoudre les problèmes de marketing sont les méthodes et les algorithmes pour trouver des règles d'association.

La recherche de modèles temporels est également utilisée avec succès ici.

Vendre au détail

Dans le domaine de la vente au détail, ainsi que dans le marketing, les éléments suivants sont appliqués :

Algorithmes pour trouver des règles d'association (pour déterminer les ensembles fréquents

biens que les clients achètent en même temps). L'identification de ces règles aide

placer des marchandises sur les étagères des zones de vente, développer des stratégies d'achat de marchandises

et leur placement dans des entrepôts, etc.

L'utilisation de séquences temporelles, par exemple, pour déterminer

les volumes requis de stocks de marchandises dans l'entrepôt.

Méthodes de classification et de regroupement pour déterminer des groupes ou catégories de clients,

dont la connaissance contribue à la promotion réussie des produits.

Bourse

Voici une liste de problèmes boursiers qui peuvent être résolus à l'aide de la technologie Data.

Mines : prévoir les valeurs futures des instruments financiers et leurs indicateurs

valeurs passées;

Prévision de la tendance (direction future du mouvement - croissance, baisse, stagnation) de la

l'instrument et sa force (forte, moyennement forte, etc.);

Attribution de la structure de cluster du marché, de l'industrie, du secteur pour un certain ensemble

les caractéristiques;

· Gestion de portefeuille dynamique;

· Prévision de la volatilité ;

· L'évaluation des risques;

· Anticiper le déclenchement de la crise et prévoir son évolution ;

Sélection d'actifs, etc.

En plus des domaines d'activité décrits ci-dessus, la technologie DataMining peut être utilisée dans une grande variété de domaines d'activité où il existe un besoin d'analyse de données et une certaine quantité d'informations rétrospectives a été accumulée.

L'exploration de données dans le CRM

L'un des domaines les plus prometteurs de l'application DataMining est l'utilisation de cette technologie dans le CRM analytique.

CRM (CustomerRelationshipManagement) - gestion de la relation client.

Lorsque ces technologies sont utilisées ensemble, l'exploration de connaissances est associée à « gagner de l'argent » à partir des données des clients.

Un aspect important du travail des services marketing et commercial est la préparation desune vue holistique des clients, des informations sur leurs caractéristiques, leurs caractéristiques, la structure de la clientèle. Le CRM utilise ce qu'on appelle le profilageclients, donnant une vue complète de l'ensemble information nécessaire sur les clients.

Le profilage client comprend les éléments suivants : segmentation client, rentabilité client, fidélisation client, analyse de la réponse client. Chacun de ces composants peut être étudié à l'aide de DataMining, et leur analyse ensemble, en tant que composants de profilage, peut ainsi donner des connaissances qui ne peuvent pas être obtenues à partir de chaque caractéristique individuelle.

WebMine

WebMining peut être traduit par « data mining sur le Web ». WebIntelligence ou Web.

L'intelligence est prête à « ouvrir un nouveau chapitre » dans le développement rapide du commerce électronique. La capacité à identifier les intérêts et les préférences de chaque visiteur en observant son comportement est un avantage concurrentiel sérieux et critique sur le marché du commerce électronique.

Les systèmes WebMining peuvent répondre à de nombreuses questions, par exemple, lequel des visiteurs est un client potentiel de la boutique Web, quel groupe de clients de la boutique Web génère le plus de revenus, quels sont les intérêts d'un visiteur ou d'un groupe de visiteurs en particulier.

Méthodes

Classement des méthodes

Il existe deux groupes de méthodes :

  • méthodes statistiques basées sur l'utilisation de l'expérience accumulée moyenne, qui se reflète dans des données rétrospectives;
  • méthodes cybernétiques, qui comprennent de nombreuses approches mathématiques hétérogènes.

L'inconvénient d'une telle classification : les algorithmes statistiques et cybernétiques reposent d'une manière ou d'une autre sur la comparaison de l'expérience statistique avec les résultats du suivi de la situation actuelle.

L'avantage de cette classification est sa facilité d'interprétation - elle est utilisée pour décrire des moyens mathématiques approche moderneà l'extraction de connaissances des grilles d'observations initiales (opérationnelles et rétrospectives), c'est-à-dire dans les tâches d'exploration de données.

Regardons de plus près les groupes présentés ci-dessus.

Méthodes d'exploration de données statistiques

Dans ces Les méthodes sont représentées par quatre sections interdépendantes :

  • analyse préalable de la nature des données statistiques (test d'hypothèses de stationnarité, de normalité, d'indépendance, d'homogénéité, évaluation de la forme de la fonction de distribution, de ses paramètres, etc.) ;
  • identifier les liens et motifs(analyse de régression linéaire et non linéaire, analyse de corrélation, etc.) ;
  • analyse statistique multivariée (analyse discriminante linéaire et non linéaire, analyse en cluster, analyse en composantes, analyse factorielle, etc.) ;
  • modèles dynamiques et prévisions basées sur des séries chronologiques.

L'arsenal des méthodes statistiques du Data Mining est classé en quatre groupes de méthodes :

  1. Analyse descriptive et description des données initiales.
  2. Analyse des relations (analyse de corrélation et de régression, analyse factorielle, analyse de variance).
  3. Analyse statistique multivariée (analyse en composantes, analyse discriminante, analyse de régression multivariée, corrélations canoniques, etc.).
  4. Analyse de séries temporelles (modèles dynamiques et prévisions).

Méthodes cybernétiques d'exploration de données

La deuxième direction du Data Mining est un ensemble d'approches unies par l'idée de mathématiques informatiques et l'utilisation de la théorie de l'intelligence artificielle.

Ce groupe comprend les méthodes suivantes :

  • réseaux de neurones artificiels (reconnaissance, clustering, prévision);
  • programmation évolutive (y compris les algorithmes de la méthode de comptabilité de groupe des arguments);
  • algorithmes génétiques (optimisation) ;
  • mémoire associative (recherche d'analogues, de prototypes) ;
  • logique floue;
  • arbres de décision;
  • systèmes experts de traitement des connaissances.

L'analyse par grappes

Le but du clustering est de trouver des structures existantes.

Le clustering est une procédure descriptive, il ne tire aucune conclusion statistique, mais permet de mener une analyse exploratoire et d'étudier la "structure des données".

La notion même de « cluster » est définie de manière ambiguë : chaque étude a ses propres « clusters ». Le concept de cluster se traduit par « cluster », « bouquet ». Un cluster peut être caractérisé comme un groupe d'objets ayant des propriétés communes.

Il y a deux caractéristiques d'un cluster :

  • homogénéité interne;
  • isolement extérieur.

La question que se posent les analystes lorsqu'ils résolvent de nombreux problèmes est de savoir comment organiser les données en structures visuelles, c'est-à-dire : étendre les taxonomies.

Initialement, le regroupement a reçu la plus grande application dans des sciences telles que la biologie, l'anthropologie, la psychologie. Pour résoudre des problèmes économiques, le clustering a longtemps été peu utilisé en raison des spécificités des données et des phénomènes économiques.

Les clusters peuvent être non chevauchants, exclusifs ou chevauchants.

Il convient de noter qu'à la suite de l'application de diverses méthodes d'analyse de grappes, des grappes de formes diverses peuvent être obtenues. Par exemple, des clusters de type "chaîne" sont possibles, lorsque les clusters sont représentés par de longues "chaînes", des clusters de forme allongée, etc., et certaines méthodes peuvent créer des clusters de forme arbitraire.

Différentes méthodes peuvent avoir tendance à créer des grappes de certaines tailles (par exemple, petites ou grandes) ou supposer la présence de grappes de différentes tailles dans l'ensemble de données. Certaines techniques d'analyse de cluster sont particulièrement sensibles au bruit ou aux valeurs aberrantes, tandis que d'autres sont moins sensibles. En raison de l'utilisation de différentes méthodes de clustering, des résultats inégaux peuvent être obtenus, ceci est normal et est une caractéristique du fonctionnement de l'un ou l'autre algorithme. Ces caractéristiques doivent être prises en compte lors du choix d'une méthode de clustering.

Donnons brève description approches de regroupement.

Algorithmes de partitionnement, incl. itératif:

  • diviser les objets en k groupes ;
  • réallocation itérative des objets pour améliorer le clustering.
  • Hiérarchies algorithmes :
  • agglomération : chaque objet est d'abord un cluster, des clusters,
  • se connectant les uns aux autres, ils forment un plus grand cluster, etc.

Méthodes basées sur la densité :

  • basé sur la connectivité des objets ;
  • ignorer le bruit, trouver des grappes de forme arbitraire.

Grille - méthodes (méthodes basées sur la grille) :

  • quantifier des objets dans des structures de grille.

Méthodes de modèle (basées sur un modèle) :

  • en utilisant le modèle pour trouver les clusters qui correspondent le mieux aux données.

Méthodes d'analyse de cluster. Méthodes itératives.

Avec un grand nombre d'observations, les méthodes hiérarchiques d'analyse de cluster ne sont pas adaptées. Dans de tels cas, des méthodes de partitionnement non hiérarchiques sont utilisées, qui sont des méthodes itératives de partitionnement de la population d'origine. Au cours du processus de division, de nouveaux clusters se forment jusqu'à ce que la règle d'arrêt soit respectée.

Ce clustering non hiérarchique consiste à diviser un ensemble de données en plusieurs clusters distincts. Il existe deux approches. La première consiste à définir les frontières des clusters comme les zones les plus denses dans l'espace multidimensionnel des données initiales, c'est-à-dire définition d'un cluster où il y a une grande "concentration de points". La deuxième approche consiste à minimiser la mesure de la différence entre les objets

Algorithme des K-moyennes

La plus courante parmi les méthodes non hiérarchiques est l'algorithme des k-moyennes, également appelé analyse de cluster rapide. Description complète peut être trouvé dans les travaux de Hartigan et Wong (1978). Contrairement aux méthodes hiérarchiques, qui ne nécessitent pas d'hypothèses préalables sur le nombre de clusters, pour pouvoir utiliser cette méthode, il est nécessaire d'avoir une hypothèse sur le nombre de clusters le plus probable.

L'algorithme k-means construit k clusters situés aux plus grandes distances possibles les uns des autres. Le principal type de problèmes que l'algorithme des k-moyennes résout est la présence d'hypothèses (hypothèses) concernant le nombre de clusters, alors qu'elles devraient être aussi différentes que possible. Le choix du nombre k peut être basé sur des résultats de recherches antérieures, des considérations théoriques ou une intuition.

L'idée générale de l'algorithme : un nombre fixe donné k de clusters d'observation est comparé à des clusters de sorte que la moyenne dans le cluster (pour toutes les variables) diffère autant que possible les unes des autres.

Description de l'algorithme

1. Distribution initiale des objets en clusters.

  • Le nombre k est choisi, et à la première étape, ces points sont considérés comme les "centres" des clusters.
  • Chaque cluster a un centre.

Le choix des centroïdes initiaux peut se faire comme suit :

  • sélection de k-observations pour maximiser la distance initiale ;
  • sélection aléatoire de k-observations ;
  • sélection des premières k-observations.

En conséquence, chaque objet est affecté à un cluster spécifique.

2. Un processus itératif.

Les centres des clusters sont calculés, qui sont ensuite considérés comme les moyennes des coordonnées des clusters. Les objets sont à nouveau redistribués.

Le processus de calcul des centres et de redistribution des objets se poursuit jusqu'à ce que l'une des conditions soit remplie :

  • les centres de cluster se sont stabilisés, c'est-à-dire toutes les observations appartiennent au cluster auquel elles appartenaient avant l'itération en cours ;
  • le nombre d'itérations est égal au nombre maximum d'itérations.

La figure montre un exemple de fonctionnement de l'algorithme des k-moyennes pour k égal à deux.

Un exemple de l'algorithme des k-moyennes (k = 2)

Le choix du nombre de clusters est une question complexe. S'il n'y a pas d'hypothèses sur ce nombre, il est recommandé de créer 2 clusters, puis 3, 4, 5, etc., en comparant les résultats obtenus.

Vérification de la qualité du clustering

Après avoir obtenu les résultats de l'analyse de cluster par la méthode des k-moyennes, l'exactitude du clustering doit être vérifiée (c'est-à-dire pour évaluer en quoi les clusters diffèrent les uns des autres).

Pour cela, des valeurs moyennes sont calculées pour chaque cluster. Avec un bon clustering, des moyennes très différentes devraient être obtenues pour toutes les mesures ou au moins pour la plupart d'entre elles.

Avantages de l'algorithme des k-moyennes :

  • facilité d'utilisation;
  • vitesse d'utilisation;
  • clarté et transparence de l'algorithme.

Inconvénients de l'algorithme k-means :

  • l'algorithme est trop sensible aux valeurs aberrantes qui peuvent fausser la moyenne.

Solution possible ce problème est l'utilisation d'une modification de l'algorithme - l'algorithme k-médiane ;

  • l'algorithme peut être lent sur les grandes bases de données. Une solution possible à ce problème consiste à utiliser l'échantillonnage des données.

Réseaux bayésiens

En théorie des probabilités, le concept de dépendance à l'information est modélisé par la dépendance conditionnelle (ou strictement : le manque d'indépendance conditionnelle), qui décrit comment notre confiance dans le résultat d'un événement change lorsque nous acquérons de nouvelles connaissances sur des faits, à condition que nous connaissions déjà un certain ensemble d'autres faits.

Il est pratique et intuitif de représenter les dépendances entre les éléments au moyen d'un chemin dirigé reliant ces éléments dans un graphe. Si la dépendance entre les éléments x et y n'est pas directe et s'effectue à travers le troisième élément z, alors il est logique de s'attendre à ce que l'élément z soit sur le chemin entre x et y. De tels nœuds intermédiaires "couperont" la relation entre x et y, c'est-à-dire simuler la situation d'indépendance conditionnelle entre eux avec une valeur connue des facteurs d'influence directs.Les réseaux bayésiens sont de tels langages de modélisation, qui servent à décrire les dépendances conditionnelles entre les concepts d'un certain domaine.

Les réseaux bayésiens sont des structures graphiques pour représenter des relations probabilistes entre un grand nombre de variables et pour effectuer une inférence probabiliste basée sur ces variables.La classification "naïve" (bayésienne) est une méthode de classification assez transparente et compréhensible.indépendance des signes.

Propriétés de classification :

1. Utiliser toutes les variables et définir toutes les dépendances entre elles.

2. Avoir deux hypothèses sur les variables :

  • toutes les variables sont d'égale importance ;
  • toutes les variables sont statistiquement indépendantes, c'est-à-dire la valeur d'une variable ne dit rien sur la valeur de l'autre.

Il existe deux principaux scénarios d'application des réseaux bayésiens :

1. Analyse descriptive. Le domaine est représenté sous la forme d'un graphe dont les nœuds représentent des concepts, et les arcs orientés, représentés par des flèches, illustrent les dépendances directes entre ces concepts. Le lien entre les concepts de x et y signifie : connaître la valeur de x aide à faire une estimation plus éclairée de la valeur de y. L'absence de lien direct entre les concepts simule l'indépendance conditionnelle entre eux pour les valeurs connues d'un certain ensemble de concepts "séparateurs". Par exemple, la pointure d'un enfant semble être liée à la capacité de lecture d'un enfant à travers l'âge. Alors, taille plus grande chaussures nous donne plus de confiance que l'enfant lit déjà, mais si nous connaissons déjà l'âge, alors connaître la taille de la chaussure ne nous donnera plus d'informations supplémentaires sur la capacité de l'enfant à lire.


Pour un autre exemple, à l'opposé, considérons des facteurs initialement non liés comme le tabagisme et le rhume. Mais si nous connaissons un symptôme, par exemple, qu'une personne souffre d'une toux le matin, alors savoir que la personne ne fume pas augmente notre confiance que la personne a un rhume.

2. Classification et prévision. Le réseau bayésien, permettant l'indépendance conditionnelle d'un certain nombre de concepts, permet de réduire le nombre de paramètres de distribution conjointe, permettant de les estimer en toute confiance sur les volumes de données disponibles. Ainsi, avec 10 variables, chacune pouvant prendre 10 valeurs, le nombre de paramètres de distribution conjointe est de 10 milliards - 1. Si nous supposons que seules 2 variables dépendent l'une de l'autre, alors le nombre de paramètres devient 8 * (10-1 ) + (10 * 10-1) = 171. Ayant un modèle de distribution conjointe qui est réaliste en termes de ressources de calcul, la signification inconnue de tout concept, nous pouvons prédire, par exemple, la signification la plus probable de ce concept avec connu significations d'autres concepts.

Les avantages des réseaux bayésiens tels que la méthode DataMining sont notés :

Le modèle définit les dépendances entre toutes les variables, ce qui facilitegérer les situations dans lesquelles les valeurs de certaines variables sont inconnues ;

Les réseaux bayésiens sont assez simples à interpréter et à autoriser au stademodélisation prédictive analyse de simulation simple ;

La méthode bayésienne permet de combiner naturellement des motifs,dérivées de données et, par exemple, de connaissances spécialisées acquises sous une forme explicite ;

Les réseaux bayésiens évitent les problèmes de réapprentissage(surapprentissage), c'est-à-dire complication excessive du modèle, qui est un point faiblede nombreuses méthodes (par exemple, les arbres de décision et les réseaux de neurones).

L'approche bayésienne naïve présente les inconvénients suivants :

Il est correct de multiplier les probabilités conditionnelles uniquement lorsque toutes les entréesles variables sont en effet statistiquement indépendantes ; bien que cette méthode soit souventmontre d'assez bons résultats si l'état de la statistiquel'indépendance, mais en théorie une telle situation devrait être traitée avec desméthodes basées sur la formation de réseaux bayésiens ;

La gestion immédiate des variables continues n'est pas possible - elles sont nécessairesconversion en une échelle d'intervalle de sorte que les attributs soient discrets ; cependant telles transformations peuvent parfois conduire à la perte de modèles significatifs ;

Le résultat de la classification dans l'approche bayésienne naïve n'est influencé que parvaleurs individuelles des variables d'entrée, influence combinée des paires oules triples de valeurs d'attributs différents ne sont pas pris en compte ici. Cela pourrait améliorerla qualité du modèle de classification en termes de précision prédictive,cependant, augmenterait le nombre d'options testées.

Réseaux de neurones artificiels

Les réseaux de neurones artificiels (ci-après réseaux de neurones) peuvent être synchrones et asynchrones.Dans les réseaux de neurones synchrones, à chaque instant, seulement un neurone. En asynchrone - l'état change immédiatement pour tout le groupe neurones, en règle générale, dans tous couche. Deux architectures de base peuvent être distinguées : les réseaux en couches et les réseaux entièrement maillés.La clé des réseaux en couches est le concept de couche.Couche - un ou plusieurs neurones, dont les entrées reçoivent le même signal commun.Les réseaux de neurones en couches sont des réseaux de neurones dans lesquels les neurones sont divisés en groupes séparés (couches) de sorte que le traitement de l'information s'effectue en couches.Dans les réseaux en couches, les neurones de la couche i reçoivent des signaux d'entrée, les transforment et les transmettent à travers les points de branchement aux neurones de la couche (i + 1). Et ainsi de suite jusqu'à la kème couche, ce qui donnesignaux de sortie pour l'interprète et l'utilisateur. Le nombre de neurones dans chaque couche n'est pas lié au nombre de neurones dans les autres couches, il peut être arbitraire.Dans le cadre d'une couche, les données sont traitées en parallèle, et à l'échelle de l'ensemble du réseau, le traitement est effectué de manière séquentielle - de couche en couche. Les réseaux de neurones en couches comprennent, par exemple, les perceptrons multicouches, les réseaux à fonction de base radiale, les réseaux de cognition, de non cognition et de mémoire associative.Cependant, le signal n'est pas toujours appliqué à tous les neurones d'une couche. Dans le cognitron, par exemple, chaque neurone de la couche courante ne reçoit des signaux que des neurones de la couche précédente qui lui sont proches.

Les réseaux en couches, à leur tour, peuvent être monocouches et multicouches.

Réseau monocouche- un réseau constitué d'une couche.

Réseau multicouche- un réseau à plusieurs couches.

Dans un réseau multicouche, la première couche est appelée couche d'entrée, les suivantes sont internes ou cachées et la dernière couche est appelée couche de sortie. Ainsi, les couches intermédiaires sont toutes des couches dans un multicouche réseau neuronal, sauf pour l'entrée et la sortie.La couche d'entrée du réseau met en œuvre la connexion avec les données d'entrée, la sortie - avec la sortie.Ainsi, les neurones peuvent être entrés, sortis et cachés.La couche d'entrée est organisée à partir de neurones d'entrée, qui reçoivent des données et les distribuent aux entrées des neurones de la couche cachée du réseau.Un neurone caché (hiddenneuron) est un neurone situé dans la couche cachée du réseau de neurones.Les neurones de sortie (outputneuron), à partir desquels la couche de sortie du réseau est organisée, produisentles résultats du réseau de neurones.

Dans les réseaux entièrement connectés chaque neurone transmet son signal de sortie au reste des neurones, y compris lui-même. Les signaux de sortie du réseau peuvent être tout ou partie des signaux de sortie des neurones après plusieurs cycles d'horloge de fonctionnement du réseau.

Tous les signaux d'entrée vont à tous les neurones.

Formation en réseau de neurones

Avant d'utiliser un réseau de neurones, il doit être formé.Le processus de formation d'un réseau de neurones consiste à ajuster ses paramètres internes pour une tâche spécifique.L'algorithme du réseau de neurones est itératif, ses étapes sont appelées époques ou cycles.Une époque est une itération dans le processus de formation, y compris la présentation de tous les exemples de l'ensemble de formation et, éventuellement, la vérification de la qualité de la formation sur le contrôle ensemble. Le processus d'apprentissage est réalisé sur un échantillon d'apprentissage.L'échantillon d'apprentissage comprend les valeurs d'entrée et leurs valeurs de sortie correspondantes de l'ensemble de données. Pendant l'entraînement, le réseau de neurones trouve des dépendances des champs de sortie sur ceux d'entrée.Ainsi, nous sommes confrontés à la question - quels champs de saisie (caractéristiques) sommes-nousnécessaire à utiliser. Dans un premier temps, le choix est fait de manière heuristique, puisle nombre d'entrées peut être modifié.

La question sur le nombre d'observations dans l'ensemble de données peut être un peu délicate. Et bien qu'il existe des règles décrivant la relation entre le montant requis observations et la taille du réseau, leur validité n'a pas été prouvée.Le nombre d'observations nécessaires dépend de la complexité du problème à résoudre. Avec une augmentation du nombre de caractéristiques, le nombre d'observations augmente de manière non linéaire, ce problème est appelé la "malédiction de la dimension". Avec quantité insuffisanteun modèle linéaire est recommandé.

L'analyste doit déterminer le nombre de couches dans le réseau et le nombre de neurones dans chaque couche.Ensuite, vous devez attribuer de telles valeurs de poids et de biais qui peuventminimiser l'erreur de décision. Les poids et les biais sont automatiquement ajustés pour minimiser la différence entre le signal souhaité et le signal de sortie, ce qui est appelé erreur d'apprentissage.L'erreur d'apprentissage pour le réseau de neurones construit est calculée en comparantvaleurs de sortie et cibles (souhaitées). La fonction d'erreur est formée à partir des différences obtenues.

La fonction d'erreur est une fonction objectif qui doit être minimisée dans le processusapprentissage guidé d'un réseau de neurones.En utilisant la fonction d'erreur, vous pouvez évaluer la qualité du réseau neuronal pendant l'entraînement. Par exemple, la somme des carrés des erreurs est souvent utilisée.La qualité de la formation d'un réseau de neurones dépend de sa capacité à résoudre les tâches de premier plan.

Recyclage d'un réseau de neurones

Lors de l'entraînement des réseaux de neurones, il y a souvent une difficulté sérieuse appeléeproblème de sur-apprentissage.Trop ajusté ou trop ajusté – correspondance trop exacteréseau de neurones à un ensemble spécifique d'exemples de formation, dans lesquels le réseau perdcapacité à généraliser.Le surentraînement se produit en cas de formation trop longue, de nombre insuffisant deexemples de formation ou une structure de réseau de neurones trop compliquée.Le surapprentissage est dû au fait que le choix de l'ensemble de formation (formation)est aléatoire. Dès les premières étapes de l'apprentissage, il y a une réduction de l'erreur. Sur leétapes suivantes afin de réduire les paramètres d'erreur (fonction objectif)s'adapter aux caractéristiques de l'ensemble d'apprentissage. Cependant, cela se produit"ajustement" non pas pour les lois générales de la série, mais pour les caractéristiques de sa partie -sous-ensemble de formation. Dans ce cas, la précision de la prévision diminue.L'une des options pour faire face au surapprentissage du réseau consiste à diviser l'échantillon d'apprentissage par deuxensembles (formation et test).Sur l'ensemble d'entraînement, le réseau de neurones est entraîné. Le test du modèle construit est effectué sur l'ensemble de test. Ces ensembles ne doivent pas se chevaucher.A chaque étape, les paramètres du modèle changent, mais une diminution constantela valeur de la fonction objectif se produit précisément sur l'ensemble d'apprentissage. En divisant l'ensemble en deux, nous pouvons observer l'évolution de l'erreur de prévision sur l'ensemble de test en parallèle avec les observations sur l'ensemble d'apprentissage. Certainsle nombre d'étapes dans l'erreur de prévision diminue sur les deux ensembles. Cependant surÀ une certaine étape, l'erreur sur l'ensemble de test commence à augmenter, tandis que l'erreur sur l'ensemble d'apprentissage continue de diminuer. Ce moment est considéré comme le début de la reconversion.

Outils d'exploration de données

Développement dans le secteur DataMining du marché mondial Logicielà la fois des leaders de renommée mondiale et des entreprises émergentes sont employés. Les outils de DataMining peuvent être présentés soit comme une application autonome, soit comme des modules complémentaires au produit principal.Cette dernière option est mise en œuvre par de nombreux leaders du marché des logiciels.Ainsi, il est déjà devenu une tradition que les développeurs de progiciels statistiques universels, en plus des méthodes traditionnelles d'analyse statistique, incluent dans le progicielun ensemble spécifique de méthodes DataMining. Il s'agit de packages tels que SPSS (SPSS, Clémentine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Certains fournisseurs OLAP proposent également un ensemble de techniques de DataMining, telles que la famille de produits Cognos. Il existe des fournisseurs qui incluent des solutions DataMining dans les fonctionnalités du SGBD : Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMIntelligentMinerforData).

Bibliographie

  1. Abdikeev N.M. Danko T.P. S.V. Ildemenov Kiselev A.D., « Réingénierie des processus commerciaux. Cours MBA », Moscou : Maison d'édition Eksmo, 2005. - 592 p. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. "La gestion des connaissances dans les entreprises et la réingénierie d'entreprise" - M. : Infra-M, 2011.- 382 p. - ISBN 978-5-16-004300-5
  1. Barsegyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. "Méthodes et modèles d'analyse de données : OLAP et Data Mining", Saint-Pétersbourg : BHV-Petersburg, 2004,336s., ISBN 5-94157-522-X
  1. Duc DANS., Samoylenko MAIS., "Exploration de données.Stage "SPb : Peter, 2001, 386s.
  1. Chubukova I.A., cours d'exploration de données, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Practical Machine Learning Tools and Techniques (troisième édition), ISBN 978-0-12-374856-0
  1. Petroschine V.A. , Khan L., Exploration de données multimédia et découverte des connaissances

Envoyez votre bon travail dans la base de connaissances est simple. Utilisez le formulaire ci-dessous

Les étudiants, les étudiants diplômés, les jeunes scientifiques qui utilisent la base de connaissances dans leurs études et leur travail vous seront très reconnaissants.

Documents similaires

    La description Fonctionnalité Les technologies d'exploration de données en tant que processus de détection de données inconnues. Etude de systèmes d'inférence de règles associatives et de mécanismes d'algorithmes de réseaux de neurones. Description des algorithmes de clustering et des domaines d'application du Data Mining.

    essai, ajouté le 14/06/2013

    Notions de base pour le clustering. Utiliser le Data Mining comme un moyen de "découvrir les connaissances dans les bases de données". Choix des algorithmes de clustering. Récupération des données de la base de données de stockage de l'atelier distant. Regrouper les étudiants et les tâches.

    dissertation ajoutée le 10/07/2017

    Amélioration des technologies d'enregistrement et de stockage des données. Spécificité des exigences modernes pour le traitement des données d'information. Le concept de modèles reflétant des fragments de relations multidimensionnelles dans les données à la base technologie moderne Exploration de données.

    essai, ajouté le 02/09/2010

    Exploration de données, histoire du développement de l'exploration de données et découverte de connaissances. Éléments technologiques et méthodes d'exploration de données. Étapes de la découverte des connaissances. Détection des changements et des écarts. Disciplines connexes, recherche d'information et extraction de texte.

    rapport ajouté le 16/06/2012

    Le Data Mining en tant que processus d'aide à la décision basé sur la recherche de modèles cachés (modèles d'information) dans les données. Ses modèles et étapes de mise en œuvre, historique du développement de cette technologie, évaluation des avantages et des inconvénients, opportunités.

    essai, ajouté le 17/12/2014

    Classification des tâches de DataMining. Création de rapports et de totaux. Fonctionnalités de Data Miner dans Statistica. Problème de classification, de clustering et de régression. Outils d'analyse Statistica Data Miner. L'essence du problème est la recherche de règles d'association. Analyse des prédicteurs de survie.

    dissertation, ajouté le 19/05/2011

    Domaines prometteurs de l'analyse des données : analyse informations textuelles, l'exploration de données. Analyse d'informations structurées stockées dans des bases de données. Processus d'analyse documents texte... Caractéristiques du traitement préliminaire des données.

    résumé, ajouté le 13/02/2014

    Classification des tâches de Data Mining. La tâche de regroupement et de recherche de règles d'association. Déterminer la classe d'un objet par ses propriétés et ses caractéristiques. Trouver des dépendances fréquentes entre des objets ou des événements. Traitement des données analytiques opérationnelles.

    essai, ajouté le 13/01/2013

À l'heure actuelle, des éléments d'intelligence artificielle sont activement introduits dans les activités pratiques du gestionnaire. Contrairement aux systèmes d'intelligence artificielle traditionnels, la technologie de recherche et d'analyse intelligente des données ou « data mining » (Data Mining - DM) ne cherche pas à simuler l'intelligence naturelle, mais renforce ses capacités avec la puissance des serveurs informatiques modernes, moteurs de recherche et entrepôts de données. Très souvent, les mots « Détection de connaissances dans les bases de données » se trouvent à côté des mots « Exploration de données ».

Riz. 6.17.

L'exploration de données est le processus de découverte d'interprétations auparavant inconnues, non triviales, pratiquement utiles et accessibles des connaissances dans les données brutes, ce qui est nécessaire pour prendre des décisions dans diverses sphères de l'activité humaine. L'exploration de données est d'une grande valeur pour les gestionnaires et les analystes dans leurs activités quotidiennes. Les gens d'affaires ont compris qu'avec l'aide des méthodes de Data Mining, ils peuvent obtenir des avantages concurrentiels tangibles.

La technologie moderne Data Mining (Discovery-driven Data Mining) est basée sur le concept de Patterns, reflétant des fragments de relations multidimensionnelles dans les données. Ces modèles représentent des modèles inhérents aux échantillons de données qui peuvent être exprimés de manière compacte sous une forme lisible par l'homme. La recherche de motifs est effectuée par des méthodes qui ne sont pas limitées par le cadre d'hypothèses a priori sur la structure de l'échantillon et le type de distributions des valeurs des indicateurs analysés. En figue. 6.17 montre un schéma de transformation de données utilisant la technologie de Data Mining.

Riz. 6.18.

La base de toutes sortes de systèmes de prévision est l'information historique stockée dans la base de données sous forme de séries chronologiques. S'il est possible de construire des modèles qui reflètent de manière adéquate la dynamique du comportement des indicateurs cibles, il est probable qu'ils puissent être utilisés pour prédire le comportement du système à l'avenir. En figue. 6.18 montre le cycle complet de l'application de la technologie Data Mining.

Une disposition importante du Data Mining est la non trivialité des modèles recherchés. Cela signifie que les modèles trouvés doivent refléter les régularités non évidentes et inattendues (inattendues) dans les données qui constituent la soi-disant connaissance cachée (connaissance cachée). Les gens d'affaires ont fini par comprendre que les données « brutes » contiennent une couche profonde de connaissances, et si elles sont correctement excavées, de véritables pépites peuvent être trouvées qui peuvent être utilisées en compétition.

La portée de l'exploration de données n'est limitée par rien - la technologie peut être appliquée partout où il y a d'énormes quantités de données « brutes » !


Tout d'abord, les méthodes de Data Mining intéressent les entreprises commerciales déployant des projets basés sur le Data Warehousing. L'expérience de nombreuses entreprises de ce type montre que le retour sur l'utilisation du Data Mining peut atteindre 1000%. Il y a eu des rapports d'avantages économiques qui sont 10 à 70 fois plus élevés que le coût initial de 350 000 $ à 750 000 $. Il existe des informations sur un projet de 20 millions de dollars qui a porté ses fruits en seulement 4 mois. Un autre exemple est l'économie annuelle de 700 000 $ due à la mise en œuvre du Data Mining dans l'une des chaînes de supermarchés au Royaume-Uni.

Microsoft a officiellement annoncé qu'il intensifie son activité de Data Mining. Une équipe de recherche Microsoft dédiée dirigée par Osama Fayyad et six partenaires invités (Angoss, Datasage, Epiphany, SAS, Silicon Graphics, SPSS) préparent un projet commun pour développer une norme d'échange de données et des outils pour intégrer des outils d'exploration de données avec des bases de données et des entrepôts de données .

Le Data Mining est un domaine multidisciplinaire qui a vu le jour et se développe sur la base des acquis de la statistique appliquée, de la reconnaissance de formes, des méthodes d'intelligence artificielle, de la théorie des bases de données, etc. (Figure 6.19). D'où l'abondance de méthodes et d'algorithmes implémentés dans les différents systèmes de Data Mining existants. [Duc V.A. www.inftech.webservis.ru/it/datamining/ar2.html]. Beaucoup de ces systèmes intègrent plusieurs approches à la fois. Néanmoins, en règle générale, dans chaque système, il existe un élément clé sur lequel le pari principal est placé.

Il existe cinq types standard de modèles identifiés à l'aide des méthodes d'exploration de données : association, séquence, classification, regroupement et prévision.

Riz. 6.19. Domaines d'application de la technologie d'exploration de données

L'association se produit lorsque plusieurs événements sont liés les uns aux autres. Par exemple, une étude menée dans un supermarché informatique peut montrer que 55% de ceux qui achètent un ordinateur prennent également une imprimante ou un scanner, et s'il y a une remise pour un tel kit, ils achètent une imprimante dans 80% des cas. Avec la connaissance d'une telle association, il est facile pour les gestionnaires d'évaluer l'efficacité de la remise.

S'il y a une chaîne d'événements liés dans le temps, alors on parle d'une séquence. Ainsi, par exemple, après l'achat d'une maison, dans 45 % des cas, un nouveau poêle est acheté en un mois, et en deux semaines, 60 % des nouveaux colons acquièrent un réfrigérateur.

La classification identifie des caractéristiques qui caractérisent le groupe auquel appartient tel ou tel objet. Cela se fait en analysant des objets déjà classés et en formulant un ensemble de règles.

Le regroupement diffère de la classification en ce que les groupes eux-mêmes ne sont pas prédéfinis. À l'aide du clustering, les outils d'exploration de données sélectionnent indépendamment divers groupes homogènes de données.

LA CLOCHE

Il y a ceux qui ont lu cette nouvelle avant vous.
Abonnez-vous pour recevoir les derniers articles.
E-mail
Nom
Nom de famille
Comment voulez-vous lire La cloche
Pas de spam