Technologies pour analyser de grandes données. Big Data et Blockchain - une avancée dans la zone d'analyse des données. Experts: Mode Peak sur Big Data

Big Data - Quels sont les mots aussi simples

En 2010, les premières tentatives ont commencé à décider du problème croissant de données importantes. Les produits logiciels ont été émis, dont l'action visait à minimiser les risques lors de l'utilisation d'énormes tableaux d'informations.

D'ici 2011, les grandes entreprises telles que Microsoft, Oracle, EMC et IBM étaient intéressées par de grandes données, elles ont été les premières à utiliser de grandes données dans leurs stratégies de développement et de réussir avec succès.

Les universités ont commencé à étudier de grandes données comme point séparé en 2013 - il y a maintenant des problèmes dans ce domaine, non seulement des sciences de données, mais également des associés avec des objets informatiques.

Les principales méthodes d'analyse et de traitement des données peuvent être attribuées comme suit:

Méthodes de classe ou de profondeur (mines de données).

Ces méthodes sont suffisamment nombreuses, mais elles sont unies par une: des instruments mathématiques utilisés en association avec des réalisations de la zone des technologies de l'information.

Crowdsourcing.

Cette technique vous permet de recevoir des données simultanément à partir de plusieurs sources et le nombre de récents est pratiquement illimité.

Test A / B.

De toute la quantité de données, l'ensemble de contrôle d'éléments est sélectionné, qui est alternativement comparé à d'autres agrégats similaires, où l'un des éléments a été modifié. La réalisation de tels tests contribue à déterminer les fluctuations de quels paramètres ont le plus grand impact sur l'agrégat de contrôle. Grâce aux volumes de grandes données, il est possible d'effectuer un grand nombre d'itérations, chacune d'entre elles approchant le résultat le plus élevé possible.

Analyse de prévision.

Les experts de cette région tentent de pré-prédire à l'avance et de planifier ce qu'un objet contrôlé se comportera à adopter la solution la plus bénéfique dans cette situation.

Formation de la machine ( intelligence artificielle).

Basé sur une analyse empirique des informations et la construction ultérieure d'algorithmes d'auto-apprentissage.

Analyse de réseau.

La méthode la plus courante d'étude des réseaux sociaux - après réception de données statistiques, les nœuds créés dans la grille sont analysés, c'est-à-dire des interactions entre les utilisateurs individuels et leurs communautés.

Perspectives et développement Trends Big Data

En 2017, lorsque de grandes données ont cessé d'être quelque chose de nouveau et inconnu, leur importance non seulement n'a pas diminué, mais encore plus accru. Les experts font maintenant des paris sur le fait que l'analyse de grandes quantités de données sera disponible non seulement pour les organisations géantes, mais également pour les petits et moyens représentants d'entreprises. Cette approche est prévue d'être mise en œuvre à l'aide des composants suivants:

Stockage en ligne.

Le stockage et le traitement des données deviennent plus rapides et économiques - par rapport aux coûts de maintien de leur propre centre de données et que l'expansion possible du personnel de la location du nuage semble une alternative beaucoup moins chère.

En utilisant des données sombres.

Les soi-disant "Données sombres" - toutes les informations non sociales sur une entreprise qui ne jouent pas un rôle clé dans l'utilisation directe, mais il peut être amené à accéder à un nouveau format pour stocker des informations.

Intelligence artificielle et apprentissage profond.

Apprentissage technologique intelligence de la machine, imitant la structure et le travail du cerveau humain, car il est impossible de convenir au traitement d'une grande quantité d'informations constamment changeantes. Dans ce cas, la voiture fera la même chose qu'une personne aurait à faire, mais la probabilité de l'erreur est considérablement réduite.

Blockchain.

Cette technologie vous permet d'accélérer et de simplifier de nombreuses transactions Internet, y compris des activités internationales. Un autre bloc de blocage est que, grâce à lui, diminue les coûts de transaction.

Self-Service et réduction des prix.

En 2017, il est prévu d'introduire des "plates-formes de libre-service" - ce sont des plates-formes libres, où des représentants de petites et moyennes entreprises seront en mesure d'évaluer de manière indépendante les données qu'ils sont stockées et de les systématiser.

Visa a également utilisé de gros données, suivi des tentatives frauduleuses de produire cette opération ou cette opération. En raison de cela, ils épargnent chaque année des fuites de plus de 2 milliards de dollars.

Le ministère allemand du Travail a réussi à réduire le coût de 10 milliards d'euros, introduisant un système de données importantes pour travailler sur l'extradition des allocations de chômage. Dans le même temps, il a été révélé que le cinquième des avantages des données des citoyens reçoit la base.

Les grandes données n'ont pas contourner le jeu et l'industrie du jeu. Ainsi, les développeurs du monde des chars ont mené une étude d'informations sur tous les acteurs et ont comparé les indicateurs disponibles de leur activité. Il a contribué à prédire l'éventuelle sortie des acteurs - en s'appuyant sur les hypothèses faites, des représentants de l'organisation ont pu interagir plus efficacement avec les utilisateurs.

Les organisations connues qui utilisent des données importantes peuvent également être attribuées à HSBC, NASDAQ, Coca-Cola, Starbucks et AT & T.

Problèmes de gros données.

Le plus grand problème de données importantes est le coût de leur traitement. Cela peut inclure à la fois des équipements coûteux et des experts en paie, capables d'entretenir d'énormes tableaux d'informations. Il est évident que l'équipement devra se mettre à jour régulièrement afin de ne pas perdre la performance minimale avec une augmentation de la quantité de données.

Le deuxième problème est à nouveau associé à un grand nombre d'informations qui doivent être traitées. Si, par exemple, l'étude ne donne pas 2-3, et le nombre de résultats est très difficile de rester objectif et d'allouer de la circulation totale de données uniquement celles qui auront un effet réel sur l'état de tout phénomène.

Le problème de la confidentialité Big Data. En raison du fait que la majorité des services de service à la clientèle se déplacent à une utilisation des données en ligne, il est très facile de devenir une autre cible pour les cybercriminels. Même un simple stockage d'informations personnelles sans aucune transaction Internet ne peut être envahi par les clients. stockage en ligne conséquences.

Le problème de la perte d'informations. Les précautions ne nécessitent pas de limitée à une simple redondance de données unique et au moins 2-3 sauvegardes stockage. Cependant, avec un volume croissant, la complexité avec la réservation - et les spécialistes informatiques tentent de trouver solution optimale Ce problème.

Grand marché des technologies de données en Russie et dans le monde

Selon 2014, 40% du marché des données le plus important est Services de services. Un peu inférieur (38%) à ce chiffre d'affaires d'indicateurs d'utiliser de grandes données dans le matériel informatique. Les 22% restants se situent à la part des logiciels.

Les produits les plus utiles des produits du segment mondial pour résoudre les problèmes de grandes données, en fonction des plates-formes analytiques de données statistiques et de NOSQL. 15 et 12% du marché occupent respectivement un fichier de journal analytique et une plate-forme colonnaire. Mais Hadoop / Mapreduce dans la pratique des copies avec les problèmes de données importants n'est pas trop efficace.

Les résultats de l'introduction de grandes technologies de données:

la qualité du service client;
optimisation de l'intégration dans la chaîne d'approvisionnement;
optimisation de l'organisation de planification;
accélération de l'interaction avec les clients;
améliorer l'efficacité des demandes des clients;
frais de service réduits;
optimisation des applications client de traitement.

Meilleurs livres sur les grandes données

"Le visage humain des grandes données", Rick Smolyan et Jennifer Ervitt

Convient à l'étude initiale des technologies pour traiter de grandes données - il est facile et compréhensible au cas. Indique clairement comment une abondance d'informations influencées la vie quotidienne Et toutes ses sphères: la science, les affaires, la médecine, etc. contient de nombreuses illustrations, donc perçues sans beaucoup d'effort.

"Introduction à l'exploitation des données", Pang-Ning Tang, Michael Steinbach et Vipin Kumar

Également utile pour les débutants Réservez sur de grandes données, expliquant le travail avec de grandes données sur le principe de «du simple à complexe». De nombreux moments non marqués à l'étape initiale sont les suivants: préparation du traitement, de la visualisation, du OLAP ainsi que de certaines méthodes d'analyse et de classification des données.

"Python apprentissage", Sebastian Rashka

Guide pratique sur l'utilisation de données importantes et travailler avec eux à l'aide du langage de programmation Python. Convient aux étudiants spécialisés en ingénierie et aux spécialistes qui souhaitent approfondir leurs connaissances.

"Hadoop for Dummies", Dirk Dehrus, Paul S. Zikopulos, Roman B. Melnik

Hadoop est un projet créé spécifiquement pour travailler avec des programmes distribués qui organisent des actions sur des milliers de nœuds en même temps. La connaissance avec lui aidera plus en détail pour comprendre l'application pratique des grandes données.

Selon la recherche et les tendances

Big Data, "Big Data" depuis plusieurs années, lorsque vous devenez une parable dans les langues de la presse IT et Marketing. Et il est clair: technologies numériques La vie d'un homme moderne pénétré: "Tout est écrit." La quantité de données sur les côtés les plus différents de la vie augmente et, en même temps, les possibilités de stockage d'informations augmentent.

Technologies de stockage de technologies globales

Source: Hilbert et Lopez, la capacité technologique du monde à stocker, communiquer et calculer des informations, «Science, 2011 Global.

La plupart des experts conviennent que l'accélération de la croissance des données est une réalité objective. Réseaux sociaux, Appareils mobiles, données d'appareils de mesure, informations commerciales - Quelques types de sources pouvant générer des informations gigantesques. Selon l'étude Idc.Univers numérique. , Publié en 2012, les 8 prochaines années, le montant des données dans le monde atteindra 40 ZB (Zettatabytes) équivalant à 5 200 Go par habitant de la planète.

Croissance des informations numériques collectées aux États-Unis

Source: IDC.

Une partie importante des informations est créée non à des personnes, mais des robots qui interagissent mutuellement et avec d'autres réseaux de données, tels que, par exemple, des capteurs et des dispositifs intelligents. En vertu de ces taux de croissance, le montant des données dans le monde, selon les prévisions des chercheurs, doublera chaque année. Le nombre de serveurs virtuels et physiques au monde augmentera dix fois en raison de l'expansion et de la création de nouveaux centres de données. À cet égard, la nécessité d'une utilisation efficace et de la monétisation de ces données augmente. Étant donné que l'utilisation de grandes données dans les entreprises nécessite des investissements considérables, il est alors nécessaire de comprendre clairement la situation. Et elle est essentiellement simple: améliorer l'efficacité des entreprises peut réduire les coûts ou / et augmenter les ventes.

De quoi avez-vous besoin de grandes données

Le Big Data Paradigm définit trois types principaux de tâches.

Stockage et gestion du volume de données dans des centaines de téraoctets ou de pétatabytes que des bases de données relationnelles ordinaires ne permettent pas une utilisation efficace.
Organisation d'informations non structurées constituées de textes, d'images, de vidéos et d'autres types de données.
Big Analyse des données, qui soulève la question de savoir comment travailler avec des informations non structurées, génération de rapports analytiques, ainsi que l'introduction de modèles pronostiques.

Le marché du projet Big Data se coupe avec le marché de l'intelligence d'entreprise (BA), dont le volume du monde, selon des experts, s'est élevé à environ 100 milliards de dollars. Il inclut les composants des technologies de réseau, des serveurs, des logiciels et des services techniques.

En outre, l'utilisation de grandes technologies de données est pertinente pour les décisions de la classe de garantie de revenu (RA) conçue pour automatiser les activités des entreprises. Les systèmes de garantie de revenu modernes comprennent des outils de détection d'incohérences et une analyse de données approfondie, permettant aux pertes éventuelles de détecter des pertes possibles dans les meilleurs délais, ou une distorsion d'informations pouvant entraîner une diminution des résultats financiers. Dans ce contexte, les sociétés russes confirmant la disponibilité de la demande de grandes technologies de données sur le marché intérieur, ont noté que les facteurs qui stimulent le développement de données importantes en Russie sont la croissance des données, l'accélération des décisions de gestion et l'amélioration de leur qualité.

Qu'est-ce qui empêche de travailler avec de grandes données

Aujourd'hui, seulement 0,5% des données numériques accumulées sont analysées, malgré le fait qu'il existe des tâches d'industrie générales objectivement pouvant être résolues à l'aide des solutions analytiques de la grande classe de données. Les marchés informatiques développés ont déjà les résultats pour lesquels vous pouvez estimer les attentes liées à l'accumulation et au traitement des grandes données.

L'un des principaux facteurs qui empêchent l'introduction de gros projets de données, en plus du coût élevé, est considéré le problème de la sélection des données traitées: C'est-à-dire que la définition de quelles données doit être récupérée, stockée et analysée et qui ne sont pas prises en compte.

De nombreux représentants d'entreprises notent que les difficultés rencontrées dans la mise en œuvre de grands projets de données sont associées au manque de spécialistes - spécialistes et analystes. De la qualité du travail des employés engagés dans des analyses profondes et prédicatives, le taux de rendement des investissements dans les grandes données dépend directement. L'énorme potentiel des données déjà existantes dans l'organisation ne peut être utilisée efficacement par les spécialistes du marketing eux-mêmes en raison de processus commerciaux obsolètes ou de régulations internes. Par conséquent, les grands projets de données sont perçus par des entreprises comme complexes non seulement dans la mise en œuvre, mais également dans l'évaluation des résultats: les valeurs des données collectées. La spécificité du travail avec les données nécessite des spécialistes du marketing et des analystes pour passer l'attention de la technologie et la création de rapports pour résoudre des tâches commerciales spécifiques.

En raison du volume important et de la vitesse élevée du flux de données, le processus de collecte implique la procédure ETL en temps réel. Pour référence:ETL - OTanglaisExtrait., Transformer, Charge. - littéralement "extraction, transformation, chargement") - l'un des principaux processus de gestion entre-électros de données comprenant: extraire des données de sources externes, leur transformation et nettoyage pour répondre aux besoins L'ETL devrait être considéré non seulement comme le processus de transfert de données d'une application à une autre, mais également comme un outil de préparation de données pour analyse.

Et ensuite des questions pour que la sécurité des données provenant de sources externes devrait avoir des solutions correspondant aux quantités d'informations collectées. Étant donné que les méthodes d'analyse de données importantes ne se développent jusqu'à présent qu'après la croissance des données, la propriété des plates-formes analytiques a joué un rôle majeur pour utiliser de nouvelles méthodes de préparation et d'agrégation de données. Cela suggère que, par exemple, les données sur les acheteurs potentiels ou l'entrepôt de données massives avec une histoire de clics sur des sites de magasins en ligne peuvent être intéressants pour résoudre diverses tâches.

Les difficultés ne s'arrêtent pas

Malgré toutes les difficultés rencontrées par l'introduction de grandes données, l'entreprise a l'intention d'accroître l'investissement dans cette direction. Comme suit les données de Gartner, en 2013, 64% des plus grandes entreprises au monde ont déjà investi ou envisagent d'investir dans le déploiement de technologies dans la zone de données importante pour leur entreprise, tandis qu'en 2012, il y avait 58%. Selon la recherche de Gartner, les dirigeants d'investissement dans les grandes industries de données sont des entreprises de médias, des télécommunications, du secteur bancaire et des sociétés de services. Les résultats réussi de la mise en œuvre des grandes données ont déjà été obtenus par de nombreux grands acteurs de vente au détail en termes d'utilisation des données obtenues à l'aide d'outils d'identification de fréquence de radio, de logistique et de systèmes de réapprovisionnement (d'anglais. réapprovisionnement. - Accumulation, réapprovisionnement - R & T), ainsi que des programmes de fidélité. L'expérience de la vente au détail réussie stimule les autres secteurs du marché trouvent de nouvelles méthodes efficaces Monétisation des données importantes pour transformer leur analyse à une ressource travaillant sur le développement des affaires. Grâce à cela, selon des experts, au cours de la période allant jusqu'à 2020, les investissements dans la gestion, le stockage diminuera pour chaque gigaoctet de données de 2 à 0,2 USD, mais d'étudier et d'analyser les propriétés technologiques des grandes données n'augmentera que 40 %.

Dépenses présentées dans divers projets d'investissement Dans la grande région de données, avoir un caractère différent. Les articles de coûts dépendent des types de produits sélectionnés sur la base de solutions définies. La plus grande partie des coûts des projets d'investissement, selon des spécialistes, a représenté des produits liés à la collecte, à la structuration des données, au nettoyage et à la gestion des informations.

Comment c'est fait

Il existe de nombreuses combinaisons de logiciels et de matériel, ce qui vous permet de créer des solutions de données efficaces pour diverses disciplines commerciales: des médias sociaux et des applications mobiles, à l'analyse intellectuelle et à la visualisation des données commerciales. Un avantage important des grandes données est la compatibilité des nouveaux outils avec des bases de données largement utilisées, ce qui est particulièrement important lorsque vous travaillez avec des projets interdisciplinaires, tels que l'organisation de la vente multicanal et du support client.

La grande séquence de données comprend la collecte de données, la structuration des informations reçues à l'aide de rapports et de tableaux de bord (tableau de bord), créant des informations et des contextes, ainsi que de formuler des recommandations à l'action. Étant donné que travailler avec de nombreuses données implique des coûts de collecte de données élevés, le résultat du traitement qui est inconnu à l'avance, la tâche principale est une compréhension claire, pour laquelle les données sont nécessaires, et non combien ils sont en stock. Dans ce cas, la collecte de données passe dans le processus d'obtention exclusivement nécessaire pour résoudre des tâches d'information spécifiques.

Par exemple, les fournisseurs de télécommunications agrége une énorme quantité de données, y compris la géolocalisation qui sont constamment réapprovisionnées. Ces informations peuvent présenter un intérêt commercial aux agences de publicité qui peuvent l'utiliser pour montrer la publicité ciblée et locale, ainsi que pour les détaillants et les banques. Ces données peuvent jouer un rôle important dans la résolution de l'ouverture du point de négociation dans un endroit donné sur la base de données sur la présence d'un puissant flux cible de personnes. Il existe un exemple de mesure d'efficacité de la publicité sur des boucliers extérieurs à Londres. Maintenant, la couverture de cette publicité ne peut être mesurée que en plaçant des personnes avec un dispositif spécial de comptage de passants, près de structures publicitaires. Par rapport à ce type de mesure de l'efficacité publicitaire, un opérateur de téléphonie mobile a beaucoup plus d'opportunités - il connaît exactement l'emplacement de ses abonnés, il connaît leurs caractéristiques démographiques, leur sexe, leur âge, son état matrimonial, etc.

Sur la base de ces données, à l'avenir, la perspective de modifier le contenu du message publicitaire s'ouvre, en utilisant les préférences d'une personne particulière passant par le bouclier publicitaire. Si les données montrent que passer par une personne se déplace beaucoup, il peut montrer la publicité de la station. Les organisateurs du match de football peuvent évaluer le nombre de fans que lorsqu'ils arrivent au match. Mais s'ils avaient l'occasion de demander à l'opérateur communication cellulaire Informations sur lesquelles les visiteurs étaient dans une heure, jour ou mois avant le match, cela donnerait la possibilité de planifier des endroits pour accueillir les matchs suivants.

Un autre exemple est que les deux banques peuvent utiliser de grandes données pour prévenir la fraude. Si le client déclare la perte de la carte et lorsque vous effectuez un achat avec son aide, la banque voit en temps réel de l'emplacement du téléphone du client dans la zone d'achat où la transaction se produit, la banque peut vérifier les informations sur l'application de l'application de Le client n'a pas essayé de le tromper. Soit la situation opposée, lorsque le client effectue un achat dans le magasin, la banque voit que la carte à laquelle la transaction a lieu et que le téléphone du client est au même endroit, la banque peut conclure que son propriétaire aime la carte. Grâce à de tels avantages des grandes données, les frontières sont élargies, qui exécutent des entrepôts de données traditionnels.

Pour décider avec succès de la mise en œuvre des grandes décisions de données, la société doit calculer l'affaire de placement et provoque de grandes difficultés dues à de nombreux composants inconnus. Le paradoxe des analyses dans de tels cas devient prédire l'avenir sur la base du passé, les données sur lesquelles sont souvent absentes. Dans ce cas, un facteur important est une planification claire de ses actions initiales:

Premièrement, il est nécessaire de définir une tâche d'entreprise spécifique, de résoudre les grandes technologies de données, cette tâche sera une tige de détermination de la fidélité du concept sélectionné. Il est nécessaire de se concentrer sur la collecte des données liées avec précision avec cette tâche et lors de l'inspection du concept que vous pouvez utiliser. divers outils, processus et méthodes de gestion qui permettront de prendre des décisions plus éclairées à l'avenir.
Deuxièmement, il est peu probable que la société sans expérience de compétences et d'analyses de données soit en mesure de mettre en œuvre avec succès le grand projet de données. Les connaissances nécessaires découlent toujours de l'expérience d'analyse précédente, qui correspond au principal facteur qui affecte la qualité du travail avec les données. Le rôle important est joué par la culture d'utilisation des données, car l'analyse de l'information ouvre souvent la vérité dure de l'entreprise et de prendre cette vérité et de travailler avec elle, les méthodes développées de travail avec des données sont nécessaires.
Troisièmement, la valeur des grandes technologies de données est de fournir des idées bons analystes restent un déficit sur le marché. Ils sont habituels d'appeler des spécialistes qui ont une compréhension profonde du sens commercial des données et de savoir comment les appliquer. L'analyse des données est un moyen de réaliser des objectifs commerciaux et de comprendre la valeur des grandes données, un modèle de comportement correspondant et la compréhension de ses actions sont nécessaires. Dans ce cas, de grandes données donneront beaucoup d'informations utiles sur les consommateurs, sur la base desquelles vous pouvez faire des solutions utiles pour les entreprises.

Malgré le fait que le grand marché de données russe commence tout juste à être formé, des projets individuels dans ce domaine sont déjà mis en œuvre avec succès. Certains d'entre eux réussissent dans le domaine de la collecte de données, tels que des projets de banque FTS et Tinkoff Systems Bank, d'autres - en termes d'analyse des données et de l'application pratique de ses résultats: il s'agit d'un projet Synqera.

La banque Tinkoff Credit Systems a mis en place un projet visant à mettre en œuvre la plate-forme EMC2 Greenplum, qui est un outil pour l'informatique massive-parallèle. Durant dernières années La Banque a accru les exigences du taux de traitement des informations accumulées et de l'analyse des données en temps réel, causée par les taux de croissance élevés du nombre d'utilisateurs de cartes de crédit. La Banque a annoncé son intention d'élargir l'utilisation de grandes technologies de données, notamment pour la transformation de données non structurées et travailler avec les informations de l'entreprise obtenues à partir de différentes sources.

Dans le service fédéral fiscal de la Russie pour le moment il existe une couche analytique de l'entrepôt de données fédéral. Il est basé sur un seul espace d'information et l'accès technologique aux données fiscales pour le traitement statistique et analytique. Au cours de la mise en œuvre du projet, les travaux sont effectués sur la centralisation des informations analytiques avec plus de 1 200 sources de l'IFX local.

Un autre exemple intéressant de l'analyse des grandes données en temps réel est la start-up russe de Synqera, qui a développé la plate-forme Simplate. La solution est basée sur le traitement des grandes réseau de données, le programme analyse des informations sur les acheteurs, l'historique de leurs achats, l'âge, le sexe et même l'humeur. Au box-office dans le réseau de magasins cosmétiques ont été installés Écrans tactiles Avec des capteurs reconnaissant les émotions des clients. Le programme détermine l'ambiance de la personne, analyse des informations à ce sujet, détermine l'heure de la journée et analyse la base des rabais du magasin, après quoi elle envoie des messages ciblés sur les promotions et les offres spéciales. Cette solution augmente l'achat de la fidélité et augmente les ventes de détaillants.

Si nous parlons de cas de réussis étrangers, alors à cet égard, l'expérience d'utiliser de grandes technologies de données dans Dunkin`donuts, en utilisant des données en temps réel pour la vente de produits. Affichages numériques dans les magasins affichent des phrases qui se remplacent toutes les minutes, en fonction de l'heure de la journée et de la disponibilité des produits. Lors des chèques en espèces, la société reçoit des données que des suggestions ont reçu la plus grande réponse des acheteurs. Cette approche de traitement des données a permis d'accroître les profits et les biens de rotation en stock.

Comme l'expérience de l'introduction de projets de données importants montre, cette zone est conçue pour résoudre avec succès des tâches commerciales modernes. Dans le même temps, un facteur important dans la réalisation des objectifs commerciaux lors de la collaboration avec de grandes données est le choix de la bonne stratégie qui inclut des analyses qui détecte les demandes de consommation, ainsi que l'utilisation de technologies innovantes dans la zone de données Big.

Selon une enquête mondiale, effectuée chaque année par l'éconsultance et l'Adobe depuis 2012 chez les spécialistes du marketing d'entreprises, "Big Data", caractérisant les actions des personnes sur Internet, peut beaucoup. Ils sont en mesure d'optimiser les processus opérationnels hors ligne, vous aider à comprendre comment les propriétaires de périphériques mobiles les utilisent pour rechercher des informations ou simplement «rendre le marketing meilleur», c'est-à-dire plus efficacement. De plus, la dernière fonction de l'année est de plus en plus de plus en plus, comme suit le diagramme que nous montrons.

Les principaux domaines d'exploitation des spécialistes du marketing Internet en termes de relations clients

Une source: Econsultance et Adobe, publié - Emarketer.com.

Notez que la nationalité des répondants n'a pas d'importance. Comme l'enquête menée par KPMG en 2013, la proportion de «optimistes», c'est-à-dire Ceux qui utilisent de grandes données dans le développement d'une stratégie commerciale sont de 56%, de plus, les fluctuations de la région à la région sont faibles: de 63% dans les pays d'Amérique du Nord jusqu'à 50% dans l'EMEA.

En utilisant de grandes données dans différentes régions du monde

Une source: KPMG, publié - Emarketer.com.

Pendant ce temps, le ratio des spécialistes du marketing à de telles "tendances de la mode" est similaire à la célèbre anecdot:

Dis-moi, Vano, aimez-vous les tomates?
- J'aime manger et donc - non.

Malgré le fait que les spécialistes du marketing ont des données sur les mots "d'amour" et semblent même les utiliser, en fait, "tout est difficile", comme ils écrivent sur leur cœur des réseaux sociaux.

Selon une enquête menée par Circle Research en janvier 2014 chez les commerçants européens, 4 répondants sur 5 n'utilisent pas de grandes données (malgré le fait qu'ils sont, bien sûr, "amour"). Les causes sont différentes. Sceptiques signés un peu - 17% et exactement autant que leurs antipodes, c'est-à-dire Ceux qui répondent en confiance: "Oui." Les autres sont oscillants et doutés, "Swamp". Ils partent d'une réponse directe sous les prétextes favorables dans l'esprit de ce que "il n'y a pas, mais bientôt" ou "attendre que le reste commence."

Utilisation de Big Data Marketings, d'Europe, janvier 2014

Une source:dnx, publié -emarketer.com.

Qu'est-ce qui les confond? Sunneaux de soleil. Certains (leur exacte moitié) ne croient tout simplement pas ces données. D'autres (ils ont également beaucoup de 55%) difficile dans la corrélation des ensembles de "données" et des "utilisateurs". Quelqu'un est simplement (exprimant de manière politiquement corrigeante) trouble intracorporé: les données sont inconsolantes entre les départements marketing et les structures informatiques. D'autres logiciels ne font pas face à l'afflux de travail. Etc. Étant donné que les actions totales dépassent de manière significative 100%, il est clair que la situation des "barrières multiples" est souvent trouvée.

Barrières à l'utilisation de grandes données dans le marketing

Une source:dnx, publié -emarketer.com.

Il est donc nécessaire d'indiquer que, tandis que "Big Data" constitue un grand potentiel que vous devez toujours profiter. En passant, cela peut être la raison pour laquelle les grandes données perdent une «tendance de la mode», comme en témoigne les données de l'enquête menées par nous l'avons déjà mentionnée par l'éconsultance.

Les tendances les plus importantes du marketing numérique 2013-2014

Une source: Econsultance et Adobe

Pour remplacer, ils sortent un autre roi - le marketing de contenu. Combien de temps?

Il est impossible de dire que de grandes données sont une sorte de phénomène fondamentalement nouveau. Les grandes sources de données sont existantes depuis de nombreuses années: les bases de données des achats des clients, des histoires de crédit, un mode de vie. Et depuis de nombreuses années, les scientifiques ont utilisé ces données pour aider les entreprises à évaluer le risque et à prédire les besoins futurs des clients. Cependant, aujourd'hui, la situation a changé dans deux aspects:

Il existe des outils et des méthodes plus complexes d'analyse et de combinaison de divers ensembles de données;

Ces instruments d'analyse sont complétés par toute une avalanche de nouvelles sources de données causées par la transition vers des technologies numériques de presque toutes les méthodes de collecte et de mesure des données.

La gamme d'informations disponibles simultanément et inspire et fait peur aux chercheurs qui ont cultivé dans un milieu de recherche structuré. Les sentiments des consommateurs sont enregistrés par des sites et toutes sortes de variétés de médias sociaux. Le fait de visionner la publicité est fixé non seulement par les consoles de télévision, mais également avec l'aide de balises numériques et appareils mobilesToucher avec une télévision.

Les données comportementales (telles que le nombre d'appels, les habitudes d'achat et les achats) sont maintenant disponibles en temps réel. Ainsi, une grande partie de ce qui a été utilisée pour être obtenue par recherche, aujourd'hui, vous pouvez apprendre à utiliser d'importantes sources de données. Et tous ces actifs d'information sont constamment générés, quels que soient les processus de recherche. Ces changements et nous font nous demander: si de grandes données seront en mesure de remplacer des études de marché classiques.

Il ne s'agit pas de données, il s'agit de questions et de réponses

Avant de commander des funérailles de la recherche sur la recherche classique, nous devons nous rappeler que ce n'est pas la présence de certains actifs de données, mais quelque chose d'autre. Quoi exactement? Notre capacité à répondre aux questions, c'est quoi. Le nouveau monde des grandes données a une caractéristique amusante: les résultats obtenus sur la base de nouveaux actifs d'information entraînent l'émergence de questions encore plus, et la recherche traditionnelle répond mieux par ces problèmes. Ainsi, comme augmente les plus grandes données, nous voyons une croissance parallèle de la présence et de la nécessité de «petites données» (petites données), qui peuvent donner des réponses aux questions du monde des grandes données.

Considérez la situation: un grand annonceur effectue une surveillance constante du trafic dans les magasins et les volumes de vente en temps réel. Techniques de recherche existantes (dans lesquelles nous interviewons des panneaux de recherche sur leurs motivations d'achat et de comportement aux points de vente) nous aident à mieux viser à certains segments des acheteurs. Ces techniques peuvent être élargies - elles peuvent inclure une plus large gamme d'actifs de données importants jusqu'au point que les données importantes deviennent un moyen d'observation passive et d'études - par la méthode de recherche permanente des changements ou des événements nécessitant une étude. C'est la manière dont les données importantes peuvent libérer des recherches sur une routine excédentaire. Les études primaires ne doivent plus se concentrer sur ce qui se passe (cela fera de grandes données). Au lieu de cela, la recherche primaire peut se concentrer sur l'explication de la raison pour laquelle nous constatons certaines tendances ou déviations des tendances. Le chercheur sera en mesure de réfléchir à moins de recevoir des données, et plus sur la manière de les analyser et de les utiliser.

Dans le même temps, nous voyons que de grandes données vous permettent de résoudre l'un de nos plus gros problèmes - le problème de la recherche excessivement longue. L'étude des études elles-mêmes a montré que les outils de recherche excessivement gonflés ont un impact négatif sur la qualité des données. Bien que de nombreux spécialistes ont longtemps reconnu la présence de ce problème pendant une longue période, ils ont invariablement répondu à cela par la phrase: "Mais j'ai besoin de ces informations pour la gestion de la haute direction" et de longues enquêtes ont été poursuivies.

Dans le monde des grandes données, où des indicateurs quantitatifs peuvent être obtenus par observation passive, cette question devient controversée. Encore une fois, rappelons toutes ces recherches de consommation. Si de grandes données nous donnent des informations sur la consommation à l'aide de l'observation passive, la recherche primaire sous la forme de sondages n'a plus besoin de collecter ce type d'information et nous pourrons enfin renforcer votre vision de courtes enquêtes non seulement par de bons voeux, non seulement par de bons voeux, Mais quelque chose de réel.

Les gros données ont besoin de votre aide

Enfin, "BIG" n'est qu'une des caractéristiques des grandes données. La caractéristique "grande" désigne la taille et l'échelle de l'échelle. Bien sûr, il s'agit de la principale caractéristique, car la quantité de ces données dépasse tout ce que nous avons travaillé auparavant. Mais d'autres caractéristiques de ces nouveaux flux de données sont également importantes: elles sont souvent mal formatées, non structurées (ou, au mieux, structurées partiellement) et sont pleines d'incertitude. La zone en développement de la gestion des données, la "analyse des entités" (Entity Analytics) est conçue pour résoudre le problème de la surmener du bruit dans de grandes données. Sa tâche consiste à analyser ces ensembles de données et à déterminer le nombre d'observations désignant la même personne, quelles observations sont à jour et lesquelles d'entre elles conviennent à l'utilisation.

Ce type de nettoyage des données est nécessaire pour éliminer le bruit ou les données erronées lorsque vous travaillez avec des cultures plus grandes ou de petites données, mais cela ne suffit pas. Nous devons également créer un contexte autour d'actifs de données importants en fonction de notre expérience, de notre expérience et de la connaissance de la catégorie précédentes. En fait, de nombreux analystes indiquent la capacité de gérer l'incertitude inhérente aux données importantes, en tant que source d'avantage concurrentiel, car elle vous permet de faire des solutions plus efficaces.

Et maintenant, la recherche primaire n'est pas seulement exemptée de routine grâce à des données importantes, mais contribuent également à la création de contenu et d'analyse dans le cadre des grandes données.

Un exemple éclatant de cela peut être l'application de notre nouveau cadre fondamentalement différent de capital de marque sur les médias sociaux (nous parlons O développé par B.Millon Marron. Nouvelle approche pour mesurer la valeur de la marqueLeur De manière significative. Différent. Cadre. - "paradigme de différences significatives" -R & T. ). Ce modèle est vérifié sur le comportement sur des marchés spécifiques, mis en œuvre sur une base standard, et il est facile de s'appliquer dans d'autres instructions marketing et systèmes d'information Soutenir la prise de décision. En d'autres termes, notre modèle de marque de marque basé sur des méthodes d'enquêtes (bien que non seulement sur eux) a toutes les propriétés nécessaires pour surmonter la nature non structurée, incohérente et indéfinie des grandes données.

Considérez les données sur le sentiment de consommation fourni par les médias sociaux. Sur la forme brute, les pics et les décalcomanies des humeurs de consommation sont très souvent corrélés au minimum avec les paramètres de marque et de comportement obtenus hors ligne: c'est trop de bruit. Mais nous pouvons réduire ce bruit, appliquer notre consommateur Signification des modèles, la différenciation des marques, des dynamiques et des caractéristiques distinctives aux données de sentiment de consommation brutes constitue un moyen de traitement et d'agrégation des données de média sociaux sur ces dimensions.

Une fois les données organisées conformément à notre modèle-cadre, les tendances coïncident généralement avec les paramètres du capital de la marque et des comportements obtenus hors ligne. En substance, les données des médias sociaux ne peuvent pas parler d'eux-mêmes. Pour les utiliser à cet effet, notre expérience et nos modèles construits autour des marques. Quand les médias sociaux nous donnent informations uniques, exprimé dans la langue que les consommateurs utilisent pour décrire des marques, nous devons utiliser cette langue lors de la création de vos recherches pour effectuer des recherches primaires beaucoup plus efficaces.

Avantages de la recherche libérée

Cela nous renvoie au fait que les grandes données ne sont pas tant remplacées par la recherche alors qu'ils les exemptes. Les chercheurs seront libérés de la nécessité de créer une nouvelle étude pour chaque nouveau cas. Des actifs de données importants en croissance constante peuvent être utilisés pour différentes recherches, ce qui permet la recherche primaire ultérieure d'approfondir dans le sujet et de remplir les espaces disponibles. Les chercheurs seront libérés de la nécessité de s'appuyer sur des enquêtes trop gonflées. Au lieu de cela, ils pourront utiliser de brefs sondages et se concentrer sur les paramètres les plus importants, ce qui améliore la qualité des données.

Grâce à cette libération, les chercheurs seront en mesure d'utiliser leurs principes et idées dépensés afin d'ajouter de l'exactitude et de la signification des grands actifs de données, ce qui entraînera l'émergence de nouveaux domaines de recherche par une méthode d'enquête. Ce cycle devrait entraîner une compréhension plus approfondie de diverses questions stratégiques et, en définitive, de progresser sur le fait qu'il devrait toujours être notre objectif principal - d'informer et d'améliorer la qualité des solutions relatives à la marque et aux communications.

Nous trébuchons régulièrement sur des mots et des définitions à la mode, la signification que nous semble être comprise intuitivement, mais une image claire du fait que c'est toujours pour la chose et comment cela fonctionne, nous ne le faisons pas.

L'un de ces concepts est de grandes données, en russe, parfois, vous pouvez trouver une traduction littérale - "Big Data", mais plus souvent, les gens parlent et écrivent comme il s'agit de: Big Data. Tout cela a certainement entendu ou, au moins ils rencontraient cette phrase sur Internet, et cela semble être simple, mais ce que l'on entend exactement, loin des subtilités des humanitaires de Diditiv-World Humanitaires ne sont pas toujours clairs.

Une excellente tentative de remplir cet écart dans le cerveau de la plus large gamme des utilisateurs est un article de l'un de nos auteurs préférés de Bernard Marra, appelé "Quelles sont les grandes données? Explication super-preuve pour chaque ". Sans Jarnon reconnu, dans le seul but d'expliquer les idées clés de ce phénomène pour chacun, peu importe l'éducation et la portée de l'activité.

En fait, les dernières années, nous vivons déjà dans le monde, à travers les grandes données inclinées, mais continuez à être confondues pour comprendre ce que c'est encore. Cela se produit en partie et parce que le concept de données Big Data est constamment transformé et repensé, car le monde des technologies élevées et le traitement des grandes matrices d'informations changent très rapidement, y compris toutes les nouvelles et nouvelles options. Et le montant de ces informations augmente constamment.

Alors, quelle est la moyenne de données - 2017?

Tout a commencé avec l'augmentation explosive du nombre de données que nous créons depuis le début de l'ère numérique. Cela est devenu possible principalement en raison de l'augmentation du nombre et de la puissance des ordinateurs, l'expansion de l'Internet et le développement de technologies capturant des informations provenant du monde réel et physique dans lequel nous vivons tous et la convertissent en données numériques.

En 2017, nous produisons des données lorsque nous entrons sur Internet lorsque nous utilisons nos smartphones GPS conformés lorsque nous communiquons avec des amis dans des réseaux sociaux, télécharger applications mobiles Ou de la musique lorsque vous faites des achats.

Nous pouvons dire que nous réserverons beaucoup de traces numériques, que nous faisons si nos actions comprennent des transactions numériques. C'est presque toujours et partout.

De plus, avec une vitesse énorme, la quantité de données générée par les machines elles-mêmes augmente. Les données sont créées et transmises lorsque nos appareils intelligents communiquent les uns avec les autres. Les entreprises de production du monde entier sont équipées d'équipement, qui recueille et transfère et transmettent des données.

Dans un proche avenir, nos rues seront remplies de voitures autonomes, de lancer indépendamment des itinéraires basés sur des cartes à quatre dimensions, qui sont générées en temps réel.

Que peuvent les grandes données?

Flux de croissance infiniment d'informations sensorielles, de photos, des messages texteLes données audio et vidéo sous-tendent les grandes données, que nous pouvons utiliser comme il était possible de même imaginer il y a quelques années.

En ce moment, basé sur de gros projets de données, aide:

- Traiter les maladies et prévenir le cancer. La grosse médecine basée sur des données analyse un grand nombre d'enregistrements médicaux et d'images, ce qui permet un diagnostic très précoce et contribue à la création de nouveaux traitements.

- Combattre la faim. L'agriculture connaît une véritable révolution de données qui permet d'utiliser des ressources afin de maximiser le rendement avec une intervention minimale dans l'écosystème et d'optimiser l'utilisation de machines et d'équipements.

- Planètes distantes ouvertes. NASA, par exemple, analyse une énorme quantité de données et construit un modèle de futures missions dans des mondes distants.

- Prédire les urgences Nature différente et minimiser les dommages possibles. Ces nombreux capteurs peuvent prédire où et lorsque le prochain séisme ou le comportement possible des personnes en cas d'urgence se produira, ce qui augmente les chances de survie.

- Prévenir le crime Grâce à l'utilisation de technologies qui vous permettent d'allouer plus efficacement des ressources et de les diriger là où elles sont les plus nécessaires.

Et le plus près de la plupart d'entre nous: Big Data rend la vie d'une personne ordinaire plus facile et plus pratique - il s'agit de magasins en ligne et de planifier des déplacements et une navigation dans une métropole.

Choisissez le meilleur moment pour acheter des billets et décidez quel film ou la série à voir, il est devenu beaucoup plus facile grâce au travail de grandes données.

Comment ça fonctionne?

Big Data fonctionne sur le principe: plus vous savez de quelque chose, plus vous pouvez prédire exactement ce qui va se passer à l'avenir. Une comparaison de données individuelles et de relations entre eux (nous parlons d'une énorme quantité de données et d'une quantité incroyablement grande de liens possibles entre eux) permet de détecter des modèles précédemment cachés. Cela permet de regarder dans le problème et de mieux comprendre comment nous pouvons contrôler l'un ou l'autre processus.

Le plus souvent, le traitement de grandes quantités d'informations comprend des modèles de construction basés sur les données collectées et le lancement de simulations, au cours de quels paramètres de clé change constamment, et chaque fois que le système surveille, car le "changement des paramètres" affecte le possible. résultat.

Ce processus est entièrement automatisé, car nous parlons de l'analyse de millions de simulations, l'extinction de toutes les options possibles jusqu'au moment où le motif (le schéma souhaité) n'est introuvable ni tant que "l'illumination" ne se produit pas, ce qui sera aider à résoudre la tâche pour laquelle tout est toujours traité.

Contrairement aux articles et aux calculs habituels du monde, les données sont acceptées sous une forme non structurée, c'est-à-dire qu'il est difficile de pousser des tables habituelles, des personnes, des tables avec des cellules et des colonnes. Une énorme quantité de données est transmise comme des images ou une vidéo: des tirs satellites à Selfie, que vous posterez dans Instagram ou Facebook, - comme les entrées dans les appels de messagerie et de messagerie ou de téléphone.

Pour donner à tous ces flux de données infinis et différents, les grandes données utilisent souvent les technologies d'analyse les plus avancées qui incluent l'intelligence artificielle et l'apprentissage automatique (c'est-à-dire lorsque le programme a été formé dans d'autres programmes).

Les ordinateurs eux-mêmes apprennent à déterminer ce que cela ou cette information représente - par exemple, reconnaître les images, la langue, et ils peuvent le faire beaucoup plus vite que les personnes.

Grand frère?

Proportionnellement aux caractéristiques sans précédent que les grandes données nous donnent aujourd'hui, le nombre de préoccupations et de problèmes liés à son utilisation augmente.

Achats de données personnelles. Big Data recueille une énorme quantité d'informations sur notre vie privée. Il y a beaucoup d'informations que nous préférerions garder secrète.

SÉCURITÉ. Même si nous décidons que dans le transfert de toutes nos données personnelles, la voiture pour un objectif particulier et favorable, il n'y a rien de terrible, pouvons-nous être sûrs que nos données sont stockées dans un endroit sûr?
Qui et comment pouvons-nous garantir cela?

DISCRIMINATION. Quand est-ce que tout est connu, est-il possible d'exposer les personnes à la discrimination en fonction de ce qui est connu à leur sujet grâce à de grandes données? Les banques utilisent l'historique de crédit et les compagnies d'assurance déterminent le coût des autoroutes, en fonction de ce qu'ils savent sur vous. Jusqu'où ça peut aller?

On peut supposer que les raisons de minimiser les risques de la société, des agences gouvernementales et même des individus utiliseront ce qu'ils peuvent apprendre sur nous et pour certaines raisons, restreindre l'accès aux ressources et aux informations.

Avec tous les avantages, nous devons reconnaître que toutes ces craintes font également partie intégrante des grandes données. Jusqu'à récemment, les scientifiques se sont précipités sur les réponses, mais le moment est venu de venir lorsque la vague est arrivée dans une entreprise qui souhaite tirer parti des grandes données à leurs propres fins. Et cela peut être semé avec des conséquences désastreuses.

Les grandes données (ou grosses données) sont un ensemble de méthodes de travail avec d'énormes volumes d'informations structurées ou non structurées. Les spécialistes en travaillant avec de grandes données sont engagés dans son traitement et son analyse pour obtenir des résultats visuels et perçus. Regardez-moi parlé de professionnels et a découvert quelle est la situation avec le traitement des grandes données en Russie, où et ce qui vaut mieux apprendre à ceux qui veulent travailler dans ce domaine.

Alexey Rupin sur les principales directions dans le domaine des grandes données, la communication avec les clients et le monde des nombres

J'ai étudié à l'Institut de la technologie électronique de Moscou. La principale chose que j'ai réussi à sortir, sont une connaissance fondamentale de la physique et des mathématiques. Dans le même temps, j'ai travaillé dans le centre de R & D, où il était engagé dans le développement et la mise en œuvre d'algorithmes de codage noblestables pour les moyens de transfert de données protégé. Après la fin du premier cycle, je suis entré dans la magistrature de l'informatique des entreprises de l'École supérieure d'économie. Après cela, je voulais travailler dans IBS. J'ai eu la chance que, à cette époque, il y avait un ensemble supplémentaire de stagiaires dans le cadre d'un grand nombre de projets et, après plusieurs entretiens, j'ai commencé à travailler chez IBS, l'une des plus grandes entreprises russes de cette région. Pendant trois ans, je suis parti du train avant l'architecte des solutions d'entreprise. Maintenant, je suis engagé dans le développement de grandes technologies de données pour les entreprises clientes du secteur des finances et des télécommunications.

Il y a deux spécialisations principales pour les personnes qui souhaitent travailler avec de grandes données: des analystes et des consultants informatiques qui créent des technologies pour travailler avec de grandes données. De plus, vous pouvez également parler de la profession de Big Data Analyst, c'est-à-dire des personnes qui travaillent directement avec les données avec la plate-forme informatique du client. Auparavant, ce sont des analystes mathématiques ordinaires qui connaissaient des statistiques et des mathématiques et utilisant le logiciel statistique pour résoudre les tâches d'analyse de données. Aujourd'hui, en plus de la connaissance des statistiques et des mathématiques, une compréhension de la technologie et un cycle de vie des données est également nécessaire. À mon avis, à mon avis est la différence entre l'analyste de données moderne de ces analystes qui étaient auparavant.

Ma spécialisation est la consultation, c'est-à-dire que je vais inventer et offrir aux clients comment résoudre les tâches commerciales avec les technologies informatiques. Les gens viennent consulter diverses expériences, mais les qualités les plus importantes de cette profession sont la capacité de comprendre les besoins du client, le désir d'aider les personnes et les organisations, les bonnes compétences en communication et en équipe (puisqu'elle travaille toujours avec le client et dans une équipe), de bonnes capacités analytiques. La motivation interne est très importante: nous travaillons dans un environnement concurrentiel et le client attend des solutions inhabituelles et des intérêts au travail.

La plupart du temps, je dois communiquer avec les clients, formaliser leurs besoins professionnels et leur assistance pour développer l'architecture technologique la plus appropriée. Les critères de sélection ici ont leurs propres caractéristiques: outre les fonctionnalités et le TSO (coût total de la propriété - le coût total de possession) sont des exigences très importantes et non fonctionnelles pour le système, le plus souvent, le délai de réponse, le traitement de l'information temps. Pour convaincre le client, nous utilisons souvent une preuve d'approche concept - nous offrons gratuitement la technologie "Test" pour une tâche, sur un ensemble de données étroites pour vous assurer que la technologie fonctionne. La décision devrait créer un avantage concurrentiel pour le client au détriment des avantages supplémentaires (par exemple, X-vente, la vente croisée) ou résoudre une sorte de problème commercial, par exemple, réduire le niveau élevé de fraude de prêt.

Il serait beaucoup plus facile si les clients venaient de la tâche terminée, Mais tant qu'ils ne comprennent pas qu'une technologie révolutionnaire est apparue, ce qui peut changer le marché pendant quelques années.

Quels problèmes doivent faire face? Le marché n'est pas prêt à utiliser la technologie «Big Data». Il serait beaucoup plus facile si les clients provenaient d'une tâche prête à l'emploi, mais jusqu'à ce qu'ils comprennent qu'une technologie révolutionnaire pouvant changer le marché pendant quelques années. C'est pourquoi, en fait, nous travaillons en mode de démarrage - ne vendons pas seulement la technologie, mais chaque fois que nous convainquons les clients que vous devez investir dans ces solutions. C'est une telle position de visionnaires - nous montrons aux clients comment vous pouvez modifier votre entreprise avec l'attraction des données et cela. Nous créons ce nouveau marché - le marché de la consultation informatique commerciale dans la grande région de données.

Si une personne veut engager une analyse de données ou une consultation informatique dans la sphère des grandes données, la première chose qui est importante est une éducation mathématique ou technique avec une bonne préparation mathématique. Il est également utile de maîtriser des technologies spécifiques, disons SAS, HADOOOOOD, LANGUE ou solution IBM. De plus, vous devez vous intéresser activement aux tâches d'application pour les grandes données - par exemple, comment peuvent-elles être utilisées pour améliorer la notation de crédit dans une banque ou un contrôle cycle de la vie client. Celles-ci et d'autres connaissances peuvent être obtenues à partir de sources disponibles: par exemple, COURSERA et Big Data University. Il existe également une initiative d'analyse de la clientèle à l'Université de Wharton de Pennsylvanie, qui a publié de nombreux matériaux intéressants.

Un problème grave pour ceux qui veulent travailler dans notre région sont un manque explicite d'informations sur les grandes données. Vous ne pouvez pas aller à la librairie ou dans certains sites et obtenir, par exemple, une colonne exhaustive de cas pour toutes les applications des grandes technologies de données dans les banques. Il n'y a pas de tels livres de référence. Une partie de l'information est dans les livres, une autre partie est collectée lors de conférences et à quelque chose que vous devez vous contacter.

Un autre problème est que les analystes se sentent bien dans le monde des chiffres, mais ils ne sont pas toujours à l'aise dans les affaires. Ces personnes sont souvent introverties, il est difficile pour eux de communiquer et il leur est donc difficile de pouvoir convaincre des informations sur les clients des résultats de la recherche. Pour le développement de ces compétences, je recommanderais de tels livres comme "principe pyramide", "parle dans des diagrammes". Ils aident à développer des compétences de présentation, de manière concise et clairement énoncent leurs pensées.

J'étais très utile pour la participation à différents championnats de cas tout en étudiant à HSE. Les championnats de cas sont des compétitions intelligentes pour les étudiants, où vous devez étudier les problèmes commerciaux et offrir leur décision. Ce sont deux espèces: des championnats de l'entreprise de conseil en conseil, tels que McKinsey, BCG, ACCENTURE, ainsi que les championnats indépendants de type Changellenge. Pendant la participation à eux, j'ai appris à voir et à résoudre des tâches complexes - d'identifier le problème et de sa structuration à la protection des recommandations de sa solution.

Oleg Mikhalsky sur le marché russe et les spécificités de la création d'un nouveau produit dans le domaine des grandes données

Avant de venir à Acronis, j'étais déjà engagé dans le lancement de nouveaux produits sur le marché d'autres sociétés. Il est toujours intéressant et difficile en même temps, alors j'ai été immédiatement intéressé par la possibilité de travailler sur services de cloud et des solutions pour le stockage de données. Dans ce domaine, toute mon expérience antérieure dans l'industrie informatique était utile, y compris son propre projet de démarrage I-Accelerator. La présence d'une formation professionnelle (MBA) a également contribué à l'ingénierie de base.

En Russie, grandes entreprises - Banks, opérateurs mobiles Etc. - Il est nécessaire d'analyser de grandes données, donc dans notre pays, il existe des perspectives pour ceux qui souhaitent travailler dans ce domaine. Certes, de nombreux projets s'intègrent maintenant, c'est-à-dire sur la base de développements étrangers ou de technologies open source. Dans de tels projets, des approches et des technologies fondamentalement nouvelles ne sont pas créées, mais les développements existants sont adaptés. Acronis, nous sommes allés à une autre manière et, après avoir analysé les alternatives existantes, nous avons décidé d'investir dans notre propre développement, créant ainsi un système de stockage fiable pour les grandes données, ce qui n'est pas inférieur au coût, par exemple, Amazon S3, mais ça marche de manière fiable et efficacement plus petite. Le développement propre pour les grandes données est également parmi les grandes entreprises Internet, mais elles sont plutôt axées sur les besoins internes que la satisfaction des besoins des clients externes.

Il est important de comprendre les tendances et les forces économiques qui affectent la zone de traitement des grandes données. Pour ce faire, lisez beaucoup, écoutez les performances des spécialistes faisant autorité dans l'industrie informatique, visitez les conférences thématiques. Maintenant, presque toutes les conférences ont une grande section de données, mais elles en parlent tous à des angles différents: du point de vue de la technologie, des entreprises ou du marketing. Vous pouvez aller pour des travaux de conception ou un stage de la société, qui mène déjà des projets sur ce sujet. Si vous êtes confiant dans vos capacités, il n'est pas trop tard pour organiser une startup dans la sphère des grandes données.

Sans contact constant avec le marché Nouveaux risques de développement pour être non réclamés

Vrai, lorsque vous êtes responsable d'un nouveau produit, beaucoup de temps passe à l'analyse du marché et communiquant avec des clients potentiels, des partenaires, des analystes professionnels qui en savent beaucoup sur les clients et leurs besoins. Sans contact constant avec le marché, les nouveaux risques de développement non réclamés. Il y a toujours beaucoup d'incertitude: vous devez comprendre qui deviendra les premiers utilisateurs (premiers adoptants) que vous avez précieux pour eux, puis attirer un public de masse. La deuxième tâche la plus importante est de former et de transmettre aux développeurs de vision claire et holistique. produit finalles motiver à travailler dans de telles conditions lorsque certaines exigences peuvent toujours changer et que les priorités dépendent de rétroactionvenant des premiers clients. Par conséquent, une tâche importante est de gérer les attentes des clients sur un côté et des développeurs de l'autre. Afin que ni d'autres d'autres n'ont perdu de l'intérêt et ont apporté le projet avant l'achèvement. Après le premier projet réussi, il devient plus facile et la tâche principale trouvera le bon modèle de croissance pour la nouvelle entreprise.

À une époque, j'ai entendu le terme «grandes données» de Great Gref (tête de Sberbank). Ils disent, ils travaillent maintenant activement sur l'introduction, car cela les aidera à réduire le temps de travailler avec chaque client.

La deuxième fois que j'ai rencontré ce concept dans la boutique en ligne du client, sur lequel nous avons travaillé et accru la gamme d'une paire de milliers de dizaines de milliers de postes de produits de base.

Pour la troisième fois, lorsque j'ai vu que le Big Data Analyst est requis dans Yandex. Ensuite, j'ai décidé d'oser le comprendre dans ce sujet et écrire en même temps un article qui indiquerait que ceci est un terme tel que cela excite l'esprit des meilleurs gestionnaires et l'espace Internet.

Ce que c'est

Habituellement, tout article que je commence avec l'explication, quel est le terme pour tel. Cet article ne sera pas une exception.

Cependant, cela est dû au tout, pas le désir de montrer ce que je suis intelligent, mais le fait que le sujet soit vraiment complexe et nécessite une explication minutieuse.

Par exemple, vous pouvez lire quelles grandes données sont dans Wikipedia, ne comprennent rien, puis retournez à cet article afin que vous compreniez toujours la définition et l'applicabilité des entreprises. Donc, commençons par la description, puis vers les exemples pour les entreprises.

Les grandes données sont de grandes données. Étonnamment, oui? Vraiment, il est traduit d'anglais comme "grandes données". Mais cette définition peut être dite pour les nuls.

Technologie Big Data. - Il s'agit d'une approche / méthode de traitement d'un plus grand nombre de données pour obtenir de nouvelles informations difficiles à gérer de manière conventionnelle.

Les données peuvent être à la fois traitées (structurées) et disparates (c'est-à-dire non structurées).

Le terme lui-même est apparu relativement récemment. En 2008, dans la revue scientifique, cette approche a été prédite comme une chose nécessaire pour travailler avec une grande quantité d'informations, ce qui augmente la progression géométrique.

Par exemple, des informations annuelles sur Internet, qui doivent être stockées, bien, à traiter, augmenter de 40%. Encore une fois: + 40% chaque année apparaît sur Internet de nouvelles informations.

Si les documents imprimés sont clairs et que leurs méthodes de traitement sont également claires (transfert sur la forme électronique, Cousez un dossier, numéroté), que faire avec les informations présentées dans des autres "médias" complètement et autres volumes:

Documents Internet;
Blogs et réseaux sociaux;
Sources audio / vidéo;
Instruments de mesure.

Il existe des caractéristiques qui vous permettent d'attribuer des informations et des données aux grandes données. C'est-à-dire que toutes les données ne peuvent pas être adaptées aux analyses. Dans ces caractéristiques, le concept clé de la grande date est définie. Tous correspondent à trois V.

Le volume(de fra. volume). Les données sont mesurées dans l'ampleur du volume physique du "document" à analyser;
La vitesse(de l'anglais. Vélocité). Les données ne coûtent pas dans leur développement, mais grandissent constamment, c'est pourquoi leur traitement rapide est nécessaire pour obtenir des résultats;
Collecteur(de l'anglais. Variété). Les données peuvent ne pas être un format unique. C'est-à-dire qu'ils peuvent être disparates, structurés ou structurés partiellement.

Cependant, ajoutez périodiquement à VVV et à la quatrième V (Veracité - fiabilité / une indication de données) et même le cinquième v (dans certains modes de réalisation, la viabilité - viabilité, dans d'autres, la valeur de la valeur).

Quelque part, j'ai aussi vu 7V, ce qui caractérise les données liées à la grande date. Mais à mon avis, cela vient de la série (où P est ajouté périodiquement, bien qu'il soit pour comprendre les 4-x initiaux).

Nous sommes déjà plus de 29 000 personnes.
Entrer

Qui a besoin

Il s'agit d'une question logique, comment puis-je utiliser des informations (si cela, la grande date est des centaines et des milliers de téraoctets)?

Pas même aussi. Voici des informations. Alors qu'est-ce que la grande date est arrivée à ce moment-là? Quelle est l'utilisation de grandes données dans le marketing et dans les entreprises?

Les bases de données ordinaires ne peuvent pas être stockées et le traitement (je ne parle pas maintenant pas d'analyse, mais simplement de stockage et de traitement) d'une quantité énorme d'informations.
La grande date résout cette tâche principale. Stocke et gère avec succès des informations avec un volume important;
Structures Informations provenant de diverses sources (vidéo, images, documents audio et texte), dans un aspect unique, compréhensible et répondant;
Formation d'analyses et création de prévisions précises basées sur des informations structurées et traitées.

C'est compliqué. Pour parler simplement, tout marketing qui comprend que si vous explorez une grande quantité d'informations (à propos de vous, de votre entreprise, de vos concurrents, de votre secteur), vous pouvez obtenir des résultats très décents:

Compréhension complète de votre entreprise et de votre entreprise de la part des chiffres;
Explorez vos concurrents. Et cela, à son tour, donnera à l'occasion de sortir de l'avance en raison de la prévalence d'eux;
Apprenez de nouvelles informations sur vos clients.

Et précisément parce que la technologie de données de grande taille donne les résultats suivants, tout est porté avec elle. Essayer de fixer cette affaire dans votre entreprise pour obtenir une augmentation des ventes et réduire les coûts. Et si spécifiquement, alors:

Augmenter la croix des ventes et les ventes supplémentaires en raison d'une meilleure connaissance des préférences des clients;
Trouver des produits populaires et des raisons pour lesquelles ils sont achetés (et au contraire);
Améliorer le produit ou le service;
Améliorer le niveau de service;
Rejet de la fidélité et de la clientèle;
Avertissement de fraude (plus pertinent pour le secteur bancaire);
Réduction des coûts excédentaires.

L'exemple le plus courant, qui est donné dans toutes les sources - est bien sûr apple Companyqui recueille des données sur ses utilisateurs (téléphone, horloge, ordinateur).

Cela est dû à la présence de l'éco-système que la Société sait tellement sur ses utilisateurs et ci-après l'utilisation de cela pour profiter.

Ceux-ci et d'autres exemples d'utilisation, vous pouvez lire dans tout autre article, sauf cela.

Exemple moderne

Je vais vous parler d'un autre projet. Au peu près une personne qui construit l'avenir à l'aide de grandes solutions de données.

C'est un masque ilon et sa société Tesla. Son rêve principal est de faire des voitures autonomes, c'est-à-dire que vous obtenez derrière le volant, allumez le pilote automatique de Moscou vers Vladivostok et ... s'endormir, car vous n'avez absolument pas besoin de conduire une voiture, car il fera tout son possible. .

Cela semblerait fantastique? Mais non! Il ne vient que Ilon est venu beaucoup plus sage que Google, qui gère des voitures avec des dizaines de satellites. Et est allé à un autre moyen:

Dans chaque voiture vendue, un ordinateur est défini, qui collecte toutes les informations.
Tout - cela signifie tout le tout. À propos du conducteur, le style de sa conduite, des routes autour du mouvement des autres voitures. Le volume de ces données atteint 20-30 gb par heure;
Ensuite, ces informations sur communications par satellite passé à l'ordinateur central, qui est engagé dans le traitement de ces données;
Basé sur de grandes données de données qui traitent cet ordinateur, Un modèle d'une voiture sans pilote est en construction.

Au fait, si l'entreprise Google va très mal et leurs voitures tout le temps tombent dans l'accident, le masque, en raison du fait que travailler avec de grandes données va bien mieux, car les modèles de test montrent de très bons résultats.

Mais ... tout ira de l'économie. Que sommes-nous tous des bénéfices, oui sur le profit? Beaucoup, qui peut décider de la grande date, n'est complètement méconnuée de gains et d'argent.

Statistiques de Google, simplement être basée sur de grandes données, montre une chose intéressante.

Avant que les médecins ne déclarent le début de l'épidémie de la maladie dans certaines régions, le montant de cette région augmente considérablement requêtes de recherche Sur le traitement de cette maladie.

Ainsi, l'étude correcte des données et leur analyse peut former des prévisions et prédire le début de l'épidémie (et, en conséquence, sa prévention) est beaucoup plus rapide que la conclusion des organes officiels et de leurs actions.

Application en Russie

Cependant, la Russie ralentit toujours un peu. Ainsi, la définition des grandes données en Russie n'est apparue qu'il y a plus de 5 ans (je suis maintenant sur les entreprises ordinaires).

Et malgré le fait que celui des marchés à la croissance la plus rapide dans le monde (drogue et armes fumant nerveusement sur le côté), car chaque année, le marché de la collecte et de l'analyse des grandes données sera gripera de 32%.

Afin de caractériser le grand marché de données en Russie, je me souviens d'une vieille blague. La grande date est comme le sexe jusqu'à 18 ans. Tout le monde en est raconté, il y a beaucoup de bruit et peu d'actions réelles autour de lui, et tout le monde a honte d'admettre qu'ils ne sont pas engagés dans cela. Et la vérité est, autour de cela beaucoup de bruit, mais de petites actions réelles.

Bien que la célèduction de la société de recherche de Gartner ait déjà annoncé que la grande date est une tendance croissante (comme, de la manière dont, de l'intelligence artificielle) et des instruments assez indépendants pour analyser et développer des technologies de pointe.

Les niches les plus actives, où les grandes données en Russie sont appliquées, elles sont des banques / une assurance (sans émerveillement que je commence un article avec la tête de Sberbank), Sphère de télécommunications, commerce de détail, immobilier et ... secteur public.

Par exemple, je vous en dirai davantage sur une paire de secteurs de l'économie, qui utilisent de gros algorithmes de données.

1. Banques

Commençons par les banques et les informations qu'ils collectent sur nous et nos actions. Par exemple, j'ai pris les 5 meilleures banques russes qui investissent activement dans de grandes données:

Sberbank;
Gazprombank;
VTB 24;
Alfa Bank;
Banque Tinkoff.

Il est particulièrement agréable de voir parmi les dirigeants russes de Alpha Bank. Au minimum, il est agréable de comprendre que la banque, le partenaire officiel dont vous êtes, comprend la nécessité d'introduire de nouveaux outils de marketing dans votre entreprise.

Mais des exemples d'utilisation et de mise en œuvre avec succès de grandes données que je souhaite montrer sur une banque que j'aime pour un look non standard et une action de son fondateur.

Je parle de la banque Tinkoff. Leur tâche principale était de développer un système permettant d'analyser de grandes données en temps réel en raison de la clientèle croissante.

Résultats: L'heure des processus internes a diminué au moins 10 fois et pendant plus de 100 fois.

Bien, et une petite distraction. Savez-vous pourquoi j'ai parlé de trucs non standard et d'actions d'Oleg Tinkov? Juste à mon avis, ils l'ont aidé à se tourner d'un homme d'affaires du milieu, Koi mille en Russie, dans l'un des entrepreneurs les plus célèbres et les plus reconnaissables. En confirmation, regardez cette vidéo inhabituelle et intéressante:

2. Immobilier

Dans l'immobilier, tout est beaucoup plus difficile. Et c'est exactement l'exemple que je veux vous amener à comprendre la grande date de comprendre l'activité habituelle. Donnée initiale:

Grande quantité de texte de texte;
Sources ouvertes (satellites privées transmettant des données sur les changements de terre);
Énorme quantité d'informations non contrôlées sur Internet;
Modifications continues des sources et des données.

Et sur la base de cela, il est nécessaire de préparer et d'évaluer la valeur de l'intrigue terrestre, par exemple dans le village de l'Ural. Le professionnel prendra une semaine.

Les évaluateurs de la société russes et Roseco, qui est en fait une analyse des grandes données à l'aide de logiciels, ne laissera pas plus de 30 minutes de travail tranquille. Comparer, semaine et 30 minutes. La différence colossale.

Outils de création

Bien entendu, d'énormes quantités d'informations ne peuvent pas être stockées et traitées sur de simples disques durs.

MAIS logicielQuelles structures et analyses les données est généralement une propriété intellectuelle et chaque fois que le développement de l'auteur. Cependant, il existe des outils basés sur tout ce charme:

Hadoop & Mapreduce;
Bases de données NOSQL;
Outils de classe de découverte de données.

Pour être honnête, je ne serai pas en mesure d'expliquer clairement ce qu'ils diffèrent les uns des autres, car ils apprennent à rencontrer et à travailler avec ces choses dans des institutions physiques et mathématiques.

Pourquoi alors je l'ai parlé si je ne peux pas expliquer? N'oubliez-vous que dans tous les films, les voleurs sont livrés à n'importe quelle banque et consultent un grand nombre de matériels connectés aux fils? La même chose à la grande date. Par exemple, voici un modèle qui est actuellement l'un des leaders du marché.

Tool Big Date

Le coût de la configuration maximale apparaît jusqu'à 27 millions de roubles par rack. C'est bien sûr la version de luxe. Je suis pour vous assurer de suivre la création de grandes données dans votre entreprise.

Brièvement sur la chose principale

Vous pouvez demander pourquoi vous, petites et moyennes entreprises fonctionnent avec une grande date?

À ce sujet, je vais vous répondre une citation d'une personne: "Dans un proche avenir, les clients seront à la demande des entreprises qui mieux comprendre leur comportement, leur habitudes et leur correspondent autant que possible."

Mais prenons une vérité dans les yeux. Pour introduire la grande date de la petite entreprise, il est nécessaire de posséder non seulement des budgets importants pour le développement et la mise en œuvre de logiciels, mais également sur le contenu des spécialistes, du moins tels que les gros analystes de données et Sysadmin.

Et maintenant, je suis silencieux que vous devez avoir de telles données pour le traitement.

D'accord. Pour les petites entreprises, le sujet n'est presque pas applicable. Mais cela ne signifie pas que vous devez oublier tout ce qui est lu ci-dessus. Juste étudier pas vos données, mais les résultats d'analyses des données appelées entreprises étrangères et russes.

Par exemple, le réseau de vente au détail ciblé utilisant les gros analystes de données a découvert que les femmes enceintes devant le deuxième trimestre de la grossesse (du 1er à la 12e semaine de grossesse) achètent activement des moyens non aromatiques.

Grâce à ces données, ils leur envoient des coupons avec des réductions sur des moyens unarifiés avec une période limitée.

Et si vous êtes juste un très petit café, par exemple? Oui, très simple. Utilisez l'application de fidélité. Et après un certain temps, grâce aux informations cumulées, vous pouvez non seulement offrir aux clients de leurs besoins, mais également de voir les plats les plus peu fiables et les plus marginaux littéralement une paire de clics de souris.

D'où la sortie. L'introduction de la grande date des petites entreprises ne vaut guère la peine, mais d'utiliser les résultats et les développements d'autres sociétés - en vous assurant.