Technologies d'analyse de données volumineuses. Le Big Data et la blockchain sont une percée dans l'analyse des données. Experts: Big Data Peak Fashion

Big data - qu'est-ce que c'est en termes simples

En 2010, les premières tentatives pour résoudre le problème croissant du big data ont commencé à apparaître. Des produits logiciels ont été lancés, dont l'action visait à minimiser les risques lors de l'utilisation d'énormes tableaux d'informations.

En 2011, de grandes entreprises telles que Microsoft, Oracle, EMC et IBM se sont intéressées au Big Data - elles ont été les premières à utiliser le Big Data dans leurs stratégies de développement, et avec succès.

Les universités ont commencé à mener l'étude des mégadonnées en tant que sujet distinct dès 2013 - désormais, les problèmes dans ce domaine sont traités non seulement de la science des données, mais aussi de l'ingénierie, associée à des sujets informatiques.

Les principales méthodes d'analyse et de traitement des données sont les suivantes:

Méthodes de classe ou analyse approfondie ( Exploration de données).

Ces méthodes sont assez nombreuses, mais elles sont unies par une chose: les outils mathématiques utilisés en conjonction avec les réalisations dans le domaine des technologies de l'information.

Crowdsourcing.

Cette technique permet d'obtenir des données simultanément à partir de plusieurs sources, et le nombre de ces dernières est pratiquement illimité.

Test A / B.

À partir de la quantité totale de données, un ensemble d'éléments de contrôle est sélectionné, qui est comparé à son tour à d'autres ensembles similaires, où l'un des éléments a été modifié. La réalisation de tels tests permet de déterminer quelles fluctuations de paramètres ont le plus grand impact sur la population témoin. Grâce aux volumes de Big Data, il est possible d'effectuer un grand nombre d'itérations, chacune se rapprochant du résultat le plus fiable.

Analyses prédictives.

Les experts dans ce domaine essaient de prédire et de planifier à l'avance le comportement de l'objet contrôlé afin de prendre la décision la plus avantageuse dans cette situation.

Apprentissage automatique ( intelligence artificielle).

Il est basé sur l'analyse empirique de l'information et la construction ultérieure d'algorithmes pour les systèmes d'auto-apprentissage.

Analyse de réseau.

La méthode la plus courante pour étudier les réseaux sociaux - après l'obtention de données statistiques, les nœuds créés dans la grille sont analysés, c'est-à-dire les interactions entre les utilisateurs individuels et leurs communautés.

Perspectives et tendances de développement du Big data

En 2017, lorsque le big data a cessé d'être quelque chose de nouveau et d'inconnu, son importance non seulement n'a pas diminué, mais a encore augmenté. Désormais, les experts parient que l'analyse de grandes quantités de données deviendra disponible non seulement pour les organisations géantes, mais aussi pour les petites et moyennes entreprises. Il est prévu que cette approche soit mise en œuvre à l'aide des composants suivants:

Stockage en ligne.

Le stockage et le traitement des données deviennent plus rapides et plus économiques - par rapport au coût de maintenance de votre propre centre de données et à l'expansion possible du personnel, la location d'un cloud semble être une alternative beaucoup moins chère.

Utilisation de données sombres.

Les soi-disant «données noires» - toutes les informations non numérisées sur une entreprise qui ne jouent pas un rôle clé dans son utilisation directe, mais peuvent servir de raison pour la transition vers un nouveau format de stockage des informations.

Intelligence artificielle et apprentissage en profondeur.

La technologie d'apprentissage de l'intelligence artificielle, qui imite la structure et le travail du cerveau humain, est la mieux adaptée pour traiter une grande quantité d'informations en constante évolution. Dans ce cas, la machine fera exactement la même chose qu'un humain aurait dû faire, mais en même temps la probabilité d'erreur est considérablement réduite.

Blockchain.

Cette technologie permet d'accélérer et de simplifier de nombreuses transactions Internet, y compris internationales. Un autre avantage de la Blockchain est qu'elle réduit les coûts de transaction.

Self service et réduction de prix.

En 2017, il est prévu d'introduire des «plates-formes en libre-service» - ce sont des sites gratuits où les représentants de petites et moyennes entreprises pourront évaluer indépendamment leurs données et les organiser.

VISA a utilisé le Big Data de la même manière, en suivant les tentatives frauduleuses d'effectuer une opération particulière. Grâce à cela, ils économisent plus de 2 milliards de dollars de fuites chaque année.

Le ministère allemand du Travail a pu réduire ses coûts de 10 milliards d'euros en mettant en œuvre un système de big data dans le cadre de l'octroi des allocations de chômage. Dans le même temps, il a été révélé qu'un cinquième des citoyens bénéficient de ces avantages sans justification.

Le Big Data n'a pas non plus épargné l'industrie du jeu. Ainsi, les développeurs de World of Tanks ont mené une étude d'informations sur tous les joueurs et comparé les indicateurs disponibles de leur activité. Cela a permis de prédire une éventuelle rotation future des joueurs - sur la base des hypothèses émises, les représentants de l'organisation ont pu interagir plus efficacement avec les utilisateurs.

Les organisations notables utilisant le Big Data incluent également HSBC, Nasdaq, Coca-Cola, Starbucks et AT&T.

Problèmes de Big Data

Le plus gros problème avec les mégadonnées est le coût de leur traitement. Cela peut inclure à la fois un équipement coûteux et le coût des salaires des professionnels qualifiés capables de traiter de grandes quantités d'informations. Évidemment, l'équipement devra être régulièrement mis à jour pour ne pas perdre les performances minimales à mesure que la quantité de données augmente.

Le deuxième problème est à nouveau lié à la grande quantité d'informations à traiter. Si, par exemple, une étude ne donne pas 2-3, mais un grand nombre de résultats, il est très difficile de rester objectif et de ne sélectionner dans le flux général de données que ceux qui auront un impact réel sur l'état de tout phénomène.

Problème de confidentialité Big Data. Avec la plupart des fournisseurs de services clients passant à l'utilisation en ligne des données, il est très facile de devenir une autre cible pour les cybercriminels. Même le simple stockage d'informations personnelles sans effectuer de transactions en ligne peut être lourd de conséquences indésirables pour les clients du stockage cloud.

Problème de perte d'informations. Les précautions ne doivent pas être limitées à une simple sauvegarde de données ponctuelle, mais au moins 2-3 sauvegardes espace de rangement. Cependant, à mesure que le volume augmente, les difficultés de redondance augmentent - et les informaticiens tentent de trouver solution optimale ce problème.

Marché de la technologie du Big Data en Russie et dans le monde

En 2014, 40% du volume du marché du big data est constitué de services. Les revenus issus de l'utilisation du Big Data dans les équipements informatiques sont légèrement inférieurs (38%) à cet indicateur. Les 22% restants sont des logiciels.

Les produits les plus utiles dans le segment mondial pour résoudre les problèmes de Big Data, selon les statistiques, sont les plates-formes analytiques en mémoire et NoSQL. 15 et 12 pour cent du marché, respectivement, sont occupés par le logiciel d'analyse Log-file et les plates-formes Columnar. Mais Hadoop / MapReduce en pratique ne traite pas très efficacement les problèmes de Big Data.

Résultats de la mise en œuvre des technologies Big Data:

augmentation de la qualité du service client;
optimisation de l'intégration dans la chaîne d'approvisionnement;
optimisation de la planification de l'organisation;
accélération de l'interaction avec les clients;
améliorer l'efficacité du traitement des demandes des clients;
réduction des coûts de service;
optimisation du traitement des commandes clients.

Meilleurs livres sur le Big Data

Le visage humain du Big Data, Rick Smolan et Jennifer Erwitt

Convient pour l'étude initiale des technologies de traitement de données volumineuses - vous présente facilement et clairement le cours. Il montre clairement comment l'abondance d'informations a affecté la vie quotidienne et tous ses domaines: science, affaires, médecine, etc. Contient de nombreuses illustrations, il est donc perçu sans trop d'efforts.

Introduction à l'exploration de données par Pang-Ning Tan, Michael Steinbach et Vipin Kumar

Un livre sur le Big Data est également utile pour les débutants, expliquant comment travailler avec le Big Data sur le principe «du simple au complexe». Il couvre de nombreux points importants au stade initial: préparation au traitement, visualisation, OLAP, ainsi que certaines méthodes d'analyse et de classification des données.

Apprentissage automatique Python par Sebastian Raska

Un guide pratique pour utiliser et travailler avec le Big Data en utilisant le langage de programmation Python. Convient aussi bien aux étudiants en génie qu'aux professionnels qui souhaitent approfondir leurs connaissances.

Hadoop pour les nuls, Dirk Derus, Paul S.Zykopoulos, Roman B. Melnik

Hadoop est un projet spécialement conçu pour fonctionner avec des programmes distribués qui exécutent des actions sur des milliers de nœuds simultanément. La connaissance de celui-ci vous aidera à comprendre plus en détail l'application pratique du big data.

Basé sur des matériaux issus de la recherche et des tendances

Le Big Data, le «Big Data» sont devenus le discours de la ville dans la presse informatique et marketing depuis plusieurs années. Et c'est clair: technologies numériques pénétré dans la vie de l'homme moderne, «tout est écrit». Le volume de données sur divers aspects de la vie augmente et, en même temps, les possibilités de stockage d'informations se multiplient.

Technologies mondiales pour stocker des informations

Source: Hilbert et Lopez, «La capacité technologique du monde à stocker, communiquer et calculer des informations», Science, 2011 Global.

La plupart des experts conviennent que l'accélération de la croissance des données est une réalité objective. Réseaux sociaux, les appareils mobiles, les données des appareils de mesure, les informations commerciales - ce ne sont là que quelques types de sources qui peuvent générer d'énormes quantités d'informations. D'après les recherches IDCUnivers numérique publié en 2012, les 8 prochaines années, la quantité de données dans le monde atteindra 40 Zb (zettaoctets), ce qui équivaut à 5200 Go pour chaque habitant de la planète.

Croissance des informations numériques collectées aux États-Unis

Source: IDC

Une part importante des informations n'est pas créée par des personnes, mais par des robots qui interagissent à la fois entre eux et avec d'autres réseaux de données, tels que, par exemple, des capteurs et des appareils intelligents. Avec de tels taux de croissance, la quantité de données dans le monde, selon les prévisions des chercheurs, doublera chaque année. Le nombre de serveurs virtuels et physiques dans le monde va décupler en raison de l'expansion et de la création de nouveaux centres de données. À cet égard, il existe un besoin croissant d'une utilisation et d'une monétisation efficaces de ces données. Étant donné que l'utilisation du Big Data en entreprise nécessite beaucoup d'investissement, vous devez bien comprendre la situation. Et c'est, par essence, simple: vous pouvez augmenter l'efficacité de votre entreprise en réduisant les coûts et / et en augmentant les ventes.

À quoi sert le Big Data?

Le paradigme Big Data définit trois principaux types de tâches.

Stocker et gérer des centaines de téraoctets ou pétaoctets de données que les bases de données relationnelles conventionnelles ne peuvent pas utiliser efficacement.
Organisation d'informations non structurées composées de texte, d'images, de vidéos et d'autres types de données.
L'analyse Big Data, qui pose la question de savoir comment travailler avec des informations non structurées, la génération de rapports analytiques, ainsi que la mise en œuvre de modèles prédictifs.

Le marché des projets Big Data croise le marché de la Business Intelligence (BA), dont le volume dans le monde, selon les experts, s'élevait en 2012 à environ 100 milliards de dollars. Il comprend des composants de technologie réseau, des serveurs, des logiciels et des services techniques.

En outre, l'utilisation des technologies Big Data est pertinente pour les solutions de la classe de garantie de revenu (RA), conçues pour automatiser les activités des entreprises. Les systèmes modernes de garantie de revenu comprennent des outils pour détecter les incohérences et une analyse approfondie des données, permettant la détection en temps opportun des pertes ou des distorsions éventuelles des informations pouvant entraîner une diminution des résultats financiers. Dans ce contexte, les entreprises russes, confirmant la présence d'une demande de technologies Big Data sur le marché intérieur, notent que les facteurs qui stimulent le développement du Big Data en Russie sont la croissance des données, l'accélération de la prise de décisions managériales et l'amélioration de leur qualité.

Ce qui empêche de travailler avec le Big Data

Aujourd'hui, seulement 0,5% des données numériques accumulées sont analysées, malgré le fait qu'il existe des tâches objectivement à l'échelle de l'industrie qui pourraient être résolues à l'aide de solutions analytiques de la classe Big Data. Les marchés informatiques développés ont déjà des résultats qui peuvent être utilisés pour évaluer les attentes liées à l'accumulation et au traitement du big data.

L'un des principaux facteurs qui entravent la mise en œuvre de projets Big Data, en plus du coût élevé, est considéré le problème du choix des données à traiter: c'est-à-dire déterminer quelles données doivent être récupérées, stockées et analysées et lesquelles ne doivent pas être prises en compte.

De nombreux représentants d'entreprises notent que les difficultés de mise en œuvre de projets Big Data sont liées au manque de spécialistes - spécialistes du marketing et analystes. Le taux de retour sur investissement dans le Big Data dépend directement de la qualité du travail des collaborateurs engagés dans des analyses approfondies et prédictives. L'énorme potentiel des données déjà existantes dans une organisation ne peut souvent pas être utilisé efficacement par les spécialistes du marketing eux-mêmes en raison de processus commerciaux obsolètes ou de réglementations internes. Par conséquent, les projets Big Data sont souvent perçus par les entreprises comme difficiles non seulement dans la mise en œuvre, mais aussi dans l'évaluation des résultats: la valeur des données collectées. Les spécificités du travail avec des données obligent les spécialistes du marketing et les analystes à détourner leur attention de la technologie et à créer des rapports pour résoudre des problèmes commerciaux spécifiques.

En raison du volume important et de la vitesse élevée du flux de données, le processus de collecte de données implique des procédures ETL en temps réel. Pour référence:ETL - deanglaisExtrait, Transformer, Charge - littéralement "extraction, transformation, chargement") - l'un des principaux processus de gestion les entrepôts de données, ce qui comprend: l'extraction de données à partir de sources externes, leur transformation et nettoyage adapté aux besoins ETL doit être considéré non seulement comme un processus de transfert de données d'une application à une autre, mais aussi comme un outil de préparation des données pour l'analyse.

Et puis les problématiques de sécurisation des données provenant de sources externes doivent avoir des solutions correspondant à la quantité d'informations collectées. Les méthodes d'analyse Big Data ne se développant jusqu'à présent que suite à la croissance du volume de données, un rôle important est joué par la propriété des plates-formes analytiques d'utiliser de nouvelles méthodes de préparation et d'agrégation des données. Cela suggère que, par exemple, des données sur des clients potentiels ou un énorme magasin de données avec un historique des clics sur les sites de boutique en ligne peuvent être intéressants pour résoudre divers problèmes.

Les difficultés ne s'arrêtent pas

Malgré toutes les difficultés de mise en œuvre du Big Data, l'entreprise entend augmenter ses investissements dans ce domaine. Selon les données de Gartner, en 2013, 64% des plus grandes entreprises mondiales ont déjà investi ou prévoient d'investir dans le déploiement de technologies Big Data pour leur entreprise, alors qu'en 2012 elles étaient 58%. Selon une étude Gartner, les leaders des industries investissant dans le Big Data sont les entreprises médiatiques, télécoms, bancaires et de services. Des résultats positifs de la mise en œuvre du Big Data ont déjà été obtenus par de nombreux grands acteurs du secteur de la vente au détail en termes d'utilisation de données obtenues à l'aide d'outils RFID, de systèmes de logistique et de réplication (de l'anglais. reconstitution - accumulation, réapprovisionnement - R&T), ainsi que des programmes de fidélisation. Une expérience de vente au détail réussie incite d'autres secteurs du marché à en trouver de nouveaux moyens efficaces monétiser le big data pour transformer son analyse en une ressource au service du développement commercial. Grâce à cela, selon les experts, dans la période allant jusqu'en 2020, les investissements dans la gestion et le stockage diminueront par gigaoctet de données de 2 $ à 0,2 $, mais l'étude et l'analyse des propriétés technologiques du Big Data ne croîtront que de 40%.

Les coûts présentés dans divers projets d'investissement dans le domaine du Big Data sont de nature différente. Les éléments de coût dépendent des types de produits sélectionnés en fonction certaines décisions... Selon les experts, la plus grande partie des coûts des projets d'investissement concerne les produits liés à la collecte, à la structuration des données, au nettoyage et à la gestion des informations.

Comment c'est fait

Il existe de nombreuses combinaisons de logiciels et de matériel qui vous permettent de créer des solutions Big Data efficaces pour une variété de disciplines commerciales: des médias sociaux et des applications mobiles à l'exploration et à la visualisation de données d'entreprise. Un avantage important du Big Data est la compatibilité des nouveaux outils avec les bases de données largement utilisées en entreprise, ce qui est particulièrement important lorsque vous travaillez avec des projets interdisciplinaires, tels que l'organisation de ventes multicanaux et le support client.

La séquence de travail avec le Big Data consiste à collecter des données, à structurer les informations reçues à l'aide de rapports et de tableaux de bord, à créer des idées et des contextes et à formuler des recommandations d'action. Étant donné que travailler avec le Big Data implique des coûts élevés de collecte de données, dont le résultat n'est pas connu à l'avance, la tâche principale est de comprendre clairement à quoi servent les données et non à quelle quantité elles sont disponibles. Dans ce cas, la collecte de données se transforme en un processus d'obtention d'informations extrêmement nécessaires pour résoudre des problèmes spécifiques.

Par exemple, les fournisseurs de télécommunications regroupent une énorme quantité de données, y compris des données de géolocalisation, qui sont constamment mises à jour. Ces informations peuvent présenter un intérêt commercial pour les agences de publicité susceptibles de les utiliser pour diffuser des publicités ciblées et locales, ainsi que pour les détaillants et les banques. Ces données peuvent jouer un rôle important dans la décision d'ouvrir un point de vente au détail dans un certain endroit sur la base de données sur la présence d'un puissant flux cible de personnes. Il existe un exemple de mesure de l'efficacité de la publicité sur les panneaux d'affichage extérieurs à Londres. Désormais, la portée d'une telle publicité ne peut être mesurée qu'en plaçant les personnes avec un dispositif spécial qui compte les passants à proximité des structures publicitaires. Par rapport à ce type de mesure de l'efficacité de la publicité, un opérateur mobile a beaucoup plus d'opportunités - il connaît exactement la localisation de ses abonnés, il connaît leurs caractéristiques démographiques, leur sexe, leur âge, leur état matrimonial, etc.

Sur la base de ces données, à l'avenir, la perspective s'ouvre pour modifier le contenu du message publicitaire, en utilisant les préférences d'une personne particulière passant par le panneau d'affichage. Si les données montrent qu'une personne de passage voyage beaucoup, alors on peut lui montrer une publicité pour une station. Les organisateurs d'un match de football ne peuvent estimer le nombre de supporters que lorsqu'ils viennent au match. Mais s'ils avaient la possibilité de demander à l'opérateur mobile des informations sur l'endroit où se trouvaient les visiteurs une heure, un jour ou un mois avant le match, cela donnerait aux organisateurs la possibilité de planifier des emplacements pour la publicité des prochains matchs.

Un autre exemple est la façon dont les banques peuvent utiliser le Big Data pour prévenir la fraude. Si le client prétend avoir perdu la carte, et lors d'un achat avec elle, la banque voit en temps réel l'emplacement du téléphone du client dans la zone d'achat où la transaction a lieu, la banque peut vérifier les informations à la demande du client pour voir s'il a tenté de le tromper. Ou dans le cas contraire, lorsqu'un client effectue un achat dans un magasin, la banque voit que la carte utilisée pour la transaction et le téléphone du client sont au même endroit, la banque peut conclure que la carte est utilisée par son propriétaire. Grâce à ces avantages du Big Data, les frontières dont sont dotés les entrepôts de données traditionnels s'élargissent.

Pour réussir à prendre une décision sur la mise en œuvre de solutions Big Data, une entreprise doit calculer un dossier d'investissement et cela pose de grandes difficultés en raison de nombreux composants inconnus. Dans de tels cas, le paradoxe de l'analyse est de prévoir l'avenir en se basant sur le passé, pour lequel les données font souvent défaut. Dans ce cas, une planification claire de vos actions initiales est un facteur important:

Tout d'abord, il est nécessaire de définir une tâche métier spécifique pour la solution dont les technologies Big Data seront utilisées, cette tâche deviendra le cœur de la détermination de l'exactitude du concept choisi. Vous devez vous concentrer sur la collecte de données liées à cette tâche particulière, et pendant la preuve de concept, vous pouvez utiliser divers outils, des processus et des pratiques de gestion qui vous permettront de prendre des décisions plus éclairées à l'avenir.
Deuxièmement, il est peu probable qu'une entreprise sans compétences ni expérience en analyse de données soit en mesure de mettre en œuvre avec succès un projet Big Data. Les connaissances requises proviennent toujours d'une expérience d'analyse antérieure, qui est le principal facteur affectant la qualité du travail avec les données. La culture d'utilisation des données est importante, car souvent l'analyse des informations révèle la dure vérité sur l'entreprise, et pour accepter et travailler avec cette vérité, des méthodes développées de travail avec les données sont nécessaires.
Troisièmement, la valeur des technologies Big Data réside dans la fourniture d'informations. Les bons analystes restent en pénurie sur le marché. Il est d'usage de les appeler des spécialistes qui ont une compréhension approfondie de la signification commerciale des données et savent comment les utiliser correctement. L'analyse des données est un moyen d'atteindre les objectifs commerciaux, et pour comprendre la valeur du Big Data, vous avez besoin d'un modèle de comportement approprié et de compréhension de vos actions. Dans ce cas, les mégadonnées fourniront une mine d'informations utiles sur les consommateurs, sur la base desquelles vous pourrez prendre des décisions commerciales utiles.

Malgré le fait que le marché russe du Big Data commence à peine à se former, certains projets dans ce domaine sont déjà mis en œuvre avec succès. Certains d'entre eux réussissent dans le domaine de la collecte de données, comme des projets pour le Service fédéral des impôts et la Tinkoff Credit Systems Bank, d'autres - en termes d'analyse des données et d'application pratique de ses résultats: c'est le projet Synqera.

Tinkoff Credit Systems Bank a mis en œuvre un projet de mise en œuvre de la plate-forme EMC2 Greenplum, qui est un outil de calcul massivement parallèle. Pendant ces dernières années la banque a augmenté les exigences en matière de vitesse de traitement des informations accumulées et d'analyse des données en temps réel, en raison du taux de croissance élevé du nombre d'utilisateurs de cartes de crédit. La banque a annoncé son intention d'étendre l'utilisation des technologies Big Data, en particulier pour le traitement de données non structurées et l'utilisation d'informations d'entreprise obtenues à partir de diverses sources.

Le Service fédéral des impôts de Russie crée actuellement une couche analytique pour l'entrepôt de données fédéral. Sur sa base, un seul espace d'information et la technologie pour accéder aux données fiscales pour le traitement statistique et analytique. Lors de la mise en œuvre du projet, des travaux sont menés pour centraliser les informations analytiques auprès de plus de 1 200 sources du niveau local de l'IFTS.

Un autre exemple intéressant d'analyse de Big Data en temps réel est la startup russe Synqera, qui a développé la plateforme Simplate. La solution est basée sur le traitement de grandes quantités de données, le programme analyse les informations sur les clients, leur historique d'achat, leur âge, leur sexe et même leur humeur. Aux caisses du réseau des magasins de cosmétiques, écrans tactiles avec des capteurs qui reconnaissent les émotions des clients. Le programme détermine l'humeur d'une personne, analyse les informations la concernant, détermine l'heure de la journée et scanne la base de données des remises du magasin, après quoi il envoie à l'acheteur des messages ciblés sur les promotions et les offres spéciales. Cette solution augmente la fidélité des clients et augmente les ventes au détail.

Si nous parlons de cas étrangers réussis, alors à cet égard, l'expérience de l'utilisation des technologies Big Data chez Dunkin`Donuts, qui utilise des données en temps réel pour vendre des produits, est intéressante. Les écrans numériques dans les magasins présentent des offres qui alternent toutes les minutes, en fonction de l'heure de la journée et de la disponibilité des produits. L'entreprise reçoit des données des reçus du caissier dont les offres ont reçu le plus de réponse des acheteurs. Cette approche du traitement des données a permis d'augmenter les bénéfices et le chiffre d'affaires des marchandises dans l'entrepôt.

Comme le montre l'expérience de la mise en œuvre de projets Big Data, ce domaine est conçu pour résoudre avec succès les problèmes des entreprises modernes. Dans le même temps, un facteur important pour atteindre les objectifs commerciaux lorsque l'on travaille avec le Big Data est de choisir la bonne stratégie, qui comprend des analyses qui identifient les besoins des consommateurs, ainsi que l'utilisation de technologies innovantes dans le domaine du Big Data.

Selon une enquête mondiale menée chaque année par Econsultancy et Adobe auprès des spécialistes du marketing d'entreprise depuis 2012, les «mégadonnées» sur la façon dont les gens se comportent sur Internet peuvent faire beaucoup. Ils sont capables d'optimiser les processus commerciaux hors ligne, d'aider à comprendre comment les propriétaires d'appareils mobiles les utilisent pour trouver des informations, ou simplement «améliorer le marketing», c'est-à-dire. plus efficace. De plus, la dernière fonction est de plus en plus populaire d'année en année, comme il ressort du schéma que nous avons présenté.

Principaux domaines de travail des spécialistes du marketing Internet en termes de relations clients

La source: Econsultancy et Adobe, publié - emarketer.com

Notez que la nationalité des répondants n'a pas beaucoup d'importance. Comme le montre l'enquête menée par KPMG en 2013, la part des «optimistes», c'est-à-dire de ceux qui utilisent le Big Data pour développer une stratégie commerciale est de 56%, et les fluctuations d'une région à l'autre sont faibles: de 63% dans les pays d'Amérique du Nord à 50% dans la zone EMEA.

Utiliser le Big Data dans différentes régions du monde

La source: KPMG, publié - emarketer.com

Pendant ce temps, l'attitude des spécialistes du marketing à l'égard de ces «tendances de la mode» rappelle quelque peu l'anecdote bien connue:

Dis-moi, Vano, tu aimes les tomates?
- J'aime manger, mais pas moi.

Malgré le fait que les spécialistes du marketing «adorent» le Big Data et semblent même l'utiliser, en fait, «tout est compliqué», alors qu'ils écrivent sur leurs affections sincères sur les réseaux sociaux.

Selon une enquête menée par Circle Research en janvier 2014 auprès de spécialistes du marketing européens, 4 répondants sur 5 n'utilisent pas le Big Data (bien qu'ils les «adorent» bien sûr). Les raisons sont différentes. Il y a peu de sceptiques invétérés - 17% et exactement le même nombre que leurs antipodes, c'est-à-dire ceux qui répondent avec confiance «Oui». Les autres sont hésitants et douteux, "marécageux". Ils évitent les réponses directes sous des prétextes plausibles comme «pas encore, mais bientôt» ou «attendons que les autres commencent».

Utilisation du Big Data par les spécialistes du marketing, Europe, janvier 2014

La source:dnx, publié -emarketer.com

Qu'est-ce qui les trouble? De pure bagatelles. Certains (exactement la moitié d'entre eux) ne croient tout simplement pas à ces données. D'autres (il y en a aussi beaucoup - 55%) ont du mal à corréler les ensembles de «données» et d '«utilisateurs». Certaines personnes (disons-le politiquement correct) ont juste un désordre interne: les données errent entre les services marketing et les structures informatiques. Pour d'autres, le logiciel ne peut pas faire face à l'afflux de travail. Etc. Étant donné que les parts totales dépassent considérablement 100%, il est clair que la situation de «barrières multiples» se produit assez souvent.

Obstacles à l'utilisation du Big Data en marketing

La source:dnx, publié -emarketer.com

Ainsi, nous devons admettre que si le «Big Data» est un grand potentiel, qui doit encore être utilisé. D'ailleurs, c'est peut-être la raison pour laquelle le Big Data perd le halo de «tendance mode», comme en témoignent les données d'une enquête menée par la société déjà citée Econsultancy.

Les tendances les plus significatives du marketing digital 2013-2014

La source: Econsultancy et Adobe

Ils sont remplacés par un autre roi - le marketing de contenu. Combien de temps?

Cela ne veut pas dire que le Big Data est une sorte de phénomène fondamentalement nouveau. Les sources de Big Data existent depuis des années: bases de données sur les achats des clients, les antécédents de crédit, le mode de vie. Et pendant des années, les scientifiques ont utilisé ces données pour aider les entreprises à évaluer les risques et à prévoir les besoins futurs des clients. Cependant, aujourd'hui, la situation a changé sous deux aspects:

Des outils et des techniques plus sophistiqués sont apparus pour analyser et combiner différents ensembles de données;

Ces outils analytiques sont complétés par une avalanche de nouvelles sources de données induites par la numérisation de pratiquement toutes les méthodes de collecte et de mesure de données.

La gamme d'informations disponibles est à la fois inspirante et intimidante pour les chercheurs élevés dans un environnement de recherche structuré. Le sentiment des consommateurs est capturé par les sites Web et toutes sortes de médias sociaux. Le fait de regarder des publicités est enregistré non seulement par des décodeurs, mais également par des balises numériques et des appareils mobiles qui communiquent avec le téléviseur.

Les données comportementales (telles que les appels, les habitudes d'achat et les achats) sont désormais disponibles en temps réel. Ainsi, une grande partie de ce qui était auparavant disponible grâce à la recherche peut maintenant être apprise grâce à de grandes sources de données. Et tous ces actifs d'information sont générés en permanence, quels que soient les processus de recherche. Ces changements nous amènent à nous demander si le big data peut remplacer les études de marché classiques.

Il ne s'agit pas de données, mais de questions et réponses

Avant d'ordonner le glas des études classiques, nous devons nous rappeler que ce n'est pas la présence d'un actif de données particulier qui est critique, mais autre chose. Quoi exactement? Notre capacité à répondre aux questions est quoi. Une chose amusante à propos du nouveau monde des mégadonnées est que les résultats de nouveaux actifs d'information conduisent à encore plus de questions, et ces questions sont généralement mieux traitées par la recherche traditionnelle. Ainsi, à mesure que le Big Data se développe, nous constatons une augmentation parallèle de la disponibilité et de la demande de «petites données» qui peuvent fournir des réponses aux questions du monde du Big Data.

Considérez la situation: un gros annonceur surveille en permanence le trafic et les ventes en magasin en temps réel. Les méthodes de recherche existantes (dans lesquelles nous interrogeons les panélistes sur leurs motivations d'achat et leur comportement au point de vente) nous aident à mieux cibler des segments de clientèle spécifiques. Ces techniques peuvent être étendues pour inclure une gamme plus large d'actifs de Big Data, au point où le Big Data devient un outil de surveillance passive, et la recherche est une méthode de recherche continuellement focalisée sur les changements ou les événements qui nécessitent une étude. C'est ainsi que le big data peut libérer les tracas de la recherche. La recherche primaire ne devrait plus se concentrer sur ce qui se passe (le big data le fera). Au lieu de cela, la recherche primaire peut se concentrer sur l'explication des raisons pour lesquelles nous constatons des tendances ou des écarts par rapport aux tendances. Le chercheur pourra moins réfléchir à l'obtention de données et plus à la manière de les analyser et de les utiliser.

Dans le même temps, nous voyons le big data résoudre l'un de nos plus gros problèmes - le problème de la recherche trop longue. L'examen des études elles-mêmes a montré que des outils de recherche trop gonflés ont un impact négatif sur la qualité des données. Bien que de nombreux experts reconnaissent depuis longtemps ce problème, ils ont invariablement répondu en disant: «Mais j'ai besoin de cette information pour la haute direction», et de longs sondages se sont poursuivis.

Dans le monde du big data, où les indicateurs quantitatifs peuvent être obtenus par observation passive, cette question devient controversée. Encore une fois, jetons un œil à toutes ces études liées à la consommation. Si le big data nous donne un aperçu de la consommation par l'observation passive, alors la recherche primaire sous forme d'enquêtes n'a plus besoin de collecter ce type d'informations, et nous pouvons enfin soutenir notre vision d'enquêtes courtes non seulement avec de bons souhaits, mais aussi avec quelque chose de réel.

Le Big Data a besoin de votre aide

Enfin, le «big» n'est qu'une des caractéristiques du big data. La caractéristique «grande» se réfère à la taille et à l'échelle des données. Bien sûr, c'est la principale caractéristique, car la quantité de ces données dépasse tout ce avec quoi nous avons travaillé auparavant. Mais d'autres caractéristiques de ces nouveaux flux de données sont également importantes: ils sont souvent mal formatés, non structurés (ou, au mieux, partiellement structurés) et pleins d'incertitudes. Le domaine émergent de la gestion des données, bien nommé analytique d'entités, est conçu pour résoudre le problème du dépassement du bruit dans le Big Data. Sa tâche est d'analyser ces ensembles de données et de savoir combien d'observations appartiennent à la même personne, quelles observations sont actuelles et lesquelles sont utilisables.

Ce type de nettoyage des données est nécessaire pour supprimer le bruit ou les données erronées lorsque vous travaillez avec des actifs de données de grande ou de petite taille, mais ce n'est pas suffisant. Nous devons également créer un contexte autour des actifs de Big Data sur la base de notre expérience antérieure, de nos analyses et de notre connaissance des catégories. En fait, de nombreux analystes soulignent la capacité à gérer l'incertitude inhérente au big data comme une source d'avantage concurrentiel, car elle permet une meilleure prise de décision.

C'est là que la recherche primaire est non seulement libérée de la routine par le Big Data, mais contribue également à la création et à l'analyse de contenu dans le Big Data.

Un bon exemple de ceci est l'application de notre cadre fondamentalement différent de capital-marque aux médias sociaux. (ça arrive à propos de développé enMillward marron une nouvelle approche pour mesurer la valeur de la marquele Significativement Différent Cadre - "Le paradigme des différences significatives" -R & T ). Ce modèle a été testé pour le comportement sur des marchés spécifiques, mis en œuvre sur une base standard, et est facile à appliquer dans d'autres directions marketing et systèmes d'information pour l'aide à la décision. En d'autres termes, notre modèle de capital-marque basé sur des enquêtes (mais pas exclusivement) possède toutes les propriétés nécessaires pour surmonter la nature non structurée, décousue et incertaine des mégadonnées.

Considérez les données sur le sentiment des consommateurs fournies par les médias sociaux. Les pics et les creux bruts du sentiment des consommateurs sont très souvent faiblement corrélés avec le capital de marque et les mesures de comportement hors ligne: il y a tout simplement trop de bruit dans les données. Mais nous pouvons réduire ce bruit en appliquant nos modèles de sens du consommateur, de différenciation de marque, de dynamique et de différenciation aux données brutes sur le sentiment des consommateurs - un moyen de traiter et d'agréger les données des médias sociaux à travers ces dimensions.

Une fois que les données sont organisées selon notre modèle de cadre, les tendances identifiées correspondent généralement aux mesures du capital de marque et du comportement hors ligne. Essentiellement, les données des réseaux sociaux ne peuvent pas parler d'elles-mêmes. Leur utilisation à cette fin nécessite notre expertise et nos modèles centrés sur la marque. Quand les réseaux sociaux nous donnent informations uniquesexprimé dans le langage utilisé par les consommateurs pour décrire les marques, nous devons utiliser ce langage dans nos recherches pour rendre la recherche primaire beaucoup plus efficace.

Avantages de la recherche exonérée

Cela nous ramène au fait que les mégadonnées ne remplacent pas tant la recherche qu'elles la libèrent. Les chercheurs seront dispensés de la nécessité de créer une nouvelle étude pour chaque nouveau cas. Les actifs de Big Data en constante augmentation peuvent être exploités sur plusieurs sujets de recherche, ce qui permet à la recherche primaire ultérieure d'approfondir le sujet et de combler les lacunes. Les chercheurs n'auront plus à se fier à des sondages trop médiatisés. Au lieu de cela, ils pourront utiliser de courtes enquêtes et se concentrer sur les paramètres les plus importants, ce qui améliore la qualité des données.

Avec cette version, les chercheurs pourront utiliser leurs principes et idées éprouvés pour ajouter de la précision et du sens aux actifs de Big Data, menant à de nouveaux domaines de recherche par sondage. Ce cycle devrait conduire à une compréhension plus approfondie d'un éventail de questions stratégiques et, en fin de compte, à un mouvement vers ce qui devrait toujours être notre objectif principal - informer et améliorer la qualité des décisions concernant la marque et les communications.

Nous rencontrons régulièrement des mots et des définitions à la mode, dont le sens nous semble intuitivement clair, mais nous n'avons pas une image claire de ce que c'est après tout et de son fonctionnement.

L'un de ces concepts est le Big Data, en russe, vous pouvez parfois trouver une traduction littérale - «big data», mais le plus souvent les gens parlent et écrivent tels quels: Big Data. Tout le monde a probablement entendu ou, du moins, rencontré cette phrase sur Internet, et cela ne semble pas compliqué, mais ce que cela signifie exactement n'est pas toujours clair pour les universitaires qui sont loin des subtilités du monde numérique.

Une excellente tentative pour combler cette lacune dans le cerveau du plus large cercle d'utilisateurs est un article de l'un de nos auteurs préférés, Bernard Marr, qui s'appelle «Qu'est-ce que le Big Data? Explication super simple pour tout le monde "... Sans jargon abstrus dans le seul but d'expliquer les idées clés de ce phénomène à tous, quels que soient l'enseignement et le domaine d'activité.

En fait, au cours des dernières années, nous avons déjà vécu dans un monde imprégné de part en part par le Big Data, mais nous continuons à ne pas comprendre ce que c'est tout de même. Cela est en partie dû au fait que le concept de Big Data lui-même est constamment transformé et repensé, car le monde des hautes technologies et du traitement de grandes quantités d'informations évolue très rapidement, avec de plus en plus de nouvelles options. Et la quantité de ces informations ne cesse de croître.

Alors, que signifie Big Data 2017?

Tout a commencé par une croissance explosive de la quantité de données que nous créons depuis le début de l'ère numérique. Cela est devenu possible principalement en raison de la croissance du nombre et de la puissance des ordinateurs, de l'expansion d'Internet et du développement de technologies capables de capturer des informations du monde réel et physique dans lequel nous vivons tous et de les convertir en données numériques.

En 2017, nous produisons des données lorsque nous allons en ligne, lorsque nous utilisons nos smartphones GPS équipés, lorsque nous communiquons avec des amis sur les réseaux sociaux, nous téléchargeons applications mobiles ou de la musique lorsque nous achetons.

Nous pouvons dire que nous laissons beaucoup de traces numériques derrière nous, quoi que nous fassions, si nos actions incluent des transactions numériques. Autrement dit, presque toujours et partout.

De plus, la quantité de données générées par les machines elles-mêmes augmente à un rythme effréné. Les données sont créées et transmises lorsque nos appareils intelligents communiquent entre eux. Les usines de fabrication du monde entier sont équipées d'équipements qui collectent et transmettent des données jour et nuit.

Dans un proche avenir, nos rues seront remplies de voitures autonomes qui tracent leurs propres itinéraires sur la base de cartes en quatre dimensions, dont les données sont générées en temps réel.

Que peut faire le Big Data?

Un flux sans cesse croissant d'informations sensorielles, de photos, de SMS, de données audio et vidéo se trouve au cœur du Big Data, que nous pouvons utiliser d'une manière que nous ne pouvions même pas imaginer il y a quelques années.

À l'heure actuelle, les projets basés sur le Big Data aident:

- Traiter la maladie et prévenir le cancer... La médecine basée sur l'utilisation du Big Data analyse une grande quantité de dossiers médicaux et d'images, ce qui permet un diagnostic très précoce et contribue à la création de nouvelles méthodes de traitement.

- Combattre la faim... L'agriculture subit une véritable révolution du Big Data, qui permet l'utilisation des ressources d'une manière qui maximise les rendements avec une interférence minimale avec l'écosystème et optimise l'utilisation des machines et des équipements.

- Découvrez des planètes lointaines... La NASA, par exemple, analyse une énorme quantité de données et construit des modèles de futures missions dans des mondes lointains en l'utilisant.

- Prédire les urgences de nature différente et pour minimiser les dommages éventuels. Les données de plusieurs capteurs peuvent prédire où et quand le prochain tremblement de terre se produira ou comment les gens se comporteront en cas d'urgence, augmentant ainsi les chances de survie.

- Prévenir les crimes grâce à l'utilisation de technologies qui permettent d'allouer et d'orienter plus efficacement les ressources là où elles sont le plus nécessaires.

Et ce qui se rapproche le plus de la plupart d'entre nous: le Big Data rend la vie d'une personne ordinaire plus facile et plus pratique - il s'agit des achats en ligne, de la planification de voyages et de la navigation dans une métropole.

Il est devenu beaucoup plus facile de choisir le meilleur moment pour acheter des billets d'avion et de décider quel film ou série télévisée regarder grâce au travail du Big Data.

Comment ça fonctionne?

Le Big Data fonctionne sur le principe: plus vous en savez sur quelque chose, plus vous pouvez prédire avec précision ce qui se passera dans le futur. La comparaison des données individuelles et des relations entre elles (nous parlons d'une énorme quantité de données et d'un nombre incroyablement grand de connexions possibles entre elles) vous permet de découvrir des modèles précédemment cachés. Cela permet de regarder à l'intérieur du problème et, finalement, de comprendre comment on peut gérer tel ou tel processus.

Le plus souvent, le processus de traitement de grandes quantités d'informations comprend la construction de modèles basés sur les données collectées et l'exécution de simulations, au cours desquelles les paramètres clés sont constamment modifiés, tandis qu'à chaque fois, le système surveille comment le «changement de paramètres» affecte le résultat possible.

Ce processus est entièrement automatisé, car nous parlons de l'analyse de millions de simulations, de l'énumération de toutes les options possibles jusqu'au moment où le modèle (le schéma requis) est trouvé ou jusqu'à ce que «l'illumination» se produise, ce qui aidera à résoudre le problème pour lequel tout a été commencé.

Contrairement au monde des objets et des calculs auquel nous sommes habitués, les données sont reçues sous une forme non structurée, c'est-à-dire qu'il est difficile de les insérer dans des tableaux avec des cellules et des colonnes qui nous sont familières, les gens. Une énorme quantité de données est transférée sous forme d'images ou de vidéos: des images satellite aux selfies que vous publiez sur Instagram ou Facebook - tout comme les e-mails et les messages instantanés ou les appels téléphoniques.

Pour donner à tout ce flux infini et diversifié de données une signification pratique, le Big Data utilise souvent les technologies d'analyse les plus avancées, qui incluent l'intelligence artificielle et l'apprentissage automatique (c'est à ce moment qu'un programme sur un ordinateur enseigne d'autres programmes).

Les ordinateurs eux-mêmes apprennent à déterminer ce que représente telle ou telle information - par exemple, à reconnaître des images, un langage - et ils peuvent le faire beaucoup plus rapidement que les humains.

Grand frère?

Au fur et à mesure des opportunités inédites que nous offre aujourd'hui le Big Data, le nombre de préoccupations et de questions liées à son utilisation ne cesse de croître.

INVALIDITÉ DES DONNÉES PERSONNELLES. Big Data recueille une énorme quantité d'informations sur notre vie privée. Il y a beaucoup d'informations que nous préférerions garder secrètes.

SÉCURITÉ. Même si nous décidons qu'il n'y a rien de mal à transférer toutes nos données personnelles vers une machine dans un but spécifique et rentable, pouvons-nous être sûrs que nos données sont stockées dans un endroit sûr?
Qui et comment peut nous le garantir?

LA DISCRIMINATION. Quand tout est connu, est-il permis de discriminer les gens en fonction de ce que l'on sait d'eux grâce au Big Data? Les banques utilisent vos antécédents de crédit et les compagnies d'assurance déterminent le coût de l'assurance automobile en fonction de ce qu'elles savent de vous. Jusqu'où ça peut aller?

On peut supposer que pour minimiser les risques, les entreprises, les agences gouvernementales et même les individus utiliseront ce qu'ils peuvent apprendre sur nous et, pour une raison quelconque, restreindront notre accès aux ressources et aux informations.

Malgré tous les avantages, il faut admettre que toutes ces peurs font également partie intégrante du Big Data. Jusqu'à récemment, les scientifiques étaient perplexes sur les réponses, mais le moment est venu où la vague a atteint l'entreprise qui souhaite utiliser les avantages du Big Data à ses propres fins. Et cela peut avoir des conséquences désastreuses.

Le Big Data (ou Big Data) est un ensemble de méthodes permettant de travailler avec d'énormes quantités d'informations structurées ou non structurées. Les spécialistes du Big Data les traitent et les analysent pour produire des résultats visuels lisibles par l'homme. Look At Me s'est entretenu avec des professionnels et a découvert quelle est la situation du traitement des mégadonnées en Russie, où et quoi de mieux pour ceux qui veulent travailler dans ce domaine pour apprendre.

Alexey Ryvkin sur les grandes orientations dans le domaine du big data, de la communication avec les clients et du monde des nombres

J'ai étudié à l'Institut de technologie électronique de Moscou. La principale chose que j'ai réussi à en tirer était des connaissances fondamentales en physique et en mathématiques. Parallèlement à mes études, j'ai travaillé au centre de R&D, où j'étais engagé dans le développement et la mise en œuvre d'algorithmes de codage insensibles au bruit pour une transmission de données sécurisée. Après avoir obtenu mon baccalauréat, je suis entré en master en informatique de gestion à l'École supérieure d'économie. Après cela, j'ai voulu travailler chez IBS. J'ai eu la chance qu'à cette époque, en raison du grand nombre de projets, il y ait eu un recrutement supplémentaire de stagiaires, et après plusieurs entretiens, j'ai commencé à travailler pour IBS, l'une des plus grandes entreprises russes dans ce domaine. En trois ans, je suis passé de stagiaire à architecte de solutions d'entreprise. Aujourd'hui, je développe l'expertise des technologies Big Data pour les entreprises clientes des secteurs de la finance et des télécommunications.

Il existe deux spécialisations principales pour les personnes qui souhaitent travailler avec le Big Data: les analystes et les consultants informatiques qui créent des technologies pour travailler avec le Big Data. De plus, on peut également parler du métier d'Analyste Big Data, c'est-à-dire des personnes qui travaillent directement avec les données, avec la plateforme informatique du client. Auparavant, il s'agissait d'analystes-mathématiciens ordinaires qui connaissaient les statistiques et les mathématiques et résolvaient, à l'aide d'un logiciel statistique, des problèmes d'analyse de données. Aujourd'hui, en plus de la connaissance des statistiques et des mathématiques, une compréhension de la technologie et du cycle de vie des données est également nécessaire. C'est, à mon avis, la différence entre l'analyste de données moderne et les analystes qui l'étaient auparavant.

Ma spécialisation est le conseil informatique, c'est-à-dire que je propose et propose aux clients des moyens de résoudre les problèmes commerciaux en utilisant les technologies informatiques. Des personnes ayant des expériences différentes viennent au conseil, mais les qualités les plus importantes pour cette profession sont la capacité à comprendre les besoins du client, le désir d'aider les personnes et les organisations, une bonne communication et des compétences en équipe (puisque cela fonctionne toujours avec le client et en équipe), de bonnes capacités d'analyse. La motivation interne est très importante: nous travaillons dans un environnement compétitif, et le client attend des solutions inhabituelles et un intérêt pour le travail.

La plupart de mon temps est consacré à discuter avec les clients, à formaliser leurs besoins commerciaux et à aider à concevoir l'architecture technologique la plus appropriée. Les critères de sélection ont ici leur propre particularité: en plus de la fonctionnalité et du TCO (Total Cost of Ownership), les exigences non fonctionnelles du système sont très importantes, il s'agit le plus souvent du temps de réponse, du temps de traitement de l'information. Pour convaincre le client, nous utilisons souvent l'approche de preuve de concept - nous proposons de «tester» la technologie gratuitement sur certains problèmes, sur un ensemble restreint de données, pour nous assurer que la technologie fonctionne. La solution doit créer un avantage concurrentiel pour le client en obtenant des avantages supplémentaires (par exemple, x-sell, cross-selling) ou résoudre un problème dans l'entreprise, par exemple réduire le niveau élevé de fraude au crédit.

Ce serait beaucoup plus facile si les clients venaient avec une tâche toute faite, mais jusqu'à présent, ils ne comprennent pas qu'une technologie révolutionnaire est apparue qui peut changer le marché en quelques années

Quels problèmes rencontrez-vous? Le marché n'est pas encore prêt à utiliser les technologies du Big Data. Ce serait beaucoup plus facile si les clients venaient avec une tâche toute faite, mais ils ne se rendent pas encore compte qu'une technologie révolutionnaire est apparue et peut changer le marché en quelques années. C'est pourquoi nous travaillons en fait en mode startup - nous ne vendons pas seulement des technologies, mais aussi chaque fois que nous convainquons nos clients qu'ils doivent investir dans ces solutions. Telle est la position des visionnaires - nous montrons aux clients comment ils peuvent changer leur entreprise grâce à l'implication des données et de l'informatique. Nous créons ce nouveau marché - le marché du conseil informatique commercial dans le domaine du Big Data.

Si une personne souhaite se lancer dans l'analyse de données ou dans le conseil informatique dans le domaine du Big Data, la première chose qui est importante est une formation mathématique ou technique avec une bonne formation mathématique. Il est également utile de se familiariser avec des technologies spécifiques telles que les solutions SAS, Hadoop, R ou IBM. En outre, vous devez être activement intéressé par les problèmes appliqués au Big Data - par exemple, comment ils peuvent être utilisés pour améliorer la notation de crédit dans une banque ou une direction cycle de la vie client. Ces connaissances et d'autres peuvent être obtenues à partir de sources disponibles: par exemple, Coursera et Big Data University. Il existe également une initiative d'analyse client à l'Université Wharton de Pennsylvanie, où de nombreux documents intéressants ont été publiés.

Un problème sérieux pour ceux qui souhaitent travailler dans notre domaine est le manque évident d'informations sur le Big Data. Vous ne pouvez pas aller dans une librairie ou sur un site Web et obtenir, par exemple, une collection exhaustive de cas sur toutes les applications des technologies Big Data dans les banques. Il n’existe pas de tels ouvrages de référence. Une partie des informations se trouve dans des livres, une autre partie est collectée lors de conférences, et certaines doivent être atteintes par nous-mêmes.

Un autre problème est que les analystes sont bien dans le monde des chiffres, mais ils ne sont pas toujours à l'aise en affaires. Ces personnes sont souvent introverties, ont des difficultés à communiquer et ont donc des difficultés à communiquer les résultats de la recherche de manière convaincante aux clients. Pour développer ces compétences, je recommanderais des livres tels que The Pyramid Principle, Speak the Language of Diagrams. Ils aident à développer des compétences de présentation, à exprimer de manière concise et claire vos pensées.

La participation à divers championnats de cas pendant mes études à l'École supérieure d'économie m'a beaucoup aidé. Les championnats de cas sont des compétitions intellectuelles pour les étudiants où ils doivent étudier des problèmes commerciaux et proposer des solutions. Ils sont de deux types: les championnats de cas de cabinets de conseil, par exemple McKinsey, BCG, Accenture, ainsi que les championnats de cas indépendants tels que Changellenge. Au cours de ma participation, j'ai appris à voir et à résoudre des problèmes complexes - de l'identification d'un problème et sa structuration à la défense de recommandations pour le résoudre.

Oleg Mikhalskiy sur le marché russe et les spécificités de la création d'un nouveau produit dans le domaine du big data

Avant de rejoindre Acronis, j'étais déjà impliqué dans le lancement de nouveaux produits sur le marché dans d'autres entreprises. C'est toujours intéressant et difficile à la fois, donc j'ai tout de suite été intéressé par l'opportunité de travailler sur services cloud et solutions de stockage. Dans ce domaine, toute mon expérience antérieure dans l'industrie informatique m'a été utile, y compris mon propre projet de démarrage I-Accélérateur. Avoir une formation commerciale (MBA) en plus de l'ingénierie de base a également aidé.

En Russie, les grandes entreprises - banques, opérateurs mobiles et ainsi de suite - il y a un besoin pour l'analyse des mégadonnées, il y a donc des perspectives dans notre pays pour ceux qui veulent travailler dans ce domaine. Certes, de nombreux projets sont désormais intégrés, c'est-à-dire réalisés sur la base de développements étrangers ou de technologies open source. Dans de tels projets, des approches et technologies fondamentalement nouvelles ne sont pas créées, mais plutôt les développements existants sont adaptés. Chez Acronis, nous sommes allés dans l'autre sens et, après avoir analysé les alternatives disponibles, avons décidé d'investir dans notre propre développement, en créant un système de stockage fiable pour le Big Data, dont le coût n'est pas inférieur à, par exemple, Amazon S3, mais qui fonctionne de manière fiable et efficace et à une échelle nettement plus petite. Les grandes entreprises Internet ont également leurs propres développements sur le Big Data, mais elles sont plus axées sur les besoins internes que sur les besoins des clients externes.

Il est important de comprendre les tendances et les forces économiques qui affectent l'industrie du Big Data. Pour ce faire, vous devez lire beaucoup, écouter les discours d'experts faisant autorité dans l'industrie informatique, assister à des conférences thématiques. Désormais, presque toutes les conférences ont une section sur le Big Data, mais elles en parlent toutes sous un angle différent: en termes de technologie, d'affaires ou de marketing. Vous pouvez opter pour un poste de projet ou un stage dans une entreprise qui mène déjà des projets sur ce sujet. Si vous avez confiance en vos capacités, alors il n'est pas trop tard pour organiser une startup dans le domaine du Big Data.

Sans contact permanent avec le marché un nouveau développement court le risque de ne pas être réclamé

Cependant, lorsque vous êtes responsable d'un nouveau produit, beaucoup de temps est consacré à l'analyse du marché et à la communication avec des clients potentiels, des partenaires, des analystes professionnels qui en savent beaucoup sur les clients et leurs besoins. Sans contact constant avec le marché, un nouveau développement risque de ne pas être réclamé. Il y a toujours beaucoup d'incertitudes: il faut comprendre qui seront les premiers utilisateurs (early adopters), ce que vous avez de précieux pour eux et comment ensuite attirer un public de masse. La deuxième tâche la plus importante est de former et de transmettre aux développeurs une vision claire et holistique. produit finalpour les motiver à travailler dans un environnement où certaines exigences peuvent encore changer et où les priorités dépendent des commentaires des premiers clients. Par conséquent, une tâche importante est de gérer les attentes des clients d'une part et des développeurs d'autre part. De sorte que ni l'un ni l'autre ne se désintéressent et n'achèvent le projet. Après le premier projet réussi, cela devient plus facile et le principal défi sera de trouver le bon modèle de croissance pour la nouvelle entreprise.

À un moment donné, j'ai entendu le terme «Big Data» de l'allemand Gref (directeur de la Sberbank). Ils disent qu'ils travaillent maintenant activement à la mise en œuvre, car cela les aidera à réduire le temps de travail avec chaque client.

La deuxième fois que je suis tombé sur ce concept, c'était dans la boutique en ligne d'un client, sur laquelle nous avons travaillé et augmenté la gamme de quelques milliers à quelques dizaines de milliers d'articles de produits.

La troisième fois que j'ai vu que Yandex avait besoin d'un analyste big data. Ensuite, j'ai décidé d'approfondir ce sujet et d'écrire en même temps un article qui dira quel genre de terme c'est ce qui excite l'esprit des top managers et de l'espace Internet.

Ce que c'est

Habituellement, je commence n'importe lequel de mes articles par une explication de quel genre de terme il s'agit. Cet article ne fera pas exception.

Cependant, cela n'est pas principalement causé par le désir de montrer à quel point je suis intelligent, mais par le fait que le sujet est vraiment complexe et nécessite des explications minutieuses.

Par exemple, vous pouvez lire ce qu'est le Big Data sur Wikipédia, ne rien comprendre, puis revenir à cet article pour toujours comprendre la définition et l'applicabilité pour les entreprises. Commençons donc par une description, puis par des exemples commerciaux.

Le Big Data est un Big Data. Incroyable, hein? En fait, cela est traduit de l'anglais par «big data». Mais cette définition, pourrait-on dire, est pour les nuls.

Technologie Big Data Est une approche / méthode de traitement de plus de données pour obtenir de nouvelles informations qui sont difficiles à traiter de la manière habituelle.

Les données peuvent être traitées (structurées) ou fragmentées (c'est-à-dire non structurées).

Le terme lui-même est apparu relativement récemment. En 2008, une revue scientifique a prédit cette approche comme quelque chose de nécessaire pour travailler avec une grande quantité d'informations qui augmente de façon exponentielle.

Par exemple, chaque année, les informations sur Internet qui doivent être stockées et traitées par elles-mêmes augmentent de 40%. Encore une fois: + 40% chaque année de nouvelles informations apparaissent sur Internet.

Si les documents imprimés sont compréhensibles et que les méthodes de traitement sont également compréhensibles (transfert sous forme électronique, assemblage dans un dossier, numéroté), que faire des informations présentées dans des «supports» complètement différents et dans d’autres volumes:

Documents Internet;
Blogs et réseaux sociaux;
Sources audio / vidéo;
Instruments de mesure.

Il existe des caractéristiques qui permettent de classer les informations et les données en big data. Autrement dit, toutes les données peuvent ne pas convenir à l'analyse. Ces caractéristiques contiennent le concept clé de grande date. Ils tiennent tous dans trois V.

Le volume(extrait du volume anglais). Les données sont mesurées en termes de volume physique du «document» à analyser;
La vitesse(de l'anglais vitesse). Les données ne sont pas en phase de développement, mais sont en constante croissance, c'est pourquoi elles doivent être traitées rapidement pour obtenir des résultats;
Collecteur(de la variété anglaise). Les données peuvent ne pas être de format unique. Autrement dit, ils peuvent être dispersés, structurés ou partiellement structurés.

Cependant, de temps en temps, un quatrième V (véracité - fiabilité / crédibilité des données) et même un cinquième V (dans certains cas c'est la viabilité, dans d'autres c'est une valeur est ajoutée à VVV).

Quelque part, j'ai même vu 7V, qui caractérise les données liées aux grandes dates. Mais à mon avis, il s'agit d'une série (où P est périodiquement ajouté, bien que les 4 initiaux suffisent à la compréhension).

NOUS SOMMES DÉJÀ PLUS DE 29 000 personnes.
ALLUMER

Qui en a besoin

Une question logique se pose, comment les informations peuvent-elles être utilisées (le cas échéant, la grande date est de centaines et de milliers de téraoctets)?

Même pas ça. Voici les informations. Alors pourquoi avez-vous eu un grand rendez-vous alors? Quelle est l'utilisation du Big Data en marketing et en affaires?

Les bases de données ordinaires ne peuvent pas stocker et traiter (je ne parle même pas maintenant d'analyse, mais simplement de stockage et de traitement) d'une énorme quantité d'informations.
Big date résout ce problème principal. Stocke et gère avec succès des informations à volume élevé;
Structure les informations provenant de diverses sources (vidéo, images, documents audio et texte) en une seule forme compréhensible et assimilable;
Formation d'analyses et création de prévisions précises basées sur des informations structurées et traitées.

C'est compliqué. En termes simples, tout marketeur qui comprend que si vous étudiez une grande quantité d'informations (sur vous, votre entreprise, vos concurrents, votre secteur), vous pouvez obtenir des résultats très décents:

Compréhension complète de votre entreprise et de votre entreprise en termes de chiffres;
Étudiez vos concurrents. Et cela, à son tour, permettra d'avancer en raison de la prévalence sur eux;
Découvrez de nouvelles informations sur vos clients.

Et précisément parce que la technologie du Big Data donne les résultats suivants, tout le monde se précipite avec elle. Ils essaient de visser cette entreprise dans leur entreprise afin d'obtenir une augmentation des ventes et une diminution des coûts. Et plus précisément, alors:

Augmenter les ventes croisées et les ventes supplémentaires grâce à une meilleure connaissance des préférences des clients;
Rechercher des produits populaires et les raisons pour lesquelles ils sont achetés (et vice versa);
Amélioration d'un produit ou d'un service;
Améliorer le niveau de service;
Une fidélité et une orientation client accrues;
Prévention de la fraude (plus pertinente pour le secteur bancaire);
Réduire les coûts inutiles.

L'exemple le plus courant qui est donné dans toutes les sources est, bien sûr, pommequi recueille des données sur ses utilisateurs (téléphone, montre, ordinateur).

C'est précisément à cause de la présence de l'éco-système que l'entreprise en sait tellement sur ses utilisateurs et l'utilise ensuite pour réaliser un profit.

Vous pouvez lire ces exemples d'utilisation et d'autres dans n'importe quel autre article que celui-ci.

Exemple moderne

Je vais vous parler d'un autre projet. Il s'agit plutôt d'une personne qui construit l'avenir en utilisant des solutions Big Data.

Voici Elon Musk et sa société Tesla. Son rêve principal est de rendre les voitures autonomes, c'est-à-dire que vous prenez le volant, allumez le pilote automatique de Moscou à Vladivostok et ... vous endormez, car vous n'avez pas du tout besoin de conduire une voiture, car il fera tout lui-même.

Cela semble fantastique? Mais non! Elon a juste fait beaucoup plus sage que Google, qui contrôle les voitures à l'aide de dizaines de satellites. Et il est allé dans l'autre sens:

Chaque voiture vendue est équipée d'un ordinateur qui recueille toutes les informations.
Tout signifie tout en général. A propos du conducteur, de son style de conduite, des routes alentour, du mouvement des autres voitures. Le volume de ces données atteint 20 à 30 Go par heure;
En outre, ces informations sont transmises via une communication par satellite à l'ordinateur central, qui traite ces données;
Sur la base des données volumineuses traitées par cet ordinateur, un modèle de véhicule sans pilote est construit.

À propos, si Google se porte plutôt mal et que ses voitures ont des accidents tout le temps, alors Musk, étant donné que le travail avec le big data est en cours, les choses vont bien mieux, car les modèles de test donnent de très bons résultats.

Mais ... Tout est question d'économie. Que sommes-nous tous sur le profit, oui sur le profit? Beaucoup de choses que les grands rendez-vous peuvent résoudre n'ont rien à voir avec les revenus et l'argent.

Les statistiques de Google, basées sur le big data, montrent une chose intéressante.

Avant que les médecins annoncent le début d'une épidémie de maladie dans une certaine région, le nombre de requêtes de recherche sur le traitement de cette maladie.

Ainsi, l'étude correcte des données et leur analyse peuvent former des prédictions et prédire le début d'une épidémie (et, par conséquent, sa prévention) beaucoup plus rapidement que la conclusion des autorités et leurs actions.

Application en Russie

Cependant, la Russie, comme toujours, ralentit un peu. Ainsi, la définition même du big data en Russie n'est pas apparue il y a plus de 5 ans (je parle maintenant des entreprises ordinaires).

Et ceci en dépit du fait qu'il s'agit de l'un des marchés à la croissance la plus rapide au monde (la drogue et les armes fument nerveusement en marge), car chaque année, le marché des logiciels de collecte et d'analyse de données massives croît de 32%.

Pour décrire le marché du big data en Russie, je me souviens d'une vieille blague. Un grand rendez-vous est comme le sexe de moins de 18 ans. Tout le monde en parle, il y a beaucoup de battage médiatique et peu d'action réelle autour de ça, et tout le monde a honte d'admettre qu'ils ne le font pas eux-mêmes. En effet, il y a beaucoup de battage médiatique autour de cela, mais peu d'action réelle.

Bien que la société de recherche bien connue Gartner ait annoncé en 2015 que la grande date n'est plus une tendance à la hausse (comme, d'ailleurs, l'intelligence artificielle), mais des outils complètement indépendants pour l'analyse et le développement de technologies avancées.

Les niches les plus actives où le big data est utilisé en Russie sont les banques / assurances (non sans raison j'ai commencé cet article avec le responsable de la Sberbank), les télécommunications, le commerce de détail, l'immobilier et ... le secteur public.

À titre d'exemple, je vais vous parler plus en détail de quelques secteurs économiques qui utilisent des algorithmes de big data.

1. Banques

Commençons par les banques et les informations qu'elles collectent sur nous et nos actions. Par exemple, j'ai pris le TOP-5 des banques russes qui investissent activement dans le big data:

Sberbank;
Gazprombank;
VTB 24;
Alfa Bank;
Tinkoff Bank.

Il est particulièrement agréable de voir Alfa Bank parmi les dirigeants russes. À tout le moins, il est agréable de savoir que la banque, dont vous êtes un partenaire officiel, comprend la nécessité d'introduire de nouveaux outils marketing dans votre entreprise.

Mais je veux montrer des exemples d'utilisation et de mise en œuvre réussie du big data sur la banque, ce que j'aime pour le look et les actions atypiques de son fondateur.

Je parle de Tinkoff Bank. Leur tâche principale était de développer un système d'analyse en temps réel du big data en raison de la croissance de la clientèle.

Résultats: le temps des processus internes a été réduit d'au moins 10 fois, et pour certains - plus de 100 fois.

Eh bien, une petite distraction. Savez-vous pourquoi j'ai commencé à parler des singeries et des actions non standard d'Oleg Tinkov? C'est juste que, à mon avis, ce sont eux qui l'ont aidé à passer d'un homme d'affaires moyen, dont il y en a des milliers en Russie, à l'un des entrepreneurs les plus célèbres et les plus reconnaissables. Pour le prouver, regardez cette vidéo inhabituelle et intéressante:

2. Propriété

Dans l'immobilier, tout est beaucoup plus compliqué. Et c'est exactement l'exemple que je veux vous donner pour comprendre la grande date dans les affaires ordinaires. Donnée initiale:

Grande quantité de documentation textuelle;
Open source (satellites privés transmettant des données sur les changements terrestres);
Une énorme quantité d'informations incontrôlées sur Internet;
Changements constants des sources et des données.

Et sur cette base, il est nécessaire de préparer et d'évaluer la valeur d'un terrain, par exemple, à proximité d'un village de l'Oural. Cela prendra une semaine à un professionnel.

La Société russe des évaluateurs et ROSEKO, qui ont en fait mis en œuvre l'analyse de données volumineuses à l'aide d'un logiciel, ne prendra pas plus de 30 minutes de travail tranquille. Comparez, semaine et 30 minutes. Une différence colossale.

Outils de création

Bien entendu, d'énormes quantités d'informations ne peuvent pas être stockées et traitées sur de simples disques durs.

Et le logiciel qui structure et analyse les données est généralement de la propriété intellectuelle et à chaque fois qu'il en crée. Cependant, il existe des outils sur la base desquels toute cette beauté est créée:

Hadoop et MapReduce;
Bases de données NoSQL;
Outils de classe Data Discovery.

Pour être honnête, je ne serai pas en mesure de vous expliquer clairement en quoi ils diffèrent les uns des autres, car la connaissance et le travail avec ces choses sont enseignées dans les instituts de physique et de mathématiques.

Pourquoi alors ai-je commencé à en parler si je ne peux pas expliquer? Rappelez-vous, dans tous les films, des voleurs entrent dans n'importe quelle banque et voient un grand nombre de toutes sortes de morceaux de fer connectés aux fils? La même chose vaut pour un grand rendez-vous. Par exemple, voici un modèle qui est actuellement l'un des leaders du marché.

Outil de grande date

Le coût dans la configuration maximale atteint 27 millions de roubles par rack. Ceci est, bien sûr, la version de luxe. Je veux que vous essayiez à l'avance la création de Big Data dans votre entreprise.

En bref sur le principal

Vous vous demandez peut-être pourquoi vous, les petites et moyennes entreprises, avez besoin de travailler avec le Big Data?

À cela, je vous répondrai avec une citation d'une personne: «Dans un proche avenir, les clients seront en demande pour des entreprises qui comprennent mieux leur comportement et leurs habitudes et qui les correspondent le mieux.

Mais regardons les choses en face. Pour mettre en œuvre le big data dans une petite entreprise, il est nécessaire non seulement de disposer de budgets importants pour le développement et la mise en œuvre de logiciels, mais aussi pour la maintenance de spécialistes, au moins comme un analyste big data et un administrateur système.

Et maintenant, je suis silencieux sur le fait que vous devez avoir de telles données pour le traitement.

D'accord. Pour les petites entreprises, le sujet n'est presque pas applicable. Mais cela ne signifie pas que vous devez oublier tout ce que vous lisez ci-dessus. N'étudiez pas vos propres données, mais les résultats de l'analyse de données d'entreprises étrangères et russes bien connues.

Par exemple, la chaîne de vente au détail Target, utilisant des analyses de données massives, a découvert que les femmes enceintes avant le deuxième trimestre de grossesse (de la 1re à la 12e semaine de grossesse) achètent activement des produits non parfumés.

Grâce à ces informations, ils leur envoient des bons de réduction pour les produits non aromatisés d'une durée limitée.

Et si vous êtes un très petit café, par exemple? C'est très simple. Utilisez une application de fidélité. Et après un certain temps et grâce aux informations accumulées, vous pourrez non seulement proposer à vos clients des plats adaptés à leurs besoins, mais aussi voir les plats les plus invendus et les plus marginaux en quelques clics.

D'où la conclusion. Il ne vaut guère la peine de mettre en œuvre le Big Data pour une petite entreprise, mais utiliser les résultats et les développements d'autres entreprises est un must.