Big data pour les nuls

Big données permet aux entreprises de stocker, gérer et manipuler de grandes quantités de données disparates à la bonne vitesse et au bon moment. Pour gagner les bonnes idées, Big Data est généralement décomposé par trois caractéristiques:

Sommaire

  • Volume: Combien de données

  • Velocity: Comment rapide des données est traitée

  • Variété: Les différents types de données

Alors qu'il est pratique pour simplifier les grandes données dans les trois Vs, il peut être trompeur et trop simpliste. Par exemple, vous pouvez être gérez une quantité relativement faible de données complexes, très disparates ou vous pouvez être traitez un énorme volume de données très simples. Ces données simples peuvent être tout structuré ou non structuré tout.

Plus important encore est le quatrième V, véracité. Quelle est la précision que les données pour prédire la valeur de l'entreprise? Ne les résultats d'une grande analyse des données réellement faire sens? Les données doivent pouvoir être vérifié sur la base à la fois la précision et du contexte. Une entreprise innovante peut veulent être en mesure d'analyser des quantités massives de données en temps réel pour évaluer rapidement la valeur de ce client et le potentiel de fournir des offres supplémentaires à ce client. Il est nécessaire d'identifier la bonne quantité et les types de données qui peuvent être analysées en temps réel impact sur les résultats d'affaires.

Big données intègre toutes les variétés de données, y compris des données structurées et non structurées à partir des données des e-mails, les médias sociaux, les flux de texte, et ainsi de suite. Ce type de gestion des données oblige les entreprises à tirer parti de leurs deux données structurées et non structurées.

Comprendre données non structurées

Données non structurées est différent de celui des données structurées en ce que sa structure est imprévisible. Des exemples de données non structurées comprennent des documents, e-mails, blogs, images numériques, des vidéos, et des images satellite. Il comprend également des données générées par des machines ou des capteurs. En fait, les comptes données non structurées dans la majorité des données qui est dans les locaux de votre entreprise ainsi que externe à votre entreprise dans les sources publiques et privées en ligne tels que Twitter et Facebook.

Dans le passé, la plupart des entreprises ne sont pas en mesure de capture ou stocker cette grande quantité de données. Il était tout simplement trop coûteux ou trop écrasante. Même si les entreprises étaient en mesure de saisir les données, ils ne disposent pas des outils pour analyser facilement les données et utiliser les résultats pour prendre des décisions. Très peu d'outils pourraient donner un sens à ces grandes quantités de données. Les outils qui existaient étaient complexes à utiliser et ne produisent pas de résultats dans un délai raisonnable.




En fin de compte, ceux qui ont vraiment voulu aller à l'énorme effort d'analyse de ces données ont été contraints de travailler avec des instantanés de données. Cela a pour effet indésirable de manquer des événements importants, car ils ne sont pas dans un instantané particulier.

Une approche qui est de plus en plus apprécié comme un moyen de gagner de la valeur de l'entreprise à partir de données non structurées l'analyse de texte, le processus d'analyse des textes non structurés, extraire des informations pertinentes, et le transformer en informations structurées qui peuvent ensuite être mises à profit de diverses manières. Les processus d'analyse et d'extraction de profiter de techniques qui proviennent en linguistique computationnelle, les statistiques et autres disciplines des sciences de l'ordinateur.

Le rôle des données opérationnelles traditionnelles dans le Big Data Environment

Savoir ce que les données sont stockées et où il est stocké sont des blocs de construction essentiels dans la mise en œuvre de votre grand données. Il est peu probable que vous allez utiliser SGBDR pour le noyau de la mise en œuvre, mais il est très probable que vous aurez besoin de compter sur les données stockées dans les SGBDR pour créer le plus haut niveau de valeur pour l'entreprise avec de grandes données.

La plupart des petites et grandes entreprises stockent probablement la plupart de leurs informations opérationnelles importantes dans les systèmes de gestion de base de données relationnelles (SGBDR de), qui sont construits sur une ou plusieurs relations et représenté par tables. Ces tableaux sont définis par la façon dont les données sont des données stockées.Procédé est stocké dans la base de données des objets appelés tables - organisés en lignes et colonnes. SGBDR suivre une approche cohérente dans la manière dont les données sont stockées et récupérées.

Pour obtenir la valeur la plus d'affaires à partir de votre analyse en temps réel des données non structurées, vous devez comprendre que les données dans le contexte de vos données historiques sur les clients, les produits, les transactions et opérations. En d'autres termes, vous devrez intégrer vos données non structurées avec vos données opérationnelles traditionnelles.

Notions de base de l'infrastructure Big Data

Big données est tout au sujet de vitesse élevée, de grands volumes et grande variété de données, de sorte que l'infrastructure physique va littéralement "faire ou défaire" la mise en œuvre. La plupart des implémentations grands de données doivent être hautement disponible, de sorte que le réseaux, les serveurs et le stockage physique doivent être résilient et redondant.

La résilience et la redondance sont interdépendants. Une infrastructure, ou d'un système, est élastique à l'échec ou modifie lorsque les ressources redondantes suffisantes sont en place prêt à sauter dans l'action. Résilience aide à éliminer les points de défaillance uniques dans votre infrastructure. Par exemple, si une seule connexion réseau existe entre votre entreprise et l'Internet, vous avez pas de redondance de réseau et l'infrastructure est pas élastique par rapport à une panne de réseau.

Dans les grands centres de données avec des exigences de continuité d'activité, plus de la redondance est en place et peut être exploité pour créer un environnement grand de données. Dans les nouvelles implémentations, les concepteurs ont la responsabilité de cartographier le déploiement aux besoins de l'entreprise en fonction des coûts et de la performance.

Gestion des Big Data avec Hadoop: HDFS et MapReduce

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul distribué.

Le système Hadoop Distributed File (HDFS) a été développé pour permettre aux entreprises de gérer plus facilement d'énormes volumes de données de manière simple et pragmatique. Hadoop permet de gros problèmes à être décomposés en éléments plus petits de sorte que l'analyse peut être fait rapidement et de manière rentable. HDFS est une approche résiliente polyvalent, cluster à la gestion des fichiers dans un environnement grand de données.

HDFS est pas la destination finale pour les fichiers. Au contraire, il est une donnée «service» qui offre un ensemble unique de capacités nécessaires lorsque les volumes de données et la vitesse sont élevés.

MapReduce est un cadre logiciel qui permet aux développeurs d'écrire des programmes qui peuvent traiter des quantités massives de données non structurées en parallèle sur un groupe distribué de processeurs. MapReduce a été conçu par Google comme un moyen d'exécuter efficacement un ensemble de fonctions contre une grande quantité de données en mode batch.

La "carte" composante distribue le problème de programmation ou des tâches à travers un grand nombre de systèmes et gère le placement des tâches d'une manière qui équilibre la charge et gère la récupération des échecs. Après le calcul distribué est terminée, une autre fonction appelée «réduire» regroupe tous les éléments de retour ensemble pour fournir un résultat. Un exemple d'utilisation MapReduce serait de déterminer le nombre de pages d'un livre sont écrits dans chacune des 50 langues différentes.

Jeter les bases de votre stratégie Big Data

Entreprises nagent dans les grandes données. Le problème est que souvent ils ne savent pas comment l'utiliser de manière pragmatique que les données pour être en mesure de prédire l'avenir, exécuter des processus d'affaires importants, ou tout simplement acquérir de nouvelles connaissances. L'objectif de votre stratégie de données grand et le plan devrait être de trouver un moyen pragmatique pour exploiter les données concernant les résultats d'affaires plus prévisibles.

Commencez votre grande stratégie de données en se lançant dans un processus de découverte. Vous devez obtenir une poignée sur les données que vous avez déjà, où il est, qui possède et contrôle, et comment il est utilisé actuellement. Par exemple, quelles sont les sources de données tierces que votre entreprise repose sur? Ce processus peut vous donner beaucoup de points de vue:

  • Vous pouvez déterminer le nombre de sources de données que vous avez et combien chevauchement existe.

  • Vous pouvez identifier les lacunes dans les connaissances sur ces sources de données.

  • Vous pourriez découvrir que vous avez beaucoup de données en double dans un domaine de l'entreprise et presque pas de données dans un autre domaine.

  • Vous pouvez vérifier que vous êtes dépendant de données tiers qui ne sont pas aussi précis qu'il devrait l'être.

Prenez le temps que vous devez faire ce processus de découverte, car il sera la base de votre planification et l'exécution de votre stratégie Big Data.


» » » Big data pour les nuls