Big data pour les nuls

category Ordinateurs et logiciels / Big Data

Big données permet aux entreprises de stocker, gérer et manipuler de grandes quantités de données disparates à la bonne vitesse et au bon moment. Pour gagner les bonnes idées, Big Data est généralement décomposé par trois caractéristiques:

Sommaire

Comprendre données non structurées
Le rôle des données opérationnelles traditionnelles dans le big data environment
Notions de base de l'infrastructure big data
Gestion des big data avec hadoop: hdfs et mapreduce
Jeter les bases de votre stratégie big data

Volume: Combien de données
Velocity: Comment rapide des données est traitée
Variété: Les différents types de données

Alors qu'il est pratique pour simplifier les grandes données dans les trois Vs, il peut être trompeur et trop simpliste. Par exemple, vous pouvez être gérez une quantité relativement faible de données complexes, très disparates ou vous pouvez être traitez un énorme volume de données très simples. Ces données simples peuvent être tout structuré ou non structuré tout.

Plus important encore est le quatrième V, véracité. Quelle est la précision que les données pour prédire la valeur de l'entreprise? Ne les résultats d'une grande analyse des données réellement faire sens? Les données doivent pouvoir être vérifié sur la base à la fois la précision et du contexte. Une entreprise innovante peut veulent être en mesure d'analyser des quantités massives de données en temps réel pour évaluer rapidement la valeur de ce client et le potentiel de fournir des offres supplémentaires à ce client. Il est nécessaire d'identifier la bonne quantité et les types de données qui peuvent être analysées en temps réel impact sur les résultats d'affaires.

Big données intègre toutes les variétés de données, y compris des données structurées et non structurées à partir des données des e-mails, les médias sociaux, les flux de texte, et ainsi de suite. Ce type de gestion des données oblige les entreprises à tirer parti de leurs deux données structurées et non structurées.

Comprendre données non structurées

Données non structurées est différent de celui des données structurées en ce que sa structure est imprévisible. Des exemples de données non structurées comprennent des documents, e-mails, blogs, images numériques, des vidéos, et des images satellite. Il comprend également des données générées par des machines ou des capteurs. En fait, les comptes données non structurées dans la majorité des données qui est dans les locaux de votre entreprise ainsi que externe à votre entreprise dans les sources publiques et privées en ligne tels que Twitter et Facebook.

Dans le passé, la plupart des entreprises ne sont pas en mesure de capture ou stocker cette grande quantité de données. Il était tout simplement trop coûteux ou trop écrasante. Même si les entreprises étaient en mesure de saisir les données, ils ne disposent pas des outils pour analyser facilement les données et utiliser les résultats pour prendre des décisions. Très peu d'outils pourraient donner un sens à ces grandes quantités de données. Les outils qui existaient étaient complexes à utiliser et ne produisent pas de résultats dans un délai raisonnable.

En fin de compte, ceux qui ont vraiment voulu aller à l'énorme effort d'analyse de ces données ont été contraints de travailler avec des instantanés de données. Cela a pour effet indésirable de manquer des événements importants, car ils ne sont pas dans un instantané particulier.

Une approche qui est de plus en plus apprécié comme un moyen de gagner de la valeur de l'entreprise à partir de données non structurées l'analyse de texte, le processus d'analyse des textes non structurés, extraire des informations pertinentes, et le transformer en informations structurées qui peuvent ensuite être mises à profit de diverses manières. Les processus d'analyse et d'extraction de profiter de techniques qui proviennent en linguistique computationnelle, les statistiques et autres disciplines des sciences de l'ordinateur.

Le rôle des données opérationnelles traditionnelles dans le Big Data Environment

Savoir ce que les données sont stockées et où il est stocké sont des blocs de construction essentiels dans la mise en œuvre de votre grand données. Il est peu probable que vous allez utiliser SGBDR pour le noyau de la mise en œuvre, mais il est très probable que vous aurez besoin de compter sur les données stockées dans les SGBDR pour créer le plus haut niveau de valeur pour l'entreprise avec de grandes données.

La plupart des petites et grandes entreprises stockent probablement la plupart de leurs informations opérationnelles importantes dans les systèmes de gestion de base de données relationnelles (SGBDR de), qui sont construits sur une ou plusieurs relations et représenté par tables. Ces tableaux sont définis par la façon dont les données sont des données stockées.Procédé est stocké dans la base de données des objets appelés tables - organisés en lignes et colonnes. SGBDR suivre une approche cohérente dans la manière dont les données sont stockées et récupérées.

Pour obtenir la valeur la plus d'affaires à partir de votre analyse en temps réel des données non structurées, vous devez comprendre que les données dans le contexte de vos données historiques sur les clients, les produits, les transactions et opérations. En d'autres termes, vous devrez intégrer vos données non structurées avec vos données opérationnelles traditionnelles.

Notions de base de l'infrastructure Big Data

Big données est tout au sujet de vitesse élevée, de grands volumes et grande variété de données, de sorte que l'infrastructure physique va littéralement "faire ou défaire" la mise en œuvre. La plupart des implémentations grands de données doivent être hautement disponible, de sorte que le réseaux, les serveurs et le stockage physique doivent être résilient et redondant.

La résilience et la redondance sont interdépendants. Une infrastructure, ou d'un système, est élastique à l'échec ou modifie lorsque les ressources redondantes suffisantes sont en place prêt à sauter dans l'action. Résilience aide à éliminer les points de défaillance uniques dans votre infrastructure. Par exemple, si une seule connexion réseau existe entre votre entreprise et l'Internet, vous avez pas de redondance de réseau et l'infrastructure est pas élastique par rapport à une panne de réseau.

Dans les grands centres de données avec des exigences de continuité d'activité, plus de la redondance est en place et peut être exploité pour créer un environnement grand de données. Dans les nouvelles implémentations, les concepteurs ont la responsabilité de cartographier le déploiement aux besoins de l'entreprise en fonction des coûts et de la performance.

Gestion des Big Data avec Hadoop: HDFS et MapReduce

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul distribué.

Le système Hadoop Distributed File (HDFS) a été développé pour permettre aux entreprises de gérer plus facilement d'énormes volumes de données de manière simple et pragmatique. Hadoop permet de gros problèmes à être décomposés en éléments plus petits de sorte que l'analyse peut être fait rapidement et de manière rentable. HDFS est une approche résiliente polyvalent, cluster à la gestion des fichiers dans un environnement grand de données.

HDFS est pas la destination finale pour les fichiers. Au contraire, il est une donnée «service» qui offre un ensemble unique de capacités nécessaires lorsque les volumes de données et la vitesse sont élevés.

MapReduce est un cadre logiciel qui permet aux développeurs d'écrire des programmes qui peuvent traiter des quantités massives de données non structurées en parallèle sur un groupe distribué de processeurs. MapReduce a été conçu par Google comme un moyen d'exécuter efficacement un ensemble de fonctions contre une grande quantité de données en mode batch.

La "carte" composante distribue le problème de programmation ou des tâches à travers un grand nombre de systèmes et gère le placement des tâches d'une manière qui équilibre la charge et gère la récupération des échecs. Après le calcul distribué est terminée, une autre fonction appelée «réduire» regroupe tous les éléments de retour ensemble pour fournir un résultat. Un exemple d'utilisation MapReduce serait de déterminer le nombre de pages d'un livre sont écrits dans chacune des 50 langues différentes.

Jeter les bases de votre stratégie Big Data

Entreprises nagent dans les grandes données. Le problème est que souvent ils ne savent pas comment l'utiliser de manière pragmatique que les données pour être en mesure de prédire l'avenir, exécuter des processus d'affaires importants, ou tout simplement acquérir de nouvelles connaissances. L'objectif de votre stratégie de données grand et le plan devrait être de trouver un moyen pragmatique pour exploiter les données concernant les résultats d'affaires plus prévisibles.

Commencez votre grande stratégie de données en se lançant dans un processus de découverte. Vous devez obtenir une poignée sur les données que vous avez déjà, où il est, qui possède et contrôle, et comment il est utilisé actuellement. Par exemple, quelles sont les sources de données tierces que votre entreprise repose sur? Ce processus peut vous donner beaucoup de points de vue:

Vous pouvez déterminer le nombre de sources de données que vous avez et combien chevauchement existe.
Vous pouvez identifier les lacunes dans les connaissances sur ces sources de données.
Vous pourriez découvrir que vous avez beaucoup de données en double dans un domaine de l'entreprise et presque pas de données dans un autre domaine.
Vous pouvez vérifier que vous êtes dépendant de données tiers qui ne sont pas aussi précis qu'il devrait l'être.

Prenez le temps que vous devez faire ce processus de découverte, car il sera la base de votre planification et l'exécution de votre stratégie Big Data.

A propos Auteur

Identifier les données dont vous avez besoin pour votre Big Data

Faites l'inventaire du type de données que vous traitez avec votre grand projet de données. De nombreuses organisations reconnaissent que beaucoup de données générées en interne n'a pas été utilisé à son plein potentiel dans le passé.En…

Couche 3 de la grosse pile de données: l'organisation des services et des outils de données

L'organisation des services de données et des outils, couche 3 de la grosse pile de données, la capture, valider et assembler différents éléments de données dans de grandes collections contextuellement pertinents. Parce que Big Data est…

Les questions de performance dans la gestion des données d'architecture grand

Votre architecture big de données doit également effectuer de concert avec l'infrastructure de soutien de votre organisation. Par exemple, vous pourriez être intéressé par l'exécution de modèles afin de déterminer si il est sûr de forer du…

La création de grandes structures de données gérables

Comme l'informatique a emménagé dans le marché commercial, les données ont été stockées dans des fichiers plats qui ont imposé aucune structure. Aujourd'hui, Big Data nécessite des structures de données à gérer. Lorsque les entreprises…

L'évolution des modèles de déploiement dans l'ère Big Data

Avec l'avènement de grands volumes de données, les modèles de déploiement pour la gestion des données sont en train de changer. L'entrepôt de données traditionnelle est généralement mis en œuvre sur un seul grand système au sein du centre…

Les principes fondamentaux de la grande intégration de données

Les éléments fondamentaux de la grande plate-forme de données de gérer les données dans de nouveaux moyens par rapport à la base de données relationnelle traditionnelle. Ceci est dû à la nécessité d'avoir l'évolutivité et la haute…

L'avenir des entrepôts de données à l'époque grand de données

Le marché de l'entrepôt de données a en effet commencé à changer et à évoluer avec l'avènement de grands volumes de données. Dans le passé, il était tout simplement pas rentable pour les entreprises de stocker la quantité massive de…

Meilleures pratiques pour grande intégration de données

Beaucoup d'entreprises explorent de gros problèmes de données et à venir avec des solutions innovantes. Il est maintenant temps de prêter attention à un certain les meilleures pratiques, ou principes de base, qui vous servira ainsi que vous…

Big web de données et de gestion de contenu

Big données nécessite une approche cohérente de la gestion de contenu Web et. Il est pas un secret que la plupart des données disponibles dans le monde d'aujourd'hui est non structurées. Paradoxalement, les entreprises ont concentré leurs…

Définition de gros volumes de données: le volume, la vitesse, et la variété

La gestion des données d'entreprise et de grands volumes de données

Gestion des données de l'entreprise (GED) est un processus important dans les grandes données pour comprendre et contrôler l'économie des données de votre entreprise ou organisation. Bien que EDM est pas nécessaire pour les grandes données,…

Jeter les bases de votre stratégie Big Data

Explorez la grande pile de données

Pour comprendre les grandes données, il permet de voir comment il se compare à - dire, de jeter les composants de l'architecture. Une grande architecture de gestion de données doit inclure une variété de services qui permettent aux entreprises…

Dix grandes tendances de données chaudes

Lorsque vous entrez dans le monde de grands volumes de données, vous aurez besoin d'absorber de nombreux nouveaux types de technologies de bases de données et de gestion des données. Voici le top-dix grandes tendances de données:Hadoop est en…

godiches.com » Ordinateurs et logiciels » Big Data » Big data pour les nuls