Les questions de performance dans la gestion des données d'architecture grand

Votre architecture big de données doit également effectuer de concert avec l'infrastructure de soutien de votre organisation. Par exemple, vous pourriez être intéressé par l'exécution de modèles afin de déterminer si il est sûr de forer du pétrole dans une zone extracôtière donnée en temps réel des données de température, salinité, sédiments remise en suspension, et une foule d'autres biologique, chimique et les propriétés physiques de la colonne d'eau.

Sommaire

Organiser les services et outils de données de grandes
Mapreduce, hadoop, et grande table pour big data

Mapreduce
Big table
Hadoop

Il pourrait prendre des jours pour exécuter ce modèle en utilisant une configuration de serveur traditionnel. Cependant, en utilisant un modèle de calcul distribué, ce qui a eu jours pourrait maintenant prendre quelques minutes.

Performance peut également déterminer le type de base de données que vous souhaitez utiliser. Par exemple, dans certaines situations, vous voudrez peut-être de comprendre comment les deux éléments de données bien distinctes sont liées. Quelle est la relation entre le buzz sur un réseau social et la croissance des ventes? Cela ne veut pas la requête typique que vous pourriez demander, une base de données relationnelle structurée.

Une base de données graphique pourrait être un meilleur choix, car il est spécifiquement conçu pour séparer le “ nœuds ” ou entités de la “ propriétés ” ou les informations qui définit cette entité, et la “ bord ” ou de la relation entre les nœuds et les propriétés. Utilisation de la base de données appropriée permettra également d'améliorer les performances. Typiquement, la base de données graphique est utilisée dans des applications scientifiques et techniques.

D'autres approches opérationnelles importantes de bases de données comprennent des bases de données en colonnes qui stockent des informations de manière efficace dans les colonnes plutôt que rangées. Cette approche conduit à des performances plus rapides parce entrée / sortie est extrêmement rapide. Lorsque le stockage de données géographiques fait partie de l'équation, une base de données spatiales est optimisée pour stocker des données de requête et sur la base de la façon dont les objets sont liés dans l'espace.

Organiser les services et outils de données de grandes

Pas toutes les données que les organisations utilisent est opérationnel. Une quantité croissante de données provient d'une variété de sources qui ne sont pas tout à fait aussi organisé ou simple, y compris les données qui proviennent de machines ou des capteurs, et des sources de données publiques et privées massives. Dans le passé, la plupart des entreprises ne sont pas en mesure de capture ou stocker cette grande quantité de données. Il était tout simplement trop coûteux ou trop écrasante.

Même si les entreprises étaient en mesure de saisir les données, ils ne disposent pas des outils nécessaires pour faire quoi que ce soit à ce sujet. Très peu d'outils pourraient donner un sens à ces grandes quantités de données. Les outils qui existaient étaient complexes à utiliser et ne produisent pas de résultats dans un délai raisonnable.

En fin de compte, ceux qui ont vraiment voulu aller à l'énorme effort d'analyse de ces données ont été contraints de travailler avec des instantanés de données. Cela a pour effet indésirable de manquer des événements importants, car ils ne sont pas dans un instantané particulier.

MapReduce, Hadoop, et grande table pour Big Data

Avec l'évolution de la technologie informatique, il est désormais possible de gérer d'immenses volumes de données. Les prix des systèmes ont chuté, et, par conséquent, de nouvelles techniques de calcul distribué sont mainstream. La véritable percée est arrivé que des sociétés comme Yahoo !, Google, et Facebook est venu à la réalisation qu'ils avaient besoin d'aide dans la monétisation des quantités massives de données qu'ils créaient.

Ces sociétés émergentes nécessaires pour trouver de nouvelles technologies qui leur permettraient de stocker, accéder et analyser d'énormes quantités de données en temps quasi-réel afin qu'ils puissent monétiser les avantages de posséder autant de données sur les participants dans leurs réseaux.

Leurs solutions résultantes sont en train de transformer le marché de la gestion des données. En particulier, le MapReduce des innovations, Hadoop, et Big Table se sont avérés être les étincelles qui ont conduit à une nouvelle génération de gestion des données. Ces technologies répondent l'un des problèmes les plus fondamentaux - la capacité de traiter d'énormes quantités de données de manière efficace, rentable et en temps opportun.

MapReduce

MapReduce a été conçu par Google comme un moyen d'exécuter efficacement un ensemble de fonctions contre une grande quantité de données en mode batch. La “ la carte ” composante distribue le problème de programmation ou des tâches à travers un grand nombre de systèmes et gère le placement des tâches. Elle équilibre également la charge et gère la récupération de l'échec. Une autre fonction appelée “ de réduire ” agrège tous les éléments de retour ensemble pour fournir un résultat.

Big Table

Grande Table a été développé par Google pour être un système de stockage distribué destiné à gérer des données structurées hautement évolutives. Les données sont organisées en tables avec lignes et colonnes. Contrairement à un modèle traditionnel de base de données relationnelle, Grande Table est un, distribué, carte Présentation multidimensionnelle persistante clairsemée. Il est destiné à stocker d'énormes volumes de données sur les serveurs des produits de base.

Hadoop

Hadoop est un framework logiciel Apache gérés dérivé de MapReduce et Grande Table. Hadoop permet aux applications basées sur MapReduce pour fonctionner sur de grandes grappes de matériel de base. Le projet est le fondement de l'architecture informatique de soutien aux entreprises de Yahoo!. Hadoop est conçu pour paralléliser le traitement des données sur les nœuds de calcul pour accélérer les calculs et masquer la latence.

Deux principales composantes de Hadoop existent: un système extrêmement évolutive de fichiers distribué qui peut soutenir pétaoctets de données et un moteur de MapReduce hautement évolutive qui calcule les résultats dans le lot.

A propos Auteur

Hadoop comme un moteur de prétraitement des données

Un des premiers cas d'utilisation de Hadoop dans l'entreprise était comme un moteur de transformation programmatique utilisé pour prétraiter les données à destination d'un entrepôt de données. Essentiellement, ce cas d'utilisation exploite la…

Hadoop Sqoop pour Big Data

Sqoop (SQL-à-Hadoop) est un outil grand de données qui offre la possibilité d'extraire des données à partir des données magasins non Hadoop, transformer les données en une forme utilisable par Hadoop, puis charger les données dans HDFS. Ce…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Comment utiliser Apache Hadoop pour l'analyse prédictive

Hadoop est une plate-forme de logiciel libre, open-source pour l'écriture et l'exécution d'applications qui traitent une grande quantité de données pour l'analyse prédictive. Il permet un traitement parallèle distribué de grands ensembles de…

Les bases de données en colonnes dans un environnement grand de données

Les bases de données en colonnes peuvent être très utiles dans votre grand projet de données. Bases de données relationnelles sont orientée rangée, que les données de chaque ligne d'une table sont stockées ensemble. Dans une forme de…

Couche 3 de la grosse pile de données: l'organisation des services et des outils de données

L'organisation des services de données et des outils, couche 3 de la grosse pile de données, la capture, valider et assembler différents éléments de données dans de grandes collections contextuellement pertinents. Parce que Big Data est…

L'évolution des modèles de déploiement dans l'ère Big Data

Avec l'avènement de grands volumes de données, les modèles de déploiement pour la gestion des données sont en train de changer. L'entrepôt de données traditionnelle est généralement mis en œuvre sur un seul grand système au sein du centre…

L'avenir des entrepôts de données à l'époque grand de données

Le marché de l'entrepôt de données a en effet commencé à changer et à évoluer avec l'avènement de grands volumes de données. Dans le passé, il était tout simplement pas rentable pour les entreprises de stocker la quantité massive de…

Big data pour les nuls

Big données permet aux entreprises de stocker, gérer et manipuler de grandes quantités de données disparates à la bonne vitesse et au bon moment. Pour gagner les bonnes idées, Big Data est généralement décomposé par trois…

Dix grandes tendances de données chaudes

Lorsque vous entrez dans le monde de grands volumes de données, vous aurez besoin d'absorber de nombreux nouveaux types de technologies de bases de données et de gestion des données. Voici le top-dix grandes tendances de données:Hadoop est en…

godiches.com » Ordinateurs et logiciels » Big Data » Ingénierie » Les questions de performance dans la gestion des données d'architecture grand