Les questions de performance dans la gestion des données d'architecture grand

Votre architecture big de données doit également effectuer de concert avec l'infrastructure de soutien de votre organisation. Par exemple, vous pourriez être intéressé par l'exécution de modèles afin de déterminer si il est sûr de forer du pétrole dans une zone extracôtière donnée en temps réel des données de température, salinité, sédiments remise en suspension, et une foule d'autres biologique, chimique et les propriétés physiques de la colonne d'eau.

Sommaire

Il pourrait prendre des jours pour exécuter ce modèle en utilisant une configuration de serveur traditionnel. Cependant, en utilisant un modèle de calcul distribué, ce qui a eu jours pourrait maintenant prendre quelques minutes.

Performance peut également déterminer le type de base de données que vous souhaitez utiliser. Par exemple, dans certaines situations, vous voudrez peut-être de comprendre comment les deux éléments de données bien distinctes sont liées. Quelle est la relation entre le buzz sur un réseau social et la croissance des ventes? Cela ne veut pas la requête typique que vous pourriez demander, une base de données relationnelle structurée.

Une base de données graphique pourrait être un meilleur choix, car il est spécifiquement conçu pour séparer le “ nœuds ” ou entités de la “ propriétés ” ou les informations qui définit cette entité, et la “ bord ” ou de la relation entre les nœuds et les propriétés. Utilisation de la base de données appropriée permettra également d'améliorer les performances. Typiquement, la base de données graphique est utilisée dans des applications scientifiques et techniques.




D'autres approches opérationnelles importantes de bases de données comprennent des bases de données en colonnes qui stockent des informations de manière efficace dans les colonnes plutôt que rangées. Cette approche conduit à des performances plus rapides parce entrée / sortie est extrêmement rapide. Lorsque le stockage de données géographiques fait partie de l'équation, une base de données spatiales est optimisée pour stocker des données de requête et sur la base de la façon dont les objets sont liés dans l'espace.

Organiser les services et outils de données de grandes

Pas toutes les données que les organisations utilisent est opérationnel. Une quantité croissante de données provient d'une variété de sources qui ne sont pas tout à fait aussi organisé ou simple, y compris les données qui proviennent de machines ou des capteurs, et des sources de données publiques et privées massives. Dans le passé, la plupart des entreprises ne sont pas en mesure de capture ou stocker cette grande quantité de données. Il était tout simplement trop coûteux ou trop écrasante.

Même si les entreprises étaient en mesure de saisir les données, ils ne disposent pas des outils nécessaires pour faire quoi que ce soit à ce sujet. Très peu d'outils pourraient donner un sens à ces grandes quantités de données. Les outils qui existaient étaient complexes à utiliser et ne produisent pas de résultats dans un délai raisonnable.

En fin de compte, ceux qui ont vraiment voulu aller à l'énorme effort d'analyse de ces données ont été contraints de travailler avec des instantanés de données. Cela a pour effet indésirable de manquer des événements importants, car ils ne sont pas dans un instantané particulier.

MapReduce, Hadoop, et grande table pour Big Data

Avec l'évolution de la technologie informatique, il est désormais possible de gérer d'immenses volumes de données. Les prix des systèmes ont chuté, et, par conséquent, de nouvelles techniques de calcul distribué sont mainstream. La véritable percée est arrivé que des sociétés comme Yahoo !, Google, et Facebook est venu à la réalisation qu'ils avaient besoin d'aide dans la monétisation des quantités massives de données qu'ils créaient.

Ces sociétés émergentes nécessaires pour trouver de nouvelles technologies qui leur permettraient de stocker, accéder et analyser d'énormes quantités de données en temps quasi-réel afin qu'ils puissent monétiser les avantages de posséder autant de données sur les participants dans leurs réseaux.

Leurs solutions résultantes sont en train de transformer le marché de la gestion des données. En particulier, le MapReduce des innovations, Hadoop, et Big Table se sont avérés être les étincelles qui ont conduit à une nouvelle génération de gestion des données. Ces technologies répondent l'un des problèmes les plus fondamentaux - la capacité de traiter d'énormes quantités de données de manière efficace, rentable et en temps opportun.

MapReduce

MapReduce a été conçu par Google comme un moyen d'exécuter efficacement un ensemble de fonctions contre une grande quantité de données en mode batch. La “ la carte ” composante distribue le problème de programmation ou des tâches à travers un grand nombre de systèmes et gère le placement des tâches. Elle équilibre également la charge et gère la récupération de l'échec. Une autre fonction appelée “ de réduire ” agrège tous les éléments de retour ensemble pour fournir un résultat.

Big Table

Grande Table a été développé par Google pour être un système de stockage distribué destiné à gérer des données structurées hautement évolutives. Les données sont organisées en tables avec lignes et colonnes. Contrairement à un modèle traditionnel de base de données relationnelle, Grande Table est un, distribué, carte Présentation multidimensionnelle persistante clairsemée. Il est destiné à stocker d'énormes volumes de données sur les serveurs des produits de base.

Hadoop

Hadoop est un framework logiciel Apache gérés dérivé de MapReduce et Grande Table. Hadoop permet aux applications basées sur MapReduce pour fonctionner sur de grandes grappes de matériel de base. Le projet est le fondement de l'architecture informatique de soutien aux entreprises de Yahoo!. Hadoop est conçu pour paralléliser le traitement des données sur les nœuds de calcul pour accélérer les calculs et masquer la latence.

Deux principales composantes de Hadoop existent: un système extrêmement évolutive de fichiers distribué qui peut soutenir pétaoctets de données et un moteur de MapReduce hautement évolutive qui calcule les résultats dans le lot.


» » » » Les questions de performance dans la gestion des données d'architecture grand