Gestion des technologies grandes de données dans un nuage hybride

Le terme Big Data

Sommaire

Big caractéristiques de données
Bases de données big data

est souvent utilisé dans le monde de la technologie de cloud hybride en raison de la nécessité permanente de traiter des quantités croissantes de données. Le fait essentiel à propos de Big Data est qu'il existe au point des solutions de contournement que les organisations ont historiquement mis en place pour gérer de gros volumes de données complexes de basculement. Big technologies de données permettent aux gens de vraiment analyser et d'utiliser ces données de manière efficace.

Big caractéristiques de données

Big données a généralement trois caractéristiques - le volume, la variété et la vitesse:

Volume: Big données est grand en volume. Il se réfère généralement à au moins plusieurs téraoctets de données. Beaucoup de grandes implémentations de données cherchent à analyser les pétaoctets d'informations.
Nom Valeur
Octet 10⁰
Gigabyte 10⁹ octets
Terabyte 10¹² octets
Pétaoctet 10¹⁵ octets
Exabyte 10¹⁸ octets
Variété: Big Data vient dans différentes formes et tailles. Il comprend ces types de données:

Nom	Valeur
Octet	10⁰
Gigabyte	10⁹ octets
Terabyte	10¹² octets
Pétaoctet	10¹⁵ octets
Exabyte	10¹⁸ octets

Les données structurées est typiquement le genre de données que les analystes sont habitués à traiter avec. Il comprend les revenus et le nombre de ventes - le type de données que vous pensez y compris dans une base de données. Les données structurées est également produite dans de nouveaux moyens dans des produits tels que des capteurs et étiquettes RFID.
Les données semi-structurées a une certaine structure à elle, mais pas dans la façon dont vous pensez tables dans une base. Il comprend des formats EDI et XML.
Les données non structurées comprend le texte, l'image et audio, y compris tout document, un message e-mail, tweet, ou blog interne à une entreprise ou sur Internet. Les données non structurées représentent environ 80 pour cent de toutes les données.

Velocity: Ceci est la vitesse à laquelle les données se déplace. Pensez à capteurs de capture des données à chaque milliseconde ou les flux de données émis par l'équipement médical. Big Data vient souvent à vous dans un cours d'eau, de sorte qu'il a une nature en temps réel qui lui est associée.

Le nuage est un endroit idéal pour les grandes données en raison de son stockage évolutive, puissance de calcul, et des ressources élastiques. Le modèle de cloud est grand Scale- informatique distribuée et un certain nombre de cadres et de technologies ont vu le jour pour soutenir ce modèle, y compris

Hadoop: Une plate-forme open source distribué informatique écrit en Java. Il est une bibliothèque logicielle qui permet le traitement distribué à travers des grappes d'ordinateurs. Il est vraiment un système de fichiers distribué. Il crée un pool d'ordinateur, chacun avec un système de fichiers Hadoop. Hadoop a été conçu pour faire face à de grandes quantités de données complexes. Les données peuvent être structurées, non structurées, semi-structurées ou. Hadoop peut courir à travers un grand nombre de serveurs qui ne partagent pas la mémoire ou le disque. Voir Hadoop pour plus d'informations.
MapReduce: Un cadre logiciel introduit par Google pour le soutien informatique distribuée sur de grands ensembles de données. Il est au cœur de ce que Hadoop est fait avec de grandes données et de grandes analyses de données. Il est conçu pour tirer parti des ressources de cloud computing. Ce calcul se fait à travers de nombreux ordinateurs, appelé groupes, et chaque groupe est désigné en tant que noeud. MapReduce peut traiter à la fois les données structurées et non structurées. Les utilisateurs spécifient une fonction de carte qui traite une paire clé / valeur pour générer un ensemble de paires intermédiaires et une fonction de réduction qui fusionne ces paires.

Bases de données Big Data

Un important appel d'Hadoop est qu'il peut gérer différents types de données. Les systèmes de gestion de base de données parallèles ont été sur le marché depuis des décennies. Ils peuvent soutenir l'exécution en parallèle parce que la plupart des tables sont partitionnées sur les nœuds d'un cluster, et ils peuvent se traduire par des commandes SQL dans un plan qui est divisé entre les nœuds du cluster. Toutefois, ils traitent principalement avec des données structurées, car il est difficile à installer, les données non structurées de forme libre dans les colonnes et rangées dans un modèle relationnel.

Hadoop a commencé un mouvement dans ce qui a été appelé NoSQL, ce qui signifie non seulement SQL. Le terme se réfère à un ensemble de technologies qui est différent des systèmes de base de données relationnelles. Une différence majeure est que ne pas utiliser SQL. Ils sont également conçus pour les magasins de données distribuées.

NoSQL ne signifie pas que les gens ne devraient pas utiliser SQL. Au contraire, l'idée est que, selon ce que votre problème est, bases de données relationnelles et les bases de données NoSQL peuvent coexister dans une organisation. Il ya de nombreux exemples de ces types de bases de données, y compris les suivantes:

Cassandra: Un système de gestion de données open source distribué initialement développé par Facebook. Il n'a pas d'exigences strictes de la structure, de sorte qu'il peut gérer tous les différents types de données. Les experts affirment qu'il excelle à volume élevé, le traitement des transactions en temps réel. Autres bases de données open source comprennent MongoDB, Apache CouchDB, et hbase.
Amazon Simple DB: Amazon compare cette base de données dans un tableur en ce qu'il comporte des rangées et des colonnes avec des attributs et des articles stockés dans chacune. Contrairement à une feuille de calcul, cependant, chaque cellule peut avoir plusieurs valeurs, et chaque objet peut avoir son propre ensemble d'attributs associés. Amazon puis indexe automatiquement les données. Récemment, Amazon a annoncé Amazon Dynamo DB comme un moyen d'apporter de grands NoSQL de données vers le cloud.
Google BigTable: Cet hybride est un peu comme une grande table. Comme les tables peuvent être importants, ils sont répartis dans les limites de la ligne dans des tableaux, qui pourraient être des centaines de méga-octets ou plus. MapReduce est souvent utilisé pour générer et modifier des données stockées dans BigTable.

A propos Auteur

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

NoSQL et moteurs de recherche

Il peut sembler étrange de parler de moteurs de recherche et NoSQL ensemble, mais un grand nombre de moteurs de recherche d'aujourd'hui utiliser une architecture très similaire aux bases de données NoSQL. Leurs indices et le traitement des…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Big data: la nécessité pour les métadonnées dans les flux de données

La plupart des grands professionnels de la gestion des données sont familiers avec la nécessité de gérer les métadonnées dans des environnements de gestion de base de données structurées. Ces sources de données sont fortement typés (par…

Identifier les données dont vous avez besoin pour votre Big Data

Faites l'inventaire du type de données que vous traitez avec votre grand projet de données. De nombreuses organisations reconnaissent que beaucoup de données générées en interne n'a pas été utilisé à son plein potentiel dans le passé.En…

Couche 3 de la grosse pile de données: l'organisation des services et des outils de données

L'organisation des services de données et des outils, couche 3 de la grosse pile de données, la capture, valider et assembler différents éléments de données dans de grandes collections contextuellement pertinents. Parce que Big Data est…

Bases de données non relationnelles dans un environnement grand de données

Bases de données non relationnelles ne reposent pas sur la table / modèle clé endémique de SGBDR (systèmes de gestion de base de données relationnelle). En bref, les données de spécialité dans le grand monde de données exige de la…

Les questions de performance dans la gestion des données d'architecture grand

Votre architecture big de données doit également effectuer de concert avec l'infrastructure de soutien de votre organisation. Par exemple, vous pourriez être intéressé par l'exécution de modèles afin de déterminer si il est sûr de forer du…

Meilleures pratiques pour grande intégration de données

Beaucoup d'entreprises explorent de gros problèmes de données et à venir avec des solutions innovantes. Il est maintenant temps de prêter attention à un certain les meilleures pratiques, ou principes de base, qui vous servira ainsi que vous…

Big web de données et de gestion de contenu

Big données nécessite une approche cohérente de la gestion de contenu Web et. Il est pas un secret que la plupart des données disponibles dans le monde d'aujourd'hui est non structurées. Paradoxalement, les entreprises ont concentré leurs…

Définition de gros volumes de données: le volume, la vitesse, et la variété

Big données permet aux entreprises de stocker, gérer et manipuler de grandes quantités de données disparates à la bonne vitesse et au bon moment. Pour gagner les bonnes idées, Big Data est généralement décomposé par trois…

Dix grandes tendances de données chaudes

Lorsque vous entrez dans le monde de grands volumes de données, vous aurez besoin d'absorber de nombreux nouveaux types de technologies de bases de données et de gestion des données. Voici le top-dix grandes tendances de données:Hadoop est en…

godiches.com » Ordinateurs et logiciels » Administration et réseautage professionnel » L'informatique en nuage » Gestion des technologies grandes de données dans un nuage hybride