Gestion des technologies grandes de données dans un nuage hybride

Le terme Big Data

Sommaire

est souvent utilisé dans le monde de la technologie de cloud hybride en raison de la nécessité permanente de traiter des quantités croissantes de données. Le fait essentiel à propos de Big Data est qu'il existe au point des solutions de contournement que les organisations ont historiquement mis en place pour gérer de gros volumes de données complexes de basculement. Big technologies de données permettent aux gens de vraiment analyser et d'utiliser ces données de manière efficace.

Big caractéristiques de données

Big données a généralement trois caractéristiques - le volume, la variété et la vitesse:

  • Volume: Big données est grand en volume. Il se réfère généralement à au moins plusieurs téraoctets de données. Beaucoup de grandes implémentations de données cherchent à analyser les pétaoctets d'informations.

    NomValeur
    Octet100
    Gigabyte109 octets
    Terabyte1012 octets
    Pétaoctet1015 octets
    Exabyte1018 octets
  • Variété: Big Data vient dans différentes formes et tailles. Il comprend ces types de données:

  • Les données structurées est typiquement le genre de données que les analystes sont habitués à traiter avec. Il comprend les revenus et le nombre de ventes - le type de données que vous pensez y compris dans une base de données. Les données structurées est également produite dans de nouveaux moyens dans des produits tels que des capteurs et étiquettes RFID.




  • Les données semi-structurées a une certaine structure à elle, mais pas dans la façon dont vous pensez tables dans une base. Il comprend des formats EDI et XML.

  • Les données non structurées comprend le texte, l'image et audio, y compris tout document, un message e-mail, tweet, ou blog interne à une entreprise ou sur Internet. Les données non structurées représentent environ 80 pour cent de toutes les données.

  • Velocity: Ceci est la vitesse à laquelle les données se déplace. Pensez à capteurs de capture des données à chaque milliseconde ou les flux de données émis par l'équipement médical. Big Data vient souvent à vous dans un cours d'eau, de sorte qu'il a une nature en temps réel qui lui est associée.

  • Le nuage est un endroit idéal pour les grandes données en raison de son stockage évolutive, puissance de calcul, et des ressources élastiques. Le modèle de cloud est grand Scale- informatique distribuée et un certain nombre de cadres et de technologies ont vu le jour pour soutenir ce modèle, y compris

    • Hadoop: Une plate-forme open source distribué informatique écrit en Java. Il est une bibliothèque logicielle qui permet le traitement distribué à travers des grappes d'ordinateurs. Il est vraiment un système de fichiers distribué. Il crée un pool d'ordinateur, chacun avec un système de fichiers Hadoop. Hadoop a été conçu pour faire face à de grandes quantités de données complexes. Les données peuvent être structurées, non structurées, semi-structurées ou. Hadoop peut courir à travers un grand nombre de serveurs qui ne partagent pas la mémoire ou le disque. Voir Hadoop pour plus d'informations.

    • MapReduce: Un cadre logiciel introduit par Google pour le soutien informatique distribuée sur de grands ensembles de données. Il est au cœur de ce que Hadoop est fait avec de grandes données et de grandes analyses de données. Il est conçu pour tirer parti des ressources de cloud computing. Ce calcul se fait à travers de nombreux ordinateurs, appelé groupes, et chaque groupe est désigné en tant que noeud. MapReduce peut traiter à la fois les données structurées et non structurées. Les utilisateurs spécifient une fonction de carte qui traite une paire clé / valeur pour générer un ensemble de paires intermédiaires et une fonction de réduction qui fusionne ces paires.

    Bases de données Big Data

    Un important appel d'Hadoop est qu'il peut gérer différents types de données. Les systèmes de gestion de base de données parallèles ont été sur le marché depuis des décennies. Ils peuvent soutenir l'exécution en parallèle parce que la plupart des tables sont partitionnées sur les nœuds d'un cluster, et ils peuvent se traduire par des commandes SQL dans un plan qui est divisé entre les nœuds du cluster. Toutefois, ils traitent principalement avec des données structurées, car il est difficile à installer, les données non structurées de forme libre dans les colonnes et rangées dans un modèle relationnel.

    Hadoop a commencé un mouvement dans ce qui a été appelé NoSQL, ce qui signifie non seulement SQL. Le terme se réfère à un ensemble de technologies qui est différent des systèmes de base de données relationnelles. Une différence majeure est que ne pas utiliser SQL. Ils sont également conçus pour les magasins de données distribuées.

    NoSQL ne signifie pas que les gens ne devraient pas utiliser SQL. Au contraire, l'idée est que, selon ce que votre problème est, bases de données relationnelles et les bases de données NoSQL peuvent coexister dans une organisation. Il ya de nombreux exemples de ces types de bases de données, y compris les suivantes:

    • Cassandra: Un système de gestion de données open source distribué initialement développé par Facebook. Il n'a pas d'exigences strictes de la structure, de sorte qu'il peut gérer tous les différents types de données. Les experts affirment qu'il excelle à volume élevé, le traitement des transactions en temps réel. Autres bases de données open source comprennent MongoDB, Apache CouchDB, et hbase.

    • Amazon Simple DB: Amazon compare cette base de données dans un tableur en ce qu'il comporte des rangées et des colonnes avec des attributs et des articles stockés dans chacune. Contrairement à une feuille de calcul, cependant, chaque cellule peut avoir plusieurs valeurs, et chaque objet peut avoir son propre ensemble d'attributs associés. Amazon puis indexe automatiquement les données. Récemment, Amazon a annoncé Amazon Dynamo DB comme un moyen d'apporter de grands NoSQL de données vers le cloud.

    • Google BigTable: Cet hybride est un peu comme une grande table. Comme les tables peuvent être importants, ils sont répartis dans les limites de la ligne dans des tableaux, qui pourraient être des centaines de méga-octets ou plus. MapReduce est souvent utilisé pour générer et modifier des données stockées dans BigTable.


    » » » » Gestion des technologies grandes de données dans un nuage hybride