L'acide contre des magasins de données de base

Une des caractéristiques des systèmes de bases de données relationnelles est quelque chose de connu comme Respect ACID. Comme vous l'avez deviné, ACID est un acronyme - les lettres individuelles, destinées à décrire une caractéristique des transactions de base de données individuels, peuvent être développées comme décrit dans cette liste:

Atomicité: La transaction de base de données doit être complètement réussir ou échouer complètement. Succès partiel est pas autorisé.
Cohérence: Lors de la transaction de base de données, le SGBDR progresse d'un état valide à un autre. L'état ne est invalide.
Isolation: La transaction de base de données du client doit se produire dans l'isolement d'autres clients qui tentent de traiter avec le SGBDR.
Durabilité: L'opération de données qui a été le cadre de la transaction doit être reflétée dans stockage non volatile (mémoire de l'ordinateur qui permet de récupérer les informations stockées même quand pas sous tension - comme un disque dur) et persister après l'opération se termine avec succès. Échecs de transaction ne peut pas laisser les données dans un état partiellement engagé.

Certains cas d'utilisation pour les SGBDR, comme le traitement des transactions en ligne, dépendent sur les transactions ACID conformes entre le client et le SGBDR pour que le système fonctionne correctement. Un bon exemple d'une transaction ACID conforme est un transfert de fonds d'un compte bancaire à un autre.

Cette décompose en deux opérations de base de données, où le compte d'origine montre un retrait, et le compte de destination montre un dépôt. De toute évidence, ces deux opérations doivent être attachés ensemble pour être valide afin que si l'un d'entre eux échouent, toute l'opération doit échouer à assurer à la fois les soldes restent valables.

Hadoop lui-même a pas de notion de transactions (ou même des enregistrements, d'ailleurs), il est donc clairement pas un système ACIDE conforme. Penser plus spécifiquement sur le stockage de données et les projets de transformation dans l'ensemble de l'écosystème Hadoop, aucun d'entre eux est entièrement ACIDE conforme, soit. Cependant, ils faire refléter les propriétés que vous voyez souvent dans les magasins de données NoSQL, donc il ya un précédent à l'approche Hadoop.

Un concept clé derrière les magasins de données NoSQL est que non chaque application a vraiment besoin de transactions ACID-conformes. Détente sur certaines propriétés ACID (et éloigner du modèle relationnel) a ouvert une multitude de possibilités, qui ont permis à certains magasins de données NoSQL pour atteindre évolutivité et les performances massive pour leurs applications de niche.

Tandis que l'acide définit les principales caractéristiques requises pour le traitement des transactions fiables, le monde NoSQL requiert des caractéristiques différentes pour permettre la flexibilité et l'évolutivité. Ces caractéristiques opposées sont habilement capturés dans la base acronyme:

BasicallyUNvailable: Le système est garanti d'être disponible pour l'interrogation par tous les utilisateurs. (Pas d'isolement ici.)
SÉtat souvent: Les valeurs stockées dans le système peuvent varier en raison de la cohérence de modèle éventuelle, comme décrit dans la prochaine balle.
EConformément ventually: Comme les données est ajouté au système, l'état du système est progressivement répliqué sur tous les noeuds. Par exemple, dans Hadoop, quand un fichier est écrit dans le HDFS, les répliques des blocs de données sont créés dans différents nœuds de données après les blocs de données originales ont été écrites. Pour la courte période avant que les blocs sont répliqués, l'état du système de fichiers ne sont pas compatibles.

La base de l'acronyme est un peu artificiel, comme la plupart des magasins de données NoSQL ne pas abandonner complètement tous les caractéristiques ACID - il est pas vraiment le concept de pôle opposé que le nom implique, en d'autres termes. En outre, l'État Doux et caractéristiques Finalement cohérentes élèvent à la même chose, mais le fait est que par la cohérence de détente, le système peut horizontalement échelle (nombre de nœuds) et assurer la disponibilité.

Aucune discussion de NoSQL serait complet sans mentionner le théorème de la PAC, qui représente les trois types de garanties que les architectes visent à fournir dans leurs systèmes:

Cohérence: Similaire au C dans ACID, tous les noeuds dans le système auraient le même point de vue des données à tout moment.
Disponibilité: Le système répond toujours aux demandes.
La tolérance de partage: Le système reste en ligne si des problèmes de réseau se produisent entre les nœuds du système.

Le théorème de la PAC stipule que dans les systèmes en réseau distribués, les architectes doivent choisir deux de ces trois garanties - vous ne pouvez pas promettre vos utilisateurs tous les trois. Cela vous laisse avec les trois possibilités présentées:

Systèmes utilisant des technologies relationnelles traditionnelles ne sont normalement pas partitionner tolérante, afin qu'ils puissent garantir la cohérence et la disponibilité. En bref, si une partie de ces systèmes traditionnels de technologies relationnelles est déconnecté, l'ensemble du système est déconnecté.
Systèmes où la tolérance de partition et la disponibilité sont d'une importance primordiale ne peut pas garantir la cohérence, parce que les mises à jour (destroyer de cohérence) peuvent être faites de chaque côté de la cloison. Les clé-valeur magasins Dynamo et CouchDB et le magasin colonne Cassandra famille sont des exemples populaires de partition tolérante / disponibilité (PA) systèmes.
Systèmes où la tolérance de partition et la cohérence sont de première importance ne peut pas garantir la disponibilité car les systèmes renvoient des erreurs jusqu'à ce que l'état partitionné est résolu.
Les magasins de données à base de Hadoop-sont considérés comme des systèmes de CP (conformément et partition tolérante). Avec les données stockées de manière redondante sur de nombreux nœuds esclaves, des pannes de grandes parties (partitions) d'un cluster Hadoop peut être tolérée. Hadoop est jugée conforme, car il a un magasin central de métadonnées (l'NameNode) qui maintient une vue unique et cohérente des données stockées dans le cluster.

A propos Auteur

Hadoop système de fichiers distribué (HDFS) haute disponibilité

Souvent dans l'enfance de Hadoop, une grande quantité de discussion a été centrée sur la représentation de la NameNode d'un point de défaillance unique. Hadoop, dans l'ensemble, a toujours eu une architecture robuste et tolérants aux pannes,…

Système de fichiers distribué Hadoop (HDFS des) pour les grands projets de données

Le système de fichiers distribués Hadoop est un résilient approche polyvalente, cluster à la gestion des fichiers dans un environnement grand de données. HDFS est pas la destination finale pour les fichiers. Au contraire, il est un service de…

Hbase et le monde de SGBDR

HBase et de la technologie de base de données relationnelle (comme Oracle, DB2, MySQL et pour ne citer que quelques-uns) ne se comparent pas vraiment tout ce que bien. Malgré le cliché # 233-, il est vraiment un cas de comparer des pommes avec…

Magasins en mémoire clé-valeur dans les bases de données NoSQL

Les entreprises doivent veiller à ce que leurs données est durable en le mettant sur le disque en toute sécurité. Toutefois, les bases de données en mémoire mises en œuvre avec NoSQL sont également utiles dans certains cas, tels que ce qui…

Gestion de la disponibilité dans nosql

Comme avec d'autres types de bases de données NoSQL, avec des magasins clé-valeur, vous pouvez échanger une certaine cohérence pour une disponibilité. Magasins clé-valeur fournissent habituellement une large gamme de modèles de cohérence et…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

Non & # 8208-si & # 8208 caractéristiques communes des nosql

Bien que certaines caractéristiques sont assez communs aux bases de données NoSQL (par exemple, le schéma agnosticisme et non # structure 8208-relationnel), il est pas rare pour une base de données de manquer une ou plusieurs des…

Réplication de blocs de données dans le système de fichiers Hadoop distribué

Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

Access SQL et ruche apache

Apache Hive est incontestablement interface d'interrogation de données la plus répandue dans la communauté Hadoop. À l'origine, les objectifs de conception pour la ruche étaient pas pour assurer la compatibilité de SQL complète et de haute…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

Les bases de données en colonnes dans un environnement grand de données

Les bases de données en colonnes peuvent être très utiles dans votre grand projet de données. Bases de données relationnelles sont orientée rangée, que les données de chaque ligne d'une table sont stockées ensemble. Dans une forme de…

Couche 2 de la grosse pile de données: bases de données opérationnelles

À la base de tout grand environnement de données, et la couche 2 de la grande pile de données, sont les moteurs de base de données contenant les collections d'éléments pertinents pour votre entreprise de données. Ces moteurs doivent être…

Bases de données non relationnelles dans un environnement grand de données

Bases de données non relationnelles ne reposent pas sur la table / modèle clé endémique de SGBDR (systèmes de gestion de base de données relationnelle). En bref, les données de spécialité dans le grand monde de données exige de la…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » L'acide contre des magasins de données de base