Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.

Apache Hive est posée sur le dessus du système Hadoop Distributed File (HDFS) et le système de MapReduce et présente une interface de programmation SQL-like à vos données (HiveQL, pour être précis). Cette combinaison de technologies Hadoop déployé sur un cluster est similaire aux bases de données de MPP qui ont existé pendant un certain temps sur le marché informatique.




MPP bases de données fournissent une interface SQL et un système de gestion de base de données relationnelles (SGBDR) fonctionnant sur une grappe de serveurs en réseau entre elles par une interconnexion à haute vitesse. La figure montre les composants d'un SGBDR qui sont généralement inclus dans les solutions SQL-sur-Hadoop.

image0.jpg

Systèmes de données relationnelles ont considérablement évolué à un point où les meilleures pratiques ont émergé parmi la plupart des offres en termes d'une infrastructure optimale d'exécution des requêtes. La figure montre cela en termes de flux d'une requête comme il est traité par un moteur de SGBDR.

Premièrement, le texte de la requête est analysée et comprise. Puis l'arbre de syntaxe de la requête est compilée dans un plan d'exécution logique, qui est ensuite optimisée pour former le plan d'exécution physique final, qui est ensuite exécuté par le runtime. Pour la plupart des solutions SQL-sur-Hadoop, vous voyez des composants similaires déployés dans Hadoop.

MPP grappes sont généralement désignés comme ayant une architecture partagée-Rien, parce que chaque système a son propre processeur, la mémoire et le disque. Cependant, à travers les logiciels de base de données à haute vitesse et des interconnexions, les fonctions du système dans son ensemble et peuvent évoluer que de nouveaux serveurs sont ajoutés à la grappe. L'ensemble du système est explicitement réglé pour fournir une réponse de requête rapide, interactif.

MPP bases de données sont souvent plus flexible, évolutive et rentable que les SGBDR traditionnels, hébergés sur un grand serveur multiprocesseur.


» » » » Bases de données de traitement massivement parallèle