Les données de grandes mines avec ruche

Hive est, une couche d'entreposage des données orientée lots construit sur les éléments de base de Hadoop (HDFS et MapReduce) et est très utile dans les grandes données. Il fournit aux utilisateurs qui connaissent SQL avec une mise en œuvre simple SQL-lite appelé HiveQL sans sacrifier l'accès via les mappeurs et réducteurs. Avec la ruche, vous pouvez obtenir le meilleur des deux mondes: l'accès SQL-like aux données structurées et grande analyse de données sophistiquée avec MapReduce.

Contrairement à la plupart des entrepôts de données, la ruche est pas conçu pour des réponses rapides aux requêtes. En fait, les requêtes peuvent prendre plusieurs minutes, voire quelques heures, selon la complexité. En conséquence, la ruche est mieux utilisé pour le data mining et d'analyse plus profondes qui ne nécessitent pas des comportements en temps réel. Car elle repose sur la fondation Hadoop, il est très extensible, évolutif et résilient, quelque chose que l'entrepôt de données moyen est pas.

Hive utilise trois mécanismes pour l'organisation des données:

Tables: Ruche tableaux sont les mêmes que les tables SGBDR, comprenant des rangées et des colonnes. Parce que la ruche est en couches sur le Hadoop HDFS, les tables sont mappés à des répertoires dans le système de fichiers. En outre, la ruche supporte les tables stockées dans d'autres systèmes de fichiers natifs.
Partitions: Une table ruche peut soutenir une ou plusieurs partitions. Ces partitions sont mappés à des sous-répertoires dans le système de fichiers sous-jacent et représentent la distribution des données tout au long de la table. Par exemple, si une table est appelée Autos, avec une valeur clé de 1 2 3 4 5 et une valeur de fabricant Ford, le chemin d'accès à la partition serait / hivewh / Autos / kv = 12345 / Ford.
Seaux: À leur tour, les données peuvent être divisés dans des seaux. Les godets sont stockées sous forme de fichiers dans le répertoire de la partition dans le système de fichiers sous-jacent. Les godets sont basés sur la valeur de hachage d'une colonne dans la table. Dans l'exemple précédent, vous pourriez avoir un seau appelé Concentrer, contenant tous les attributs d'une voiture Ford Focus.

Métadonnées Hive est stocké à l'extérieur dans le “. Metastore ” Le Metastore est une base de données relationnelle contenant les descriptions détaillées du schéma Hive, y compris les types de colonnes, les propriétaires, les données clés et de valeurs, les statistiques de la table, et ainsi de suite. Le Metastore est capable de synchroniser les données de catalogue avec d'autres services de métadonnées dans l'écosystème Hadoop.

Hive supporte un langage de type SQL appelé HiveQL. HiveQL supporte la plupart des primitives de SQL, telles que select, rejoindre, ensemble, union all, et ainsi de suite. Il prend également en charge les requêtes multitables et inserts en partageant les données d'entrée dans une seule déclaration HiveQL. HiveQL peut être étendu pour supporter l'agrégation définie par l'utilisateur, la transformation de la colonne, et les scripts de MapReduce embarqués.

A propos Auteur

Hadoop Sqoop pour Big Data

Sqoop (SQL-à-Hadoop) est un outil grand de données qui offre la possibilité d'extraire des données à partir des données magasins non Hadoop, transformer les données en une forme utilisable par Hadoop, puis charger les données dans HDFS. Ce…

Exemples de commandes d'insertion Hive

Une ruche DML commande à explorer est la INSERT commande. Vous avez en gros trois INSERT variants- deux d'entre eux sont présentés dans la liste suivante. Pour démontrer cette nouvelle commande DML, vous allez créer une nouvelle table qui va…

Comment démarrer avec ruche apache

Il n'y a pas de meilleure façon de voir ce qui est ce que l'installation du logiciel ruche et lui donner un essai. Comme avec d'autres technologies dans l'écosystème Hadoop, il ne faut pas longtemps pour commencer.Si vous avez le temps et la…

Comment utiliser la ruche de CREATE TABLE AS sélectionnez (DEC)

Dans l'exemple Hive DML montré ici, la technique puissante dans la ruche connu comme CREATE TABLE AS Select, ou CTAS est illustrée. Ses constructions vous permettent d'extraire rapidement les tables de la ruche d'autres tables que vous construisez…

Importation de données dans la ruche avec Sqoop

Ici, vous importez la totalité de la base de données directement à partir de l'ordre de service MySQL dans la ruche et exécutez une requête HiveQL contre la base de données nouvellement importée sur Hadoop. La liste suivante vous montre…

Amélioration de vos requêtes ruche avec des index

Création d'un index est une pratique courante avec les bases de données relationnelles quand vous voulez accélérer l'accès à une colonne ou un ensemble de colonnes dans votre base de données. Sans index, le système de base de données doit…

Rejoindre des tables avec ruche

Vous savez probablement déjà que les experts en modélisation de base de données relationnelle et la conception passent généralement beaucoup de leur temps à la conception des bases de données normalisées, ou schémas. Base de données…

Caractéristiques de hiveql clés

La communauté Apache Hive vivante et active en permanence ajouters déjà à un vaste ensemble de fonctionnalités, ce qui rend la couverture exhaustive encore plus difficile. La liste qui suit résume quelques caractéristiques principales HiveQL…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Access SQL et ruche apache

Apache Hive est incontestablement interface d'interrogation de données la plus répandue dans la communauté Hadoop. À l'origine, les objectifs de conception pour la ruche étaient pas pour assurer la compatibilité de SQL complète et de haute…

Ecureuil client comme ruche avec le pilote JDBC

SQuirreL SQL est un outil open source qui agit comme un client Hive. Vous pouvez télécharger ce client SQL universelle à partir du site SourceForge. Il fournit une interface utilisateur de ruche et simplifie les tâches de l'interrogation de…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

L'architecture de la ruche apache

Comme vous examinez les éléments de Apache Hive montrées, vous pouvez voir au bas cette ruche se trouve au sommet du système Hadoop Distributed File (HDFS) et les systèmes de MapReduce.Dans le cas de MapReduce, les figureshows deux composants…

godiches.com » Ordinateurs et logiciels » Big Data » Ingénierie » Les données de grandes mines avec ruche