Caractéristiques de hiveql clés
La communauté Apache Hive vivante et active en permanence ajouters déjà à un vaste ensemble de fonctionnalités, ce qui rend la couverture exhaustive encore plus difficile. La liste qui suit résume quelques caractéristiques principales HiveQL pour vous:
Sécurité: Apache Hive fournit un sous-système de sécurité qui peut être très utile dans la prévention de la corruption ou de compromis de données accidentelles parmi les membres des groupes de travail de confiance. Cependant, le Manuel Hive Langue stipule clairement que le sous-système de sécurité Hive est pas conçu pour empêcher les utilisateurs néfastes de compromettre un système Hive.
Hive la sécurité peut être établie pour les utilisateurs individuels, des groupes et des rôles administratifs. Hive fournit des privilèges qui peuvent être accordés ou révoqués pour les utilisateurs, des groupes ou des rôles administratifs. The Hive 0,10 presse amélioration de la sécurité dans les environnements multi-utilisateurs en fournissant autorisation au Metastore, et les futures versions de la ruche fournira une plus grande intégration avec le cadre de la sécurité Hadoop. Kerberos est en train d'émerger comme la technologie de choix pour assurer Hadoop.
Verrouillage multi-utilisateur: Hive soutient l'accès de l'entrepôt multi-utilisateur lorsqu'il est configuré avec Apache Zookeeper. Sans ce soutien, un utilisateur peut lire une table dans le même temps un autre utilisateur supprime cette table - qui est, évidemment, inacceptable.
Accès multi-utilisateur est activé via les variables de configuration dans le fichier ruche-site.xml. Une fois configuré, Hive acquiert implicitement serrures travers Zookeeper pour certaines opérations de table. Les utilisateurs peuvent également gérer explicitement les verrous dans la ruche CLI. Serrures et propriétés de configuration associés / variables sont décrites dans le Manuel Hive Langue.
Compression: La compression de données peut non seulement économiser de l'espace sur le HDFS mais aussi d'améliorer les performances en réduisant la taille globale des opérations d'entrée / sortie. En outre, la compression entre les cartographes et réducteurs Hadoop peut améliorer les performances, parce que moins de données sont transmises entre les nœuds du cluster.
Hive supporte la compression intermédiaire entre les cartographes et réducteurs ainsi que la compression de sortie de table. Hive comprend également comment ingérer données compressées dans l'entrepôt. Fichiers compressés avec Gzip ou Bzip2 peuvent être lus par ruche de LOAD DATA commande.
Fonctions: HiveQL fournit un riche ensemble d'opérateurs intégrés, fonctions intégrées, intégré dans les fonctions d'agrégation, et les fonctions de table génératrices intégrées. Plusieurs exemples de ce chapitre utilisation intégré opérateurs ainsi que des fonctions intégrées globales (AVG, MIN, et COUNT, par example).
Pour lister toutes les fonctions intégrées pour toute publication Hive particulier, utilisez la AFFICHER LES FONCTIONS HiveQL commande. Vous pouvez également récupérer des informations sur une fonction intégrée en utilisant les commandes HiveQL DESCRIPTION FONCTION nom_fonction et DESCRIBE fonction étendue nom_fonction.
En utilisant le EXTENSION mot-clé renvoie parfois des exemples d'utilisation de la fonction intégrée spécifiée. En outre, la ruche permet aux utilisateurs de créer leurs propres fonctions, fonctions appelées définis par l'utilisateur, ou UDF. En utilisant le cadre UDF basées sur Java de la ruche, vous pouvez créer des fonctions supplémentaires, y compris les agrégats et les fonctions de la table de génération. Cette fonction est l'une des raisons pour lesquelles la ruche peut fonctionner comme un outil ETL.
A propos Auteur
Importation de données dans la ruche avec Sqoop Ici, vous importez la totalité de la base de données directement à partir de l'ordre de service MySQL dans la ruche et exécutez une requête HiveQL contre la base de données nouvellement importée sur Hadoop. La liste suivante vous montre…
Amélioration de vos requêtes ruche avec des index Création d'un index est une pratique courante avec les bases de données relationnelles quand vous voulez accélérer l'accès à une colonne ou un ensemble de colonnes dans votre base de données. Sans index, le système de base de données doit…
Rejoindre des tables avec ruche Vous savez probablement déjà que les experts en modélisation de base de données relationnelle et la conception passent généralement beaucoup de leur temps à la conception des bases de données normalisées, ou schémas. Base de données…
Bases de données de traitement massivement parallèle Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…
Access SQL et ruche apache Apache Hive est incontestablement interface d'interrogation de données la plus répandue dans la communauté Hadoop. À l'origine, les objectifs de conception pour la ruche étaient pas pour assurer la compatibilité de SQL complète et de haute…
Ecureuil client comme ruche avec le pilote JDBC SQuirreL SQL est un outil open source qui agit comme un client Hive. Vous pouvez télécharger ce client SQL universelle à partir du site SourceForge. Il fournit une interface utilisateur de ruche et simplifie les tâches de l'interrogation de…
Stockage de données structurées et de traitement dans Hadoop Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…
L'écosystème Hadoop Apache Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…
L'architecture de la ruche apache Comme vous examinez les éléments de Apache Hive montrées, vous pouvez voir au bas cette ruche se trouve au sommet du système Hadoop Distributed File (HDFS) et les systèmes de MapReduce.Dans le cas de MapReduce, les figureshows deux composants…
L'écosystème du client HBase HBase est écrit en Java, un langage élégant pour la construction de technologies distribuées comme HBase, mais le visage il - pas tout le monde qui veut prendre avantage des innovations Hbase est un développeur Java. Voilà pourquoi il ya un…
Les données de grandes mines avec ruche Hive est, une couche d'entreposage des données orientée lots construit sur les éléments de base de Hadoop (HDFS et MapReduce) et est très utile dans les grandes données. Il fournit aux utilisateurs qui connaissent SQL avec une mise en œuvre…
Bee gabarits de cadre ruche: comment faire votre propre Pour construire un gabarit de trame pour les ruches, d'abord de le décomposer en ses composants individuels et suivez ces instructions sur la façon de réduire ces composants frame-jig.Lumber dans un magasin est identifié par son nominal taille,…
Le stand ruche élevée: comment faire votre propre Lors de la construction d'une position élevée pour votre ruche d'abeille, il est plus facile de le décomposer en ses composants individuels - les tableaux suivants montrent comment et fournir des instructions sur la façon de réduire ces…
Les cinq-cadre nuc ruche: comment construire votre propre Les tableaux suivants décomposent les cinq-cadre nuc ruche en ses composants individuels et fournissent des instructions sur la façon de réduire et de construire ces composants.Lumber dans un magasin est identifié par son nominal taille, ce qui…