Caractéristiques de hiveql clés

La communauté Apache Hive vivante et active en permanence ajouters déjà à un vaste ensemble de fonctionnalités, ce qui rend la couverture exhaustive encore plus difficile. La liste qui suit résume quelques caractéristiques principales HiveQL pour vous:

  • Sécurité: Apache Hive fournit un sous-système de sécurité qui peut être très utile dans la prévention de la corruption ou de compromis de données accidentelles parmi les membres des groupes de travail de confiance. Cependant, le Manuel Hive Langue stipule clairement que le sous-système de sécurité Hive est pas conçu pour empêcher les utilisateurs néfastes de compromettre un système Hive.

    Hive la sécurité peut être établie pour les utilisateurs individuels, des groupes et des rôles administratifs. Hive fournit des privilèges qui peuvent être accordés ou révoqués pour les utilisateurs, des groupes ou des rôles administratifs. The Hive 0,10 presse amélioration de la sécurité dans les environnements multi-utilisateurs en fournissant autorisation au Metastore, et les futures versions de la ruche fournira une plus grande intégration avec le cadre de la sécurité Hadoop. Kerberos est en train d'émerger comme la technologie de choix pour assurer Hadoop.




  • Verrouillage multi-utilisateur: Hive soutient l'accès de l'entrepôt multi-utilisateur lorsqu'il est configuré avec Apache Zookeeper. Sans ce soutien, un utilisateur peut lire une table dans le même temps un autre utilisateur supprime cette table - qui est, évidemment, inacceptable.

    Accès multi-utilisateur est activé via les variables de configuration dans le fichier ruche-site.xml. Une fois configuré, Hive acquiert implicitement serrures travers Zookeeper pour certaines opérations de table. Les utilisateurs peuvent également gérer explicitement les verrous dans la ruche CLI. Serrures et propriétés de configuration associés / variables sont décrites dans le Manuel Hive Langue.

  • Compression: La compression de données peut non seulement économiser de l'espace sur le HDFS mais aussi d'améliorer les performances en réduisant la taille globale des opérations d'entrée / sortie. En outre, la compression entre les cartographes et réducteurs Hadoop peut améliorer les performances, parce que moins de données sont transmises entre les nœuds du cluster.

    Hive supporte la compression intermédiaire entre les cartographes et réducteurs ainsi que la compression de sortie de table. Hive comprend également comment ingérer données compressées dans l'entrepôt. Fichiers compressés avec Gzip ou Bzip2 peuvent être lus par ruche de LOAD DATA commande.

  • Fonctions: HiveQL fournit un riche ensemble d'opérateurs intégrés, fonctions intégrées, intégré dans les fonctions d'agrégation, et les fonctions de table génératrices intégrées. Plusieurs exemples de ce chapitre utilisation intégré opérateurs ainsi que des fonctions intégrées globales (AVG, MIN, et COUNT, par example).

    Pour lister toutes les fonctions intégrées pour toute publication Hive particulier, utilisez la AFFICHER LES FONCTIONS HiveQL commande. Vous pouvez également récupérer des informations sur une fonction intégrée en utilisant les commandes HiveQL DESCRIPTION FONCTION nom_fonction et DESCRIBE fonction étendue nom_fonction.

    En utilisant le EXTENSION mot-clé renvoie parfois des exemples d'utilisation de la fonction intégrée spécifiée. En outre, la ruche permet aux utilisateurs de créer leurs propres fonctions, fonctions appelées définis par l'utilisateur, ou UDF. En utilisant le cadre UDF basées sur Java de la ruche, vous pouvez créer des fonctions supplémentaires, y compris les agrégats et les fonctions de la table de génération. Cette fonction est l'une des raisons pour lesquelles la ruche peut fonctionner comme un outil ETL.


» » » » Caractéristiques de hiveql clés