Les facteurs qui augmentent l'échelle d'analyse statistique dans Hadoop

Les personnes de raison déguster leurs données avant de lancer l'analyse statistique dans Hadoop est que ce genre d'analyse nécessite souvent des ressources de calcul importantes. Ceci est non seulement sur les volumes de données: il ya cinq principaux facteurs qui influent sur l'échelle de l'analyse statistique:

  • Celui-ci est facile, mais nous devons mentionner: le volume de données sur lequel vous allez effectuer l'analyse détermine définitivement l'ampleur de l'analyse.

  • Le nombre de transformations nécessaires sur l'ensemble avant d'appliquer des modèles statistiques des données est certainement un facteur.




  • Le nombre de corrélations par paires, vous aurez besoin pour calculer joue un rôle.

  • Le degré de complexité des calculs statistiques à être appliquée est un facteur.

  • Le nombre de modèles statistiques à appliquer à votre ensemble de données joue un rôle important.

Hadoop offre un moyen de sortir de ce dilemme en fournissant une plate-forme pour effectuer des calculs de traitement massivement parallèle sur des données dans Hadoop.

Ce faisant, il est en mesure de retourner les données analytiques accréditives plutôt que de déplacer les données de son référentiel sur le serveur d'analyse, analyse Hadoop offre directement aux données. Plus précisément, HDFS vous permet de stocker vos montagnes de données et ensuite amener le calcul (sous la forme de tâches MapReduce) pour les nœuds esclaves.

Le défi commun posé par le déplacement des systèmes traditionnels Symmetric Multi-traitement statistique (SMP) à l'architecture Hadoop est la localité des données. Sur les plateformes SMP traditionnels, plusieurs processeurs partagent l'accès à une seule ressource de mémoire principale.

Dans Hadoop, HDFS réplique des partitions de données à travers plusieurs nœuds et des machines. En outre, des algorithmes statistiques qui ont été conçus pour traiter des données en mémoire doivent maintenant s'adapter à des ensembles de données qui couvrent plusieurs nœuds / racks et ne pouvait espérer tenir dans un seul bloc de mémoire.


» » » » Les facteurs qui augmentent l'échelle d'analyse statistique dans Hadoop