10 bonnes raisons d'adopter hadoop

Hadoop est une plate-forme puissante et flexible pour l'analyse de données à grande échelle. Cette déclaration seule est une raison impérieuse d'envisager d'utiliser Hadoop pour vos projets d'analyse. Pour aider davantage pencher la balance, qui suit sont dix raisons impérieuses de déployer Hadoop dans le cadre de votre solution Big Data.

Sommaire

Hadoop est relativement peu coûteux

Le coût par téraoctet de mettre en œuvre un cluster Hadoop est moins cher que le coût par téraoctet de mettre en place un système de sauvegarde sur bande. Certes, un système Hadoop coûte plus cher à exploiter, parce que les lecteurs de disque contenant les données sont tous en ligne et alimenté, à la différence des lecteurs de bande. Mais cette mesure intéressante montre toujours la valeur énorme potentiel d'un investissement dans Hadoop.

La principale raison Hadoop est peu coûteux est sa dépendance sur du matériel standard. Les solutions traditionnelles en matière de gestion de données d'entreprise dépendent de ressources coûteuses pour assurer la haute disponibilité et des performances rapides.

Hadoop a une communauté open source actif

Lorsqu'une organisation investit dans un logiciel, un facteur clé est la pertinence à long terme du logiciel qu'il a acheté. Aucune entreprise ne veut acheter des licences de logiciels et d'acquérir des compétences spécifiques autour des technologies qui seront obsolètes ou hors de propos dans les mois et années à venir.

À cet égard, vous ne devez pas vous inquiéter à propos de Hadoop. Le projet Hadoop est sur la voie de l'adoption et de la pertinence à long terme. Ses projets clés ont des dizaines de committers et des centaines de développeurs contribuant code. Bien que quelques-unes de ces personnes sont des universitaires ou amateurs, la majorité d'entre eux sont payés par les sociétés de logiciels d'entreprise pour aider à développer la plate-forme Hadoop.

Hadoop est largement adopté dans tous les secteurs

Comme avec l'adoption de la technologie de base de données relationnelle à partir des années 1980 et au-delà, des solutions Hadoop surgissent dans tous les secteurs. La plupart des entreprises ayant des problèmes de gestion de l'information à grande échelle sont sérieusement explorent Hadoop. Un large consensus de reportages et des rapports d'analystes indiquent maintenant que presque chaque société Fortune 500 a lancé un projet Hadoop.

Hadoop peut facilement évoluer comme vos données grandit

La hausse des volumes de données sont un défi de données grande répandue maintenant confrontés par des organisations. Dans les environnements très concurrentiels où Analytics est de plus en plus le facteur décisif dans la détermination de gagnants et des perdants, être capable d'analyser les volumes croissants de données devient une priorité élevée.




Même maintenant, la plupart des outils traditionnels de traitement de données, tels que les bases de données et des logiciels statistiques, exigent plus grande échelle de matériel (plus de mémoire, disque et cœurs de processeur) pour gérer les volumes de données croissants. Cette approche de mise à l'échelle est limitative et peu rentable, compte tenu de la nécessité de composants coûteux.

En contraste avec le modèle de l'échelle, où plus rapide et plus élevé du matériel de capacité est ajouté à un seul serveur, Hadoop est conçu pour scale-out avec facilité en ajoutant des nœuds de données. Ces nœuds de données, représentant une capacité accrue de stockage du cluster et de puissance de traitement, peuvent facilement être ajoutés à la volée pour un cluster actif.

Les outils traditionnels intègrent avec Hadoop

Avec l'adoption accrue, les entreprises viennent à dépendre de Hadoop et l'utilisent pour stocker et analyser les données critiques. Avec cette tendance vient un appétit pour les mêmes types d'outils de gestion de données que les gens sont habitués à avoir pour leurs sources de données traditionnelles, comme une base de données relationnelle. Voici quelques-unes des catégories d'applications les plus importantes où vous pouvez voir l'intégration avec Hadoop:

  • Des outils d'analyse d'affaires

  • Progiciels d'analyse statistique

  • Des outils d'intégration de données

Hadoop peut stocker des données dans un format

Une caractéristique de Hadoop reflète un principe clé NoSQL: Stocker les données en premier, et d'appliquer des schémas après qu'il est interrogé. Un avantage majeur qui revient à Hadoop d'agir en conformité avec ce principe est que vous pouvez littéralement stocker tout type de données dans Hadoop: complètement non structurées, des formats binaires, les fichiers journaux ou semi-structurées, des données relationnelles.

Mais avec cette souplesse vient une malédiction: Après vous stockez des données, vous voulez finalement à analyser - et analyser les données en désordre peut être difficile et prend du temps. Les bonnes nouvelles ici est qu'un nombre croissant d'outils peuvent atténuer les défis d'analyse couramment observés dans les grands ensembles de données en désordre,.

Hadoop est conçu pour fonctionner analyses complexes

Vous pouvez non seulement stocker à peu près tout dans Hadoop, mais également exécuter à peu près tout type d'algorithme contre que les données. Les modèles et les bibliothèques incluses dans Apache Mahout apprentissage de la machine sont d'excellents exemples, et ils peuvent être utilisés pour une variété de problèmes complexes, y compris la classification des éléments basés sur un vaste ensemble de données de formation.

Hadoop peut traiter un ensemble de données complet

Pour les types de cas d'utilisation fraude analyse, les données de l'industrie provenant de sources multiples indiquent que moins de 3 pour cent de toutes les déclarations et les allégations sont vérifiés. Certes, dans de nombreuses circonstances, comme les sondages électoraux, analyse petites séries d'échantillons de données est utile et suffisant.

Mais quand 97 pour cent des rendements et des réclamations ne sont pas vérifiés, même avec de bonnes règles d'échantillonnage, de nombreux retours frauduleux se produisent encore. En étant capable d'exécuter une analyse de la fraude contre l'ensemble du corpus de données, vous obtenez maintenant de décider de l'échantillon.

Hardware est optimisé pour Hadoop

Intel est maintenant un joueur dans le marché de la distribution Hadoop. Ce mouvement par Intel était un homme astucieux, car son travail de distribution montre le sérieux et l'engagement derrière ses efforts d'intégration open source.

Avec Hadoop, Intel voit une formidable opportunité de vendre plus de matériel. Après tout, les clusters Hadoop peuvent en vedette des centaines de nœuds, tous les processeurs, cartes mères, nécessitant RAM et des disques durs. Intel investit massivement dans la compréhension de Hadoop afin qu'il puisse construire des optimisations matérielles Intel spécifiques que ses contributeurs Hadoop peuvent intégrer dans les projets open source Hadoop.

Les autres grands fournisseurs de matériel (comme IBM, Dell et HP) apportent aussi activement offres Hadoop-friendly à marché.

Hadoop peut gérer les charges de travail de plus en plus flexibles

Pendant la durée de quatre ans qui a précédé la libération de Hadoop 2, une grande attention a été dirigée à résoudre le problème d'avoir un point de défaillance (SPOF) seule avec le HDFS NameNode. Bien que ce succès particulier était sans aucun doute une amélioration importante, car il a fait beaucoup pour permettre à la stabilité de l'entreprise, le fil est un développement beaucoup plus important.

Jusqu'à Hadoop 2, le seul traitement qui pourrait être fait sur un cluster Hadoop a été réservée dans le cadre de MapReduce. Cela était acceptable pour les analyses de journaux utilisent Hadoop cas qui a été construit à l'origine pour, mais avec l'adoption accrue est venu le besoin réel pour une flexibilité accrue.


» » » » 10 bonnes raisons d'adopter hadoop