10 bonnes raisons d'adopter hadoop

Hadoop est une plate-forme puissante et flexible pour l'analyse de données à grande échelle. Cette déclaration seule est une raison impérieuse d'envisager d'utiliser Hadoop pour vos projets d'analyse. Pour aider davantage pencher la balance, qui suit sont dix raisons impérieuses de déployer Hadoop dans le cadre de votre solution Big Data.

Sommaire

Hadoop est relativement peu coûteux
Hadoop a une communauté open source actif
Hadoop est largement adopté dans tous les secteurs
Hadoop peut facilement évoluer comme vos données grandit
Les outils traditionnels intègrent avec hadoop
Hadoop peut stocker des données dans un format
Hadoop est conçu pour fonctionner analyses complexes
Hadoop peut traiter un ensemble de données complet
Hardware est optimisé pour hadoop
Hadoop peut gérer les charges de travail de plus en plus flexibles

Hadoop est relativement peu coûteux

Le coût par téraoctet de mettre en œuvre un cluster Hadoop est moins cher que le coût par téraoctet de mettre en place un système de sauvegarde sur bande. Certes, un système Hadoop coûte plus cher à exploiter, parce que les lecteurs de disque contenant les données sont tous en ligne et alimenté, à la différence des lecteurs de bande. Mais cette mesure intéressante montre toujours la valeur énorme potentiel d'un investissement dans Hadoop.

La principale raison Hadoop est peu coûteux est sa dépendance sur du matériel standard. Les solutions traditionnelles en matière de gestion de données d'entreprise dépendent de ressources coûteuses pour assurer la haute disponibilité et des performances rapides.

Hadoop a une communauté open source actif

Lorsqu'une organisation investit dans un logiciel, un facteur clé est la pertinence à long terme du logiciel qu'il a acheté. Aucune entreprise ne veut acheter des licences de logiciels et d'acquérir des compétences spécifiques autour des technologies qui seront obsolètes ou hors de propos dans les mois et années à venir.

À cet égard, vous ne devez pas vous inquiéter à propos de Hadoop. Le projet Hadoop est sur la voie de l'adoption et de la pertinence à long terme. Ses projets clés ont des dizaines de committers et des centaines de développeurs contribuant code. Bien que quelques-unes de ces personnes sont des universitaires ou amateurs, la majorité d'entre eux sont payés par les sociétés de logiciels d'entreprise pour aider à développer la plate-forme Hadoop.

Hadoop est largement adopté dans tous les secteurs

Comme avec l'adoption de la technologie de base de données relationnelle à partir des années 1980 et au-delà, des solutions Hadoop surgissent dans tous les secteurs. La plupart des entreprises ayant des problèmes de gestion de l'information à grande échelle sont sérieusement explorent Hadoop. Un large consensus de reportages et des rapports d'analystes indiquent maintenant que presque chaque société Fortune 500 a lancé un projet Hadoop.

Hadoop peut facilement évoluer comme vos données grandit

La hausse des volumes de données sont un défi de données grande répandue maintenant confrontés par des organisations. Dans les environnements très concurrentiels où Analytics est de plus en plus le facteur décisif dans la détermination de gagnants et des perdants, être capable d'analyser les volumes croissants de données devient une priorité élevée.

Même maintenant, la plupart des outils traditionnels de traitement de données, tels que les bases de données et des logiciels statistiques, exigent plus grande échelle de matériel (plus de mémoire, disque et cœurs de processeur) pour gérer les volumes de données croissants. Cette approche de mise à l'échelle est limitative et peu rentable, compte tenu de la nécessité de composants coûteux.

En contraste avec le modèle de l'échelle, où plus rapide et plus élevé du matériel de capacité est ajouté à un seul serveur, Hadoop est conçu pour scale-out avec facilité en ajoutant des nœuds de données. Ces nœuds de données, représentant une capacité accrue de stockage du cluster et de puissance de traitement, peuvent facilement être ajoutés à la volée pour un cluster actif.

Les outils traditionnels intègrent avec Hadoop

Avec l'adoption accrue, les entreprises viennent à dépendre de Hadoop et l'utilisent pour stocker et analyser les données critiques. Avec cette tendance vient un appétit pour les mêmes types d'outils de gestion de données que les gens sont habitués à avoir pour leurs sources de données traditionnelles, comme une base de données relationnelle. Voici quelques-unes des catégories d'applications les plus importantes où vous pouvez voir l'intégration avec Hadoop:

Des outils d'analyse d'affaires
Progiciels d'analyse statistique
Des outils d'intégration de données

Hadoop peut stocker des données dans un format

Une caractéristique de Hadoop reflète un principe clé NoSQL: Stocker les données en premier, et d'appliquer des schémas après qu'il est interrogé. Un avantage majeur qui revient à Hadoop d'agir en conformité avec ce principe est que vous pouvez littéralement stocker tout type de données dans Hadoop: complètement non structurées, des formats binaires, les fichiers journaux ou semi-structurées, des données relationnelles.

Mais avec cette souplesse vient une malédiction: Après vous stockez des données, vous voulez finalement à analyser - et analyser les données en désordre peut être difficile et prend du temps. Les bonnes nouvelles ici est qu'un nombre croissant d'outils peuvent atténuer les défis d'analyse couramment observés dans les grands ensembles de données en désordre,.

Hadoop est conçu pour fonctionner analyses complexes

Vous pouvez non seulement stocker à peu près tout dans Hadoop, mais également exécuter à peu près tout type d'algorithme contre que les données. Les modèles et les bibliothèques incluses dans Apache Mahout apprentissage de la machine sont d'excellents exemples, et ils peuvent être utilisés pour une variété de problèmes complexes, y compris la classification des éléments basés sur un vaste ensemble de données de formation.

Hadoop peut traiter un ensemble de données complet

Pour les types de cas d'utilisation fraude analyse, les données de l'industrie provenant de sources multiples indiquent que moins de 3 pour cent de toutes les déclarations et les allégations sont vérifiés. Certes, dans de nombreuses circonstances, comme les sondages électoraux, analyse petites séries d'échantillons de données est utile et suffisant.

Mais quand 97 pour cent des rendements et des réclamations ne sont pas vérifiés, même avec de bonnes règles d'échantillonnage, de nombreux retours frauduleux se produisent encore. En étant capable d'exécuter une analyse de la fraude contre l'ensemble du corpus de données, vous obtenez maintenant de décider de l'échantillon.

Hardware est optimisé pour Hadoop

Intel est maintenant un joueur dans le marché de la distribution Hadoop. Ce mouvement par Intel était un homme astucieux, car son travail de distribution montre le sérieux et l'engagement derrière ses efforts d'intégration open source.

Avec Hadoop, Intel voit une formidable opportunité de vendre plus de matériel. Après tout, les clusters Hadoop peuvent en vedette des centaines de nœuds, tous les processeurs, cartes mères, nécessitant RAM et des disques durs. Intel investit massivement dans la compréhension de Hadoop afin qu'il puisse construire des optimisations matérielles Intel spécifiques que ses contributeurs Hadoop peuvent intégrer dans les projets open source Hadoop.

Les autres grands fournisseurs de matériel (comme IBM, Dell et HP) apportent aussi activement offres Hadoop-friendly à marché.

Hadoop peut gérer les charges de travail de plus en plus flexibles

Pendant la durée de quatre ans qui a précédé la libération de Hadoop 2, une grande attention a été dirigée à résoudre le problème d'avoir un point de défaillance (SPOF) seule avec le HDFS NameNode. Bien que ce succès particulier était sans aucun doute une amélioration importante, car il a fait beaucoup pour permettre à la stabilité de l'entreprise, le fil est un développement beaucoup plus important.

Jusqu'à Hadoop 2, le seul traitement qui pourrait être fait sur un cluster Hadoop a été réservée dans le cadre de MapReduce. Cela était acceptable pour les analyses de journaux utilisent Hadoop cas qui a été construit à l'origine pour, mais avec l'adoption accrue est venu le besoin réel pour une flexibilité accrue.

A propos Auteur

Hadapt et Hadoop

Vers la fin de l'année 2010, Hadapt a été formé comme une start-up par deux étudiants de l'Université de Yale et professeur adjoint de science informatique. Professeur Daniel Abadi et Kamil Bajda-Pawlikowski, un étudiant au doctorat du…

Hadoop comme une archive interrogeable des données de l'entrepôt froid

Une multitude d'études montrent que la plupart des données dans un entrepôt de données d'entreprise est rarement interrogés. Les fournisseurs de base de données ont répondu à ces observations en mettant en œuvre leurs propres méthodes pour…

Hadoop système de fichiers distribué (HDFS) fédération

La solution à l'expansion des grappes Hadoop indéfiniment est de fédérer l'NameNode. Avant Hadoop 2 est entré en scène, les clusters Hadoop ont dû vivre avec le fait que NameNode placé des limites à la mesure dans laquelle ils pourraient…

Comment choisir une architecture de cluster hadoop

Hadoop est conçu pour être déployé sur une grande grappe d'ordinateurs en réseau, avec des nœuds maîtres (qui accueillent les services qui contrôlent le stockage et le traitement de Hadoop) et nœuds esclaves (où les données sont stockées…

Ibm grande sql et Hadoop

IBM a une longue histoire de collaboration avec SQL et de la technologie de base de données. En accord avec cette histoire, la solution d'IBM pour SQL sur Hadoop exploite des composants de ses technologies de base de données relationnelles qui…

Modes locaux et distribués de l'exécution de scripts de porcs dans Hadoop

Avant vous pouvez exécuter votre premier script de cochon dans Hadoop, vous devez avoir une poignée sur la façon dont les programmes de porc peuvent être fournis avec le serveur de porc.Pig dispose de deux modes pour l'exécution de scripts:Mode…

Gestion des données de grandes avec Hadoop HDFS et MapReduce:

Hadoop, un framework logiciel open-source, utilise HDFS (le système de fichiers distribués Hadoop) et MapReduce pour analyser les données de grandes sur des groupes de produits de base sur le matériel qui est, dans un environnement de calcul…

Bases de données de traitement massivement parallèle

Pour permettre une meilleure compréhension des alternatives SQL-sur-Hadoop Hive, il pourrait être utile d'examiner une amorce sur le traitement massivement parallèle (MPP) des bases de données en premier.Apache Hive est posée sur le dessus du…

Hawq Pivotal et Hadoop

En 2010, EMC et VMware, les leaders du marché dans la prestation de l'informatique comme un service via le cloud computing, acquis Greenplum Corporation, les gens qui avaient obtenu gain de cause le produit MPP Greenplum Data Warehouse (DW) sur le…

Réplication de blocs de données dans le système de fichiers Hadoop distribué

Distributed File System Hadoop (HDFS) est conçu pour stocker des données sur peu coûteux et plus fiable, le matériel. Peu coûteux a une jolie bague à elle, mais elle soulève des préoccupations quant à la fiabilité du système dans son…

Les applications en cours avant hadoop 2

Parce que de nombreux déploiements Hadoop existants ne sont toujours pas encore à l'aide de Yet Another négociateur des ressources (FIL), de prendre un coup d'oeil à la façon dont Hadoop a réussi son traitement de données avant les jours de…

L'importance de SQL pour Hadoop

Il ya des raisons impérieuses que SQL a su résister. L'industrie des TI a eu 40 ans d'expérience avec SQL, car il a d'abord été développé par IBM au début des années 1970. Avec l'augmentation de l'adoption de bases de données…

Stockage de données structurées et de traitement dans Hadoop

Lorsque l'on considère les capacités de Hadoop pour travailler avec des données structurées (ou de travailler avec des données de tout type, d'ailleurs), rappelez-vous les caractéristiques de base de Hadoop: Hadoop est, d'abord et avant tout,…

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » 10 bonnes raisons d'adopter hadoop