Identifier les données dont vous avez besoin pour votre Big Data

Faites l'inventaire du type de données que vous traitez avec votre grand projet de données. De nombreuses organisations reconnaissent que beaucoup de données générées en interne n'a pas été utilisé à son plein potentiel dans le passé.

Sommaire

En tirant parti de nouveaux outils, les organisations gagnent un nouvel aperçu de sources inexploitées de données non structurées dans les e-mails, les dossiers de service à la clientèle, les données des capteurs, et les journaux de sécurité. En outre, il existe beaucoup d'intérêt dans la recherche de nouvelles connaissances fondées sur l'analyse des données qui est principalement externe à l'entreprise, tels que les médias sociaux, l'emplacement du téléphone mobile, le trafic et la météo.

Le stade exploratoire pour Big Data

Dans les premières étapes de votre analyse, vous aurez envie de chercher des tendances dans les données. Il est seulement en examinant de très grands volumes de données que les relations et corrélations nouvelles et inattendues entre les éléments peut devenir apparent. Ces modèles peuvent fournir un aperçu des préférences des clients pour un nouveau produit, par exemple. Vous aurez besoin d'une plate-forme pour l'organisation de vos données importantes à regarder pour ces motifs.

Hadoop est largement utilisé comme bloc de construction sous-jacente pour la capture et le traitement de gros volumes de données. Hadoop est conçu avec des capacités qui accélèrent le traitement de gros volumes de données et permettent d'identifier les tendances dans d'énormes quantités de données dans un temps relativement court. Les deux principales composantes de Hadoop - système Hadoop Distributed File (HDFS) et MapReduce - sont utilisés pour gérer et traiter vos données importantes.

FlumeNG pour grande intégration de données

Il est souvent nécessaire de collecter, agréger et déplacer des quantités extrêmement importantes de flux de données à la recherche de modèles cachés dans les grandes données. Les outils traditionnels d'intégration comme ETL ne seraient pas assez rapide pour déplacer les grands flux de données en temps pour fournir des résultats d'analyse telles que la détection de la fraude en temps réel. FlumeNG charge des données en temps réel en streaming vos données dans Hadoop.




Typiquement, Flume est utilisé pour collecter de grandes quantités de données de journaux de serveurs distribués. Il garde la trace de tous les nœuds physiques et logiques dans une installation Flume. Nœuds Agent sont installés sur les serveurs et sont chargés de gérer la façon dont un seul flux de données sont transférées et traitées à partir de son point de commencer à son point de destination.

En outre, les collectionneurs sont utilisés pour regrouper les flux de données dans de plus grands cours d'eau qui peuvent être écrits sur un système de fichiers Hadoop ou un autre grand récipient de stockage de données. Flume est conçu pour une évolutivité et peut continuellement ajouter plus de ressources pour un système pour gérer de très grandes quantités de données de manière efficace. La sortie de canal peut être intégré avec Hadoop Hive et pour l'analyse des données.

Flume a également des éléments de transformation à utiliser sur les données et peut transformer votre infrastructure Hadoop en une source de données non structurées de streaming.

Patterns in Big Data

Vous trouverez de nombreux exemples d'entreprises commencent à réaliser des avantages concurrentiels de grandes analyses de données. Pour de nombreuses entreprises, les flux de données de médias sociaux sont de plus en plus partie intégrante d'une stratégie de marketing numérique. Dans le stade exploratoire, cette technologie peut être utilisée pour rechercher rapidement à travers d'énormes quantités de données de transmission en continu et tirez les modèles de tendances qui se rapportent à des produits ou des clients spécifiques.

L'étape codifier pour Big Data

Avec des centaines de magasins et plusieurs milliers de clients, vous avez besoin d'un processus reproductible à faire le saut de l'identification de modèle pour la mise en œuvre de la sélection de nouveaux produits et de marketing plus ciblé. Après avoir trouvé quelque chose d'intéressant dans votre grande analyse des données, codifier et faire une partie de votre processus d'affaires.

Pour codifier la relation entre vos grandes analyses de données et de vos données opérationnelles, vous avez besoin d'intégrer les données.

Intégration de données Big et le stade d'incorporation

Big données est d'avoir un impact majeur sur de nombreux aspects de la gestion de données, y compris l'intégration de données. Traditionnellement, l'intégration des données a porté sur la circulation des données à travers middleware, y compris les spécifications sur le passage de messages et les exigences pour les interfaces de programmation d'application (API). Ces concepts d'intégration de données sont plus appropriés pour la gestion des données au repos plutôt que les données en mouvement.

Le déménagement dans le nouveau monde des données non structurées et les données de streaming change la notion classique de l'intégration de données. Si vous souhaitez intégrer votre analyse de flux de données dans votre processus d'affaires, vous avez besoin d'une technologie avancée qui est assez rapide pour vous permettre de prendre des décisions en temps réel.

Après votre grand analyse des données est terminée, vous avez besoin d'une approche qui vous permettra d'intégrer ou d'intégrer les résultats de votre grande analyse des données dans votre processus d'affaires et des actions commerciales en temps réel.

Les entreprises ont des attentes élevées pour obtenir une réelle valeur commerciale de grande analyse des données. En fait, de nombreuses entreprises aimeraient commencer une analyse plus approfondie des données de grandes générés en interne, telles que les données du journal de sécurité, qui n'a pas été possible en raison de limitations technologiques.

Technologies pour le transport à grande vitesse de données très grands et rapides sont une exigence pour intégrer les sources de données distribuées et grands entre les grandes données et des données opérationnelles. Sources de données non structurées ont souvent besoin d'être déplacé rapidement sur de grandes distances géographiques pour le partage et la collaboration.

Lier sources traditionnelles avec Big Data est un processus à plusieurs étages après avoir examiné toutes les données à partir de sources de données en streaming grandes et identifié les motifs pertinents. Après avoir réduit la quantité de données dont vous avez besoin pour gérer et analyser, maintenant vous devez penser à l'intégration.


» » » » Identifier les données dont vous avez besoin pour votre Big Data