Identifier les données dont vous avez besoin pour votre Big Data

Faites l'inventaire du type de données que vous traitez avec votre grand projet de données. De nombreuses organisations reconnaissent que beaucoup de données générées en interne n'a pas été utilisé à son plein potentiel dans le passé.

Sommaire

Le stade exploratoire pour big data

Flumeng pour grande intégration de données
Patterns in big data

L'étape codifier pour big data
Intégration de données big et le stade d'incorporation

En tirant parti de nouveaux outils, les organisations gagnent un nouvel aperçu de sources inexploitées de données non structurées dans les e-mails, les dossiers de service à la clientèle, les données des capteurs, et les journaux de sécurité. En outre, il existe beaucoup d'intérêt dans la recherche de nouvelles connaissances fondées sur l'analyse des données qui est principalement externe à l'entreprise, tels que les médias sociaux, l'emplacement du téléphone mobile, le trafic et la météo.

Le stade exploratoire pour Big Data

Dans les premières étapes de votre analyse, vous aurez envie de chercher des tendances dans les données. Il est seulement en examinant de très grands volumes de données que les relations et corrélations nouvelles et inattendues entre les éléments peut devenir apparent. Ces modèles peuvent fournir un aperçu des préférences des clients pour un nouveau produit, par exemple. Vous aurez besoin d'une plate-forme pour l'organisation de vos données importantes à regarder pour ces motifs.

Hadoop est largement utilisé comme bloc de construction sous-jacente pour la capture et le traitement de gros volumes de données. Hadoop est conçu avec des capacités qui accélèrent le traitement de gros volumes de données et permettent d'identifier les tendances dans d'énormes quantités de données dans un temps relativement court. Les deux principales composantes de Hadoop - système Hadoop Distributed File (HDFS) et MapReduce - sont utilisés pour gérer et traiter vos données importantes.

FlumeNG pour grande intégration de données

Il est souvent nécessaire de collecter, agréger et déplacer des quantités extrêmement importantes de flux de données à la recherche de modèles cachés dans les grandes données. Les outils traditionnels d'intégration comme ETL ne seraient pas assez rapide pour déplacer les grands flux de données en temps pour fournir des résultats d'analyse telles que la détection de la fraude en temps réel. FlumeNG charge des données en temps réel en streaming vos données dans Hadoop.

Typiquement, Flume est utilisé pour collecter de grandes quantités de données de journaux de serveurs distribués. Il garde la trace de tous les nœuds physiques et logiques dans une installation Flume. Nœuds Agent sont installés sur les serveurs et sont chargés de gérer la façon dont un seul flux de données sont transférées et traitées à partir de son point de commencer à son point de destination.

En outre, les collectionneurs sont utilisés pour regrouper les flux de données dans de plus grands cours d'eau qui peuvent être écrits sur un système de fichiers Hadoop ou un autre grand récipient de stockage de données. Flume est conçu pour une évolutivité et peut continuellement ajouter plus de ressources pour un système pour gérer de très grandes quantités de données de manière efficace. La sortie de canal peut être intégré avec Hadoop Hive et pour l'analyse des données.

Flume a également des éléments de transformation à utiliser sur les données et peut transformer votre infrastructure Hadoop en une source de données non structurées de streaming.

Patterns in Big Data

Vous trouverez de nombreux exemples d'entreprises commencent à réaliser des avantages concurrentiels de grandes analyses de données. Pour de nombreuses entreprises, les flux de données de médias sociaux sont de plus en plus partie intégrante d'une stratégie de marketing numérique. Dans le stade exploratoire, cette technologie peut être utilisée pour rechercher rapidement à travers d'énormes quantités de données de transmission en continu et tirez les modèles de tendances qui se rapportent à des produits ou des clients spécifiques.

L'étape codifier pour Big Data

Avec des centaines de magasins et plusieurs milliers de clients, vous avez besoin d'un processus reproductible à faire le saut de l'identification de modèle pour la mise en œuvre de la sélection de nouveaux produits et de marketing plus ciblé. Après avoir trouvé quelque chose d'intéressant dans votre grande analyse des données, codifier et faire une partie de votre processus d'affaires.

Pour codifier la relation entre vos grandes analyses de données et de vos données opérationnelles, vous avez besoin d'intégrer les données.

Intégration de données Big et le stade d'incorporation

Big données est d'avoir un impact majeur sur de nombreux aspects de la gestion de données, y compris l'intégration de données. Traditionnellement, l'intégration des données a porté sur la circulation des données à travers middleware, y compris les spécifications sur le passage de messages et les exigences pour les interfaces de programmation d'application (API). Ces concepts d'intégration de données sont plus appropriés pour la gestion des données au repos plutôt que les données en mouvement.

Le déménagement dans le nouveau monde des données non structurées et les données de streaming change la notion classique de l'intégration de données. Si vous souhaitez intégrer votre analyse de flux de données dans votre processus d'affaires, vous avez besoin d'une technologie avancée qui est assez rapide pour vous permettre de prendre des décisions en temps réel.

Après votre grand analyse des données est terminée, vous avez besoin d'une approche qui vous permettra d'intégrer ou d'intégrer les résultats de votre grande analyse des données dans votre processus d'affaires et des actions commerciales en temps réel.

Les entreprises ont des attentes élevées pour obtenir une réelle valeur commerciale de grande analyse des données. En fait, de nombreuses entreprises aimeraient commencer une analyse plus approfondie des données de grandes générés en interne, telles que les données du journal de sécurité, qui n'a pas été possible en raison de limitations technologiques.

Technologies pour le transport à grande vitesse de données très grands et rapides sont une exigence pour intégrer les sources de données distribuées et grands entre les grandes données et des données opérationnelles. Sources de données non structurées ont souvent besoin d'être déplacé rapidement sur de grandes distances géographiques pour le partage et la collaboration.

Lier sources traditionnelles avec Big Data est un processus à plusieurs étages après avoir examiné toutes les données à partir de sources de données en streaming grandes et identifié les motifs pertinents. Après avoir réduit la quantité de données dont vous avez besoin pour gérer et analyser, maintenant vous devez penser à l'intégration.

A propos Auteur

L'écosystème Hadoop Apache

Hadoop est plus que MapReduce et HDFS (Distributed File System Hadoop): Il est également une famille de projets connexes (un écosystème, vraiment) pour le calcul distribué et le traitement de données à grande échelle. La plupart (mais pas…

Big analyse de données fournisseurs de solutions

Un certain nombre de fournisseurs sur le marché aujourd'hui soutenir le besoin croissant de solutions de données de grandes pour votre entreprise. Voici une liste de quelques solutions que vous pourriez trouver intéressant:IBM adopte une approche…

Analyse des données Big et l'entrepôt de données

Vous trouverez la valeur en apportant les capacités de l'entrepôt de données et de l'environnement de données grand ensemble. Vous devez créer un environnement hybride où les grandes données peuvent travailler main dans la main avec…

Couche 3 de la grosse pile de données: l'organisation des services et des outils de données

L'organisation des services de données et des outils, couche 3 de la grosse pile de données, la capture, valider et assembler différents éléments de données dans de grandes collections contextuellement pertinents. Parce que Big Data est…

Six fournisseurs avec des produits de middleware pour l'entreposage de données

Il ya plusieurs fournisseurs qui offrent en stockage de données produits middleware vous voudrez peut-être jeter un oeil à. Voici sept qui sont à considérer.Composite SoftwareComposite Software fournit Enterprise Information Integration (IIE)…

L'évolution des modèles de déploiement dans l'ère Big Data

Avec l'avènement de grands volumes de données, les modèles de déploiement pour la gestion des données sont en train de changer. L'entrepôt de données traditionnelle est généralement mis en œuvre sur un seul grand système au sein du centre…

Les principes fondamentaux de la grande intégration de données

Les éléments fondamentaux de la grande plate-forme de données de gérer les données dans de nouveaux moyens par rapport à la base de données relationnelle traditionnelle. Ceci est dû à la nécessité d'avoir l'évolutivité et la haute…

L'avenir des entrepôts de données à l'époque grand de données

Le marché de l'entrepôt de données a en effet commencé à changer et à évoluer avec l'avènement de grands volumes de données. Dans le passé, il était tout simplement pas rentable pour les entreprises de stocker la quantité massive de…

Meilleures pratiques pour grande intégration de données

Beaucoup d'entreprises explorent de gros problèmes de données et à venir avec des solutions innovantes. Il est maintenant temps de prêter attention à un certain les meilleures pratiques, ou principes de base, qui vous servira ainsi que vous…

Définition de gros volumes de données: le volume, la vitesse, et la variété

Big données permet aux entreprises de stocker, gérer et manipuler de grandes quantités de données disparates à la bonne vitesse et au bon moment. Pour gagner les bonnes idées, Big Data est généralement décomposé par trois…

La gestion des données d'entreprise et de grands volumes de données

Gestion des données de l'entreprise (GED) est un processus important dans les grandes données pour comprendre et contrôler l'économie des données de votre entreprise ou organisation. Bien que EDM est pas nécessaire pour les grandes données,…

Comment hiérarchiser grande qualité des données

Obtenir le bon point de vue sur la qualité des données peut être très difficile dans le monde du big data. Avec la majorité des grandes sources de données, vous devez supposer que vous travaillez avec des données qui ne sont pas propres. En…

Explorez la grande pile de données

Pour comprendre les grandes données, il permet de voir comment il se compare à - dire, de jeter les composants de l'architecture. Une grande architecture de gestion de données doit inclure une variété de services qui permettent aux entreprises…

Dix grandes tendances de données chaudes

Lorsque vous entrez dans le monde de grands volumes de données, vous aurez besoin d'absorber de nombreux nouveaux types de technologies de bases de données et de gestion des données. Voici le top-dix grandes tendances de données:Hadoop est en…

godiches.com » Ordinateurs et logiciels » Big Data » Ingénierie » Identifier les données dont vous avez besoin pour votre Big Data