Comment utiliser les données en streaming pour Big Data

Parfois, à l'approche de grands volumes de données, les entreprises sont confrontées à d'énormes quantités de données et petite idée de l'endroit où aller. Entrez le streaming de données. Quand une quantité importante de données doit être rapidement traitées en temps quasi réel pour mieux comprendre, les données en mouvement sous la forme de données de transmission en continu est la meilleure réponse.

Qu'est-ce qui est des données pas au repos? Ce serait les systèmes qui gèrent les transactions actives et ont donc besoin d'avoir la persévérance. Dans ces cas, les données seront stockées dans une banque de données opérationnelle. Cependant, dans d'autres situations, ces opérations ont été exécutées, et il est temps d'analyser les données généralement dans un entrepôt de données ou data mart.

Cela signifie que l'information est en cours de traitement par lots et pas en temps réel. Lorsque les organisations planifient leur avenir, ils doivent être capables d'analyser de nombreuses données, allant de l'information à propos de ce que les clients achètent et pourquoi. Il est important de comprendre les principaux indicateurs de changement. En d'autres termes, comment changements ont un impact Quels produits et services d'une organisation offrira à l'avenir?

De nombreuses organisations de recherche utilisent ce type de grandes analyses de données pour découvrir de nouveaux médicaments. Une compagnie d'assurance peut vouloir comparer les modèles de accidents de la circulation sur une large zone géographique avec les statistiques météorologiques. Dans ces cas, aucun avantage existe pour gérer cette information à la vitesse en temps réel. De toute évidence, l'analyse doit être rapide et pratique. En outre, les organisations vont analyser les données pour voir si de nouvelles tendances émergent.

Flux de données est une plate-forme de calcul analytique qui met l'accent sur la vitesse. En effet, ces applications nécessitent un flux continu de données non structurées souvent à traiter. Par conséquent, les données sont analysées en continu et transformé dans la mémoire avant d'être stocké sur un disque. Flux de traitement des données à des œuvres de traitement “ fenêtres de temps ” des données en mémoire à travers un cluster de serveurs.

Ceci est similaire à l'approche en matière de gestion des données au repos misant sur Hadoop. La principale différence est la question de la vitesse. Dans le cluster Hadoop, les données sont collectées en mode batch et ensuite traitées. Vitesse importe moins dans Hadoop qu'il ne le fait en streaming de données. Quelques principes clés définissent l'utilisation de flux est le plus approprié:




  • Quand il est nécessaire de déterminer une opportunité d'achat au détail au point de l'engagement, que ce soit via les médias sociaux ou par messagerie permission-based

  • La collecte d'informations sur le mouvement autour d'un site sécurisé

  • Pour être en mesure de réagir à un événement qui a besoin d'une réponse immédiate, comme une panne de service ou d'un changement dans l'état médical d'un patient

  • Calcul en temps réel des coûts qui dépendent de variables telles que les ressources disponibles et d'utilisation

Flux de données est utile lorsque l'analyse doivent être faites en temps réel alors que les données est en mouvement. En fait, la valeur de l'analyse (et souvent les données) diminue avec le temps. Par exemple, si vous ne pouvez pas analyser et agir immédiatement, une opportunité de vente pourrait être perdu ou une menace pourrait passer inaperçue.

Ce qui suit sont quelques exemples qui peuvent aider à expliquer comment cela est utile.

Une centrale doit être un environnement hautement sécurisé afin que les personnes non autorisées ne pas interférer avec la fourniture d'énergie aux clients. Entreprises placent souvent capteurs autour du périmètre d'un site pour détecter les mouvements. Mais un problème peut exister. Une énorme différence existe entre un lapin qui se précipite autour de la place et une conduite automobile par rapidement et délibérément. Par conséquent, la vaste quantité de données provenant de ces capteurs doivent être analysées en temps réel de sorte qu'une alarme retentit uniquement lorsque une menace réelle existe.

Une entreprise de télécommunications dans un marché hautement concurrentiel veut faire en sorte que les pannes sont soigneusement surveillés de sorte qu'une baisse détecté des niveaux de service peut être augmentée au groupe approprié. Les systèmes de communication génèrent d'énormes volumes de données qui doivent être analysées en temps réel pour prendre les mesures appropriées. Un retard dans la détection d'une erreur peut sérieusement affecter la satisfaction du client.

Inutile de dire que les entreprises sont aux prises avec un grand nombre de données qui doivent être traitées et analysées en temps réel. Par conséquent, l'environnement physique qui prend en charge ce niveau de la réactivité est essentielle. Diffusion environnements de données nécessitent généralement une solution matérielle en cluster, et parfois une approche de traitement massivement parallèle seront nécessaires pour gérer l'analyse.

Un facteur important en continu sur l'analyse des données est le fait qu'il est une analyse de la transmission unique. En d'autres termes, l'analyste ne peut réanalyser les données après il est diffusé. Cette situation est commune dans les applications où vous recherchez l'absence de données.

Si plusieurs passes sont nécessaires, les données devront être mis en quelque sorte de l'entrepôt où l'analyse supplémentaire peut être réalisée. Par exemple, il est souvent nécessaire de mettre en place contexte. Comment ce flux de données se comparent aux données historiques? Cette corrélation peut vous en dire beaucoup sur ce qui a changé et ce que le changement pourrait signifier pour votre entreprise.


» » » » Comment utiliser les données en streaming pour Big Data