Couche 3 de la grosse pile de données: l'organisation des services et des outils de données

L'organisation des services de données et des outils, couche 3 de la grosse pile de données, la capture, valider et assembler différents éléments de données dans de grandes collections contextuellement pertinents. Parce que Big Data est massive, les techniques ont évolué pour traiter les données de manière efficace et transparente. MapReduce est une technique très utilisée. Qu'il suffise de dire ici que beaucoup de ces services de données d'organisation sont des moteurs MapReduce, spécifiquement conçu pour optimiser l'organisation de grands flux de données.

Organiser des services de données sont, en réalité, un écosystème d'outils et de technologies qui peuvent être utilisées pour recueillir et rassembler des données en préparation pour un traitement ultérieur. En tant que tel, les outils doivent fournir une intégration, la traduction, la normalisation et l'échelle. Technologies dans cette couche sont les suivants:

  • Un système de fichiers distribué: Nécessaire pour accueillir la décomposition des flux de données et de fournir une capacité d'échelle et de stockage

  • Services de sérialisation: Nécessaire pour le stockage de données persistant et appels de procédures distantes multilingues (RPC)

  • Services de coordination: Nécessaire pour construire des applications distribuées (verrouillage et ainsi de suite)

  • Extraire, transformer, et de chargement (ETL) outils: Nécessaire pour le chargement et la conversion des données structurées et non structurées dans Hadoop

  • Services de flux de travail: Nécessaire pour la planification des tâches et en fournissant une structure pour la synchronisation des éléments de processus à travers des couches


» » » » Couche 3 de la grosse pile de données: l'organisation des services et des outils de données