Couche 3 de la grosse pile de données: l'organisation des services et des outils de données

L'organisation des services de données et des outils, couche 3 de la grosse pile de données, la capture, valider et assembler différents éléments de données dans de grandes collections contextuellement pertinents. Parce que Big Data est massive, les techniques ont évolué pour traiter les données de manière efficace et transparente. MapReduce est une technique très utilisée. Qu'il suffise de dire ici que beaucoup de ces services de données d'organisation sont des moteurs MapReduce, spécifiquement conçu pour optimiser l'organisation de grands flux de données.

Organiser des services de données sont, en réalité, un écosystème d'outils et de technologies qui peuvent être utilisées pour recueillir et rassembler des données en préparation pour un traitement ultérieur. En tant que tel, les outils doivent fournir une intégration, la traduction, la normalisation et l'échelle. Technologies dans cette couche sont les suivants:

Un système de fichiers distribué: Nécessaire pour accueillir la décomposition des flux de données et de fournir une capacité d'échelle et de stockage
Services de sérialisation: Nécessaire pour le stockage de données persistant et appels de procédures distantes multilingues (RPC)
Services de coordination: Nécessaire pour construire des applications distribuées (verrouillage et ainsi de suite)
Extraire, transformer, et de chargement (ETL) outils: Nécessaire pour le chargement et la conversion des données structurées et non structurées dans Hadoop
Services de flux de travail: Nécessaire pour la planification des tâches et en fournissant une structure pour la synchronisation des éléments de processus à travers des couches

A propos Auteur

Big workflows de données

Pour comprendre les grands flux de données, vous devez comprendre ce qu'est un processus est et comment il concerne le flux de travail dans les environnements de données de manière intensive. Processus ont tendance à être conçus comme de haut…

Identifier les données dont vous avez besoin pour votre Big Data

Faites l'inventaire du type de données que vous traitez avec votre grand projet de données. De nombreuses organisations reconnaissent que beaucoup de données générées en interne n'a pas été utilisé à son plein potentiel dans le passé.En…

Couche 1 de la grande pile de données: l'infrastructure de sécurité

Sécurité et confidentialité exigences, la couche 1 de la grande pile de données, sont similaires aux exigences pour les environnements de données classiques. Les exigences de sécurité doivent être étroitement aligné sur les besoins…

Couche 2 de la grosse pile de données: bases de données opérationnelles

À la base de tout grand environnement de données, et la couche 2 de la grande pile de données, sont les moteurs de base de données contenant les collections d'éléments pertinents pour votre entreprise de données. Ces moteurs doivent être…

Couche 4 de la grande pile de données: les entrepôts de données analytiques

L'entrepôt de données, couche 4 de la grande pile de données, et de son compagnon de l'entrepôt de données, ont longtemps été les principales techniques que les organisations utilisent pour optimiser les données pour aider les décideurs.…

Middleware pour l'entreposage de données

Middleware est un logiciel d'ordinateur qui se connecte les composants logiciels. Dans un environnement d'entreposage de données, les services de middleware sont l'ensemble des programmes et des routines qui font ce qui suit:Extraire des données…

Services de réplication pour l'entreposage de données

Services de middleware de réplication combinent la sélection et de l'extraction, le mouvement, et le chargement d'une base de données à un ou plusieurs autres, généralement gérés par un produit de SGBD unique. (La base de données de source…

Six fournisseurs avec des produits de middleware pour l'entreposage de données

Il ya plusieurs fournisseurs qui offrent en stockage de données produits middleware vous voudrez peut-être jeter un oeil à. Voici sept qui sont à considérer.Composite SoftwareComposite Software fournit Enterprise Information Integration (IIE)…

L'évolution des modèles de déploiement dans l'ère Big Data

Avec l'avènement de grands volumes de données, les modèles de déploiement pour la gestion des données sont en train de changer. L'entrepôt de données traditionnelle est généralement mis en œuvre sur un seul grand système au sein du centre…

Les principes fondamentaux de la grande intégration de données

Les éléments fondamentaux de la grande plate-forme de données de gérer les données dans de nouveaux moyens par rapport à la base de données relationnelle traditionnelle. Ceci est dû à la nécessité d'avoir l'évolutivité et la haute…

Meilleures pratiques pour grande intégration de données

Beaucoup d'entreprises explorent de gros problèmes de données et à venir avec des solutions innovantes. Il est maintenant temps de prêter attention à un certain les meilleures pratiques, ou principes de base, qui vous servira ainsi que vous…

Définition de gros volumes de données: le volume, la vitesse, et la variété

Big données permet aux entreprises de stocker, gérer et manipuler de grandes quantités de données disparates à la bonne vitesse et au bon moment. Pour gagner les bonnes idées, Big Data est généralement décomposé par trois…

La gestion des données d'entreprise et de grands volumes de données

Gestion des données de l'entreprise (GED) est un processus important dans les grandes données pour comprendre et contrôler l'économie des données de votre entreprise ou organisation. Bien que EDM est pas nécessaire pour les grandes données,…

Les éléments clés du serveur Microsoft SQL

Le produit Microsoft SQL Server se compose de quatre éléments principaux, trois d'entre eux acronymes sportives. Utilisez cette liste pour identifier les composants de SQL Server et de leur dire à part.Database Engine: Cette partie de SQL Server…

godiches.com » Ordinateurs et logiciels » Big Data » Ingénierie » Couche 3 de la grosse pile de données: l'organisation des services et des outils de données