Big workflows de données

Pour comprendre les grands flux de données, vous devez comprendre ce qu'est un processus est et comment il concerne le flux de travail dans les environnements de données de manière intensive. Processus ont tendance à être conçus comme de haut niveau, les structures de bout-en-bout utiles pour la prise de décision et de normaliser la façon dont les choses se font dans une entreprise ou une organisation.

En revanche, les flux de travail sont axées sur les tâches et nécessitent souvent des données plus précises que les procédés. Les processus sont constitués d'un ou plusieurs flux de travail pertinents à l'objectif global du processus.

À bien des égards, les grands flux de données sont semblables à workflows standard. En fait, dans tous les flux de travail, les données est nécessaire dans les différentes phases pour accomplir les tâches. Considérons le flux de travail dans une situation de soins de santé.

Un flux de travail élémentaire est le processus de “ le prélèvement de sang ”. Dessin de sang est une tâche nécessaire requis pour compléter le processus de diagnostic global. Si quelque chose se passe et le sang n'a pas été établie ou que les données de ce test sanguin a été perdue, il sera un impact direct sur la véracité ou la véracité de l'activité globale.

Qu'advient-il lorsque vous introduisez un flux de travail qui dépend d'une source de données grand? Bien que vous pourriez être en mesure d'utiliser les flux de travail existants, vous ne pouvez pas supposer qu'un processus ou flux de travail fonctionnera correctement simplement en remplaçant une source de données grand pour une source standard. Cela peut ne pas fonctionner parce que les méthodes de traitement de données standard ne disposent pas des approches de traitement ou de performances pour gérer la complexité des données importantes.

L'exemple de la santé met l'accent sur la nécessité de procéder à une analyse après que le sang est tiré du patient. Dans le flux de données standard, le sang est dactylographiée et puis certains tests chimiques sont effectuées sur la base des exigences de la praticien de la santé.

Il est peu probable que ce flux de travail comprend les tests requis pour l'identification de biomarqueurs spécifiques ou des mutations génétiques. Si vous avez fourni des sources de données pour de grandes biomarqueurs et des mutations, le flux de travail serait un échec. Il ne connaît pas les données de grandes et devront être modifiées ou réécrites pour soutenir les grandes données.

La meilleure pratique pour comprendre les flux de travail et l'effet de Big Data est de faire ce qui suit:

Identifier les sources de données de grandes vous avez besoin d'utiliser.
Cartographier les types de données à vos grands types de données de flux de travail.
Assurez-vous que vous avez la vitesse de traitement et l'accès de stockage pour soutenir votre flux de travail.
Sélectionnez la boutique la mieux adaptée aux types de données de données.
Modifier le flux de travail existant pour accueillir de grandes données ou créer de nouveaux flux de données grande.

Après vous avez vos grands flux de données, il sera nécessaire d'affiner ces afin qu'ils ne seront pas accabler ou de contaminer votre analyse. Par exemple, de nombreuses sources de données grands ne comprennent pas bien définies définitions de données et de métadonnées sur les éléments de ces sources. Parfois, ces sources de données ont pas été nettoyées. Vous devez vous assurer que vous avez le bon niveau de connaissances sur les sources que vous allez utiliser.

A propos Auteur

Entrepôt de données: flux de données source

Un entrepôt de données est, par sa nature même, un magasin physique de données distribuée. Répartition de vos actifs informationnels aide à la performance et la convivialité entre les systèmes et dans toute l'entreprise. Faire ce niveau de…

Comment assurer la validité, la véracité, et la volatilité des Big Data

Volume élevé, de haute gamme, et à grande vitesse sont les caractéristiques essentielles de gros volumes de données. Mais d'autres caractéristiques de gros volumes de données sont tout aussi importantes, en particulier lorsque vous appliquez…

Comment intégrer les données de grandes

Juste avoir accès à des sources de données grand ne suffit pas. Vous aurez besoin d'intégrer ces sources. Bientôt il y aura pétaoctets de données et des centaines de mécanismes d'accès pour vous de choisir. Mais qui ruisselle et quels types…

Identifier les données dont vous avez besoin pour votre Big Data

Faites l'inventaire du type de données que vous traitez avec votre grand projet de données. De nombreuses organisations reconnaissent que beaucoup de données générées en interne n'a pas été utilisé à son plein potentiel dans le passé.En…

Couche 3 de la grosse pile de données: l'organisation des services et des outils de données

L'organisation des services de données et des outils, couche 3 de la grosse pile de données, la capture, valider et assembler différents éléments de données dans de grandes collections contextuellement pertinents. Parce que Big Data est…

L'avenir des entrepôts de données à l'époque grand de données

Le marché de l'entrepôt de données a en effet commencé à changer et à évoluer avec l'avènement de grands volumes de données. Dans le passé, il était tout simplement pas rentable pour les entreprises de stocker la quantité massive de…

Meilleures pratiques pour grande intégration de données

Beaucoup d'entreprises explorent de gros problèmes de données et à venir avec des solutions innovantes. Il est maintenant temps de prêter attention à un certain les meilleures pratiques, ou principes de base, qui vous servira ainsi que vous…

Définition de gros volumes de données: le volume, la vitesse, et la variété

Big données permet aux entreprises de stocker, gérer et manipuler de grandes quantités de données disparates à la bonne vitesse et au bon moment. Pour gagner les bonnes idées, Big Data est généralement décomposé par trois…

La gestion des données d'entreprise et de grands volumes de données

Gestion des données de l'entreprise (GED) est un processus important dans les grandes données pour comprendre et contrôler l'économie des données de votre entreprise ou organisation. Bien que EDM est pas nécessaire pour les grandes données,…

Comment intégrer les données de grandes dans le diagnostic des maladies

Partout dans le monde, les sources de données pour de grands soins de santé sont créés et mis à disposition pour l'intégration dans les processus existants. Données d'essais cliniques, de la génétique et des données de mutation…

Jeter les bases de votre stratégie Big Data

Entreprises nagent dans les grandes données. Le problème est que souvent ils ne savent pas comment l'utiliser de manière pragmatique que les données pour être en mesure de prédire l'avenir, exécuter des processus d'affaires importants, ou…

Explorez la grande pile de données

Pour comprendre les grandes données, il permet de voir comment il se compare à - dire, de jeter les composants de l'architecture. Une grande architecture de gestion de données doit inclure une variété de services qui permettent aux entreprises…

Comment se connecter avec d'autres aliments, en utilisant les microblogs, et rss dans SharePoint

Vous pouvez suivre SharePoint se nourrit de l'onglet flux RSS. UN alimentation est un flux de contenu que vous suivez. Vous pouvez également accorder à des sites et des documents spécifiques en cliquant sur le bouton Suivre. Le bouton Suivre est…

Comment construire le rapport de composants de processus d'une analyse d'affaires

Votre analyse d'affaires devrait briser les exigences en quatre grands composants essentiels: Règles données, des processus, des agents externes / acteurs, et d'affaires. UN processus est quelque chose qu'une personne ou une chose ne reçoit que…

godiches.com » Ordinateurs et logiciels » Big Data » La science des données » Big workflows de données