Big workflows de données

Pour comprendre les grands flux de données, vous devez comprendre ce qu'est un processus est et comment il concerne le flux de travail dans les environnements de données de manière intensive. Processus ont tendance à être conçus comme de haut niveau, les structures de bout-en-bout utiles pour la prise de décision et de normaliser la façon dont les choses se font dans une entreprise ou une organisation.

En revanche, les flux de travail sont axées sur les tâches et nécessitent souvent des données plus précises que les procédés. Les processus sont constitués d'un ou plusieurs flux de travail pertinents à l'objectif global du processus.

À bien des égards, les grands flux de données sont semblables à workflows standard. En fait, dans tous les flux de travail, les données est nécessaire dans les différentes phases pour accomplir les tâches. Considérons le flux de travail dans une situation de soins de santé.

Un flux de travail élémentaire est le processus de “ le prélèvement de sang ”. Dessin de sang est une tâche nécessaire requis pour compléter le processus de diagnostic global. Si quelque chose se passe et le sang n'a pas été établie ou que les données de ce test sanguin a été perdue, il sera un impact direct sur la véracité ou la véracité de l'activité globale.

Qu'advient-il lorsque vous introduisez un flux de travail qui dépend d'une source de données grand? Bien que vous pourriez être en mesure d'utiliser les flux de travail existants, vous ne pouvez pas supposer qu'un processus ou flux de travail fonctionnera correctement simplement en remplaçant une source de données grand pour une source standard. Cela peut ne pas fonctionner parce que les méthodes de traitement de données standard ne disposent pas des approches de traitement ou de performances pour gérer la complexité des données importantes.




L'exemple de la santé met l'accent sur la nécessité de procéder à une analyse après que le sang est tiré du patient. Dans le flux de données standard, le sang est dactylographiée et puis certains tests chimiques sont effectuées sur la base des exigences de la praticien de la santé.

Il est peu probable que ce flux de travail comprend les tests requis pour l'identification de biomarqueurs spécifiques ou des mutations génétiques. Si vous avez fourni des sources de données pour de grandes biomarqueurs et des mutations, le flux de travail serait un échec. Il ne connaît pas les données de grandes et devront être modifiées ou réécrites pour soutenir les grandes données.

La meilleure pratique pour comprendre les flux de travail et l'effet de Big Data est de faire ce qui suit:

  • Identifier les sources de données de grandes vous avez besoin d'utiliser.

  • Cartographier les types de données à vos grands types de données de flux de travail.

  • Assurez-vous que vous avez la vitesse de traitement et l'accès de stockage pour soutenir votre flux de travail.

  • Sélectionnez la boutique la mieux adaptée aux types de données de données.

  • Modifier le flux de travail existant pour accueillir de grandes données ou créer de nouveaux flux de données grande.

Après vous avez vos grands flux de données, il sera nécessaire d'affiner ces afin qu'ils ne seront pas accabler ou de contaminer votre analyse. Par exemple, de nombreuses sources de données grands ne comprennent pas bien définies définitions de données et de métadonnées sur les éléments de ces sources. Parfois, ces sources de données ont pas été nettoyées. Vous devez vous assurer que vous avez le bon niveau de connaissances sur les sources que vous allez utiliser.