Comment assurer la validité, la véracité, et la volatilité des Big Data

Volume élevé, de haute gamme, et à grande vitesse sont les caractéristiques essentielles de gros volumes de données. Mais d'autres caractéristiques de gros volumes de données sont tout aussi importantes, en particulier lorsque vous appliquez les données de grandes aux processus opérationnels. Cette deuxième série de “ V n ° 148; caractéristiques qui sont essentiels à l'opérationnalisation de grande données comprend

Sommaire

  • Validité: Sont les données correctes et précises pour l'utilisation prévue?

  • Veracity: Les résultats sont significatifs pour l'espace de problème donné?

  • Volatilité: Combien de temps avez-vous besoin de stocker ces données?

Big validité des données

Vous voulez des résultats précis. Mais dans les premières étapes de l'analyse des pétaoctets de données, il est probable que vous ne serez pas soucier de la façon valide chaque élément de données est. Ce flux initial de données de grandes pourrait en fait être assez sale. Dans les premiers stades, il est plus important de voir si des relations existent entre les éléments au sein de cette source de données massive que pour assurer que tous les éléments sont valables.

Cependant, après une organisation détermine que des parties de cette analyse initiale des données sont importantes, ce sous-ensemble de données de grande doit être validée car elle va maintenant être appliqué à un état opérationnel. Lorsque les données se déplace d'exploration à une action, les données doivent être validés. La validité des sources de données de grandes et analyse ultérieure doit être précis si vous êtes à utiliser les résultats pour la prise de décision.




Données d'entrée valides suivie par un traitement correct des données devraient donner des résultats précis. Avec de grandes données, vous devez être très vigilant à l'égard de la validité. Par exemple, dans les soins de santé, vous pouvez avoir des données d'un essai clinique qui pourrait être lié à des symptômes de la maladie d'un patient. Mais un médecin traitant de cette personne ne peut pas simplement prendre les résultats d'essais cliniques que sans les valider.

Imaginez que le satellite météorologique indique que la tempête commence dans une partie du monde. Comment cette tempête a un impact sur les individus? Avec environ un demi-milliard d'utilisateurs, il est possible d'analyser les flux Twitter pour déterminer l'impact d'une tempête sur les populations locales. Par conséquent, l'utilisation de Twitter en combinaison avec des données provenant d'un satellite météo pourrait aider les chercheurs à comprendre la véracité d'une prévision météorologique.

Big volatilité de données

Si vous avez des données valides et pouvez prouver la véracité des résultats, combien de temps les données doivent “ en direct ” pour satisfaire vos besoins? Dans un cadre de données standard, vous pouvez conserver les données pendant des décennies parce que vous avez, au fil du temps, construit une compréhension de ce que les données est important pour ce que vous faites avec lui. Vous avez établi des règles pour la monnaie et disponibilité des données qui correspondent à vos processus de travail.

Par exemple, certaines organisations pourraient ne garder que l'année la plus récente des données de leurs clients et des transactions dans leurs systèmes d'entreprise. Cela permettra d'assurer la récupération rapide de ces informations en cas de besoin. Si ils ont besoin pour regarder un an avant, l'équipe informatique peut être nécessaire de restaurer les données de stockage hors ligne pour honorer la demande. Avec de grandes données, ce problème est amplifié.

Si le stockage est limité, regarder les sources de données de grandes déterminer ce que vous avez besoin de recueillir et combien de temps vous avez besoin de le garder. Avec certaines sources de données gros, vous pourriez juste besoin de recueillir des données pour une analyse rapide.

Vous pouvez ensuite stocker les informations sur place pour un traitement ultérieur. Si vous ne disposez pas de suffisamment de stockage pour toutes ces données, vous pouvez traiter les données “ à la volée ” et ne garder que les éléments pertinents de l'information au niveau local. Combien de temps vous gardez grandes données disponibles dépend de quelques facteurs:

  • Combien de données est maintenue à la source?

  • Avez-vous besoin pour traiter les données de façon répétée?

  • Avez-vous besoin pour traiter les données, recueillir des données supplémentaires, et faire plus de transformation?

  • Avez-vous des règles ou des règlements exigeant le stockage de données?

  • Vos clients comptent sur vos données pour leur travail?

  • Est-ce que les données ont encore de la valeur ou est-il plus pertinent?

En raison du volume, de la variété, et la vitesse de grands volumes de données, vous devez comprendre la volatilité. Pour certaines sources, les données seront toujours consé- pour d'autres, ce ne est pas le cas. Comprendre ce que les données sont là-bas et pour combien de temps peut vous aider à définir les besoins et les politiques de rétention pour les grandes données.

En tant que consommateur, grandes données aideront à définir un meilleur profil pour savoir comment et quand vous achetez des produits et services. Comme un patient, grandes données aideront à définir une approche plus personnalisée aux traitements et à l'entretien de la santé. En tant que professionnel, les grandes données vous aideront à trouver de meilleures façons de concevoir et de livrer vos produits et services.

Cela ne se produira lorsque Big Data est intégré dans les processus d'exploitation des entreprises et des organisations.


» » » » Comment assurer la validité, la véracité, et la volatilité des Big Data