Couche 4 de la grande pile de données: les entrepôts de données analytiques

L'entrepôt de données, couche 4 de la grande pile de données, et de son compagnon de l'entrepôt de données, ont longtemps été les principales techniques que les organisations utilisent pour optimiser les données pour aider les décideurs. Typiquement, les entrepôts de données et des marchés contiennent des données normalisées recueillies auprès de diverses sources et assemblés pour faciliter l'analyse de l'entreprise.

Les entrepôts de données et des marchés simplifient la création de rapports et la visualisation des éléments de données disparates. Ils sont généralement créés à partir de bases de données relationnelles, bases de données multidimensionnelles, fichiers plats, bases de données et d'objets - essentiellement toute l'architecture de stockage. Dans un environnement traditionnel, où la performance ne peut pas être la plus haute priorité, le choix de la technologie sous-jacente est entraînée par les exigences de l'analyse, de reporting et de visualisation des données de l'entreprise.

Comme l'organisation des données et sa disponibilité pour l'analyse sont la clé, les implémentations de la plupart des entrepôts de données sont tenues à jour par l'intermédiaire d'un traitement par lots. Le problème est que les entrepôts de données à chargement discontinu et data marts peuvent être insuffisantes pour de nombreuses applications de données volumineux. La contrainte imposée par des flux de données à grande vitesse exigera probablement une approche plus en temps réel aux grands entrepôts de données.

Cela ne signifie pas que vous ne serez pas la création et l'alimentation d'un entrepôt de données analytique ou un dépôt de données avec des procédés discontinus. Au contraire, vous pouvez finir par avoir des entrepôts de données ou data marts multiple, et la performance et l'échelle sera le reflet des exigences de temps des analystes et des décideurs.

Parce que de nombreux entrepôts de données et de data marts sont constitués de données recueillies auprès de diverses sources dans une entreprise, les coûts associés à la purification et la normalisation des données doivent également être abordés. Avec de grandes données, vous trouverez quelques différences importantes:




  • Flux de données traditionnels (issus de transactions, des applications, et ainsi de suite) peuvent produire beaucoup de données disparates.

  • Des dizaines de nouvelles sources de données existent également, chacun d'eux nécessitant un certain degré de manipulation avant qu'il peut être opportun et utile à l'entreprise.

  • Sources de contenu devront également être nettoyés, et ceux-ci peuvent nécessiter différentes techniques que vous pouvez utiliser avec des données structurées.

Historiquement, le contenu d'entrepôts de données et de data marts ont été organisés et dispensés aux dirigeants d'entreprises en charge de la stratégie et de la planification. Avec big data, une nouvelle série d'équipes mettent à profit des données pour la prise de décision.

Beaucoup de grandes implémentations de données offrent des capacités en temps réel, afin que les entreprises doivent être en mesure de fournir du contenu pour permettre aux personnes ayant des rôles opérationnels pour traiter des questions telles que le soutien à la clientèle, des opportunités de vente, et les interruptions de service en temps quasi réel. De cette façon, Big Data permet de déplacer l'action depuis le back office au front office.

Des outils et des techniques d'analyse existantes seront très utiles pour donner un sens de grands volumes de données. Cependant, il ya un hic. Les algorithmes qui font partie de ces outils doivent être en mesure de travailler avec de grandes quantités de potentiellement en temps réel et des données disparates. L'infrastructure devra être en place à l'appui.

Et, les vendeurs fournissant des outils d'analyse devront aussi veiller à ce que leurs algorithmes fonctionnent à travers des implémentations distribués. En raison de ces complexités, attendre à une nouvelle classe d'outils pour aider à faire sens de grands volumes de données.

Il existe trois catégories d'outils de cette couche de l'architecture de référence. Ils peuvent être utilisés indépendamment ou collectivement par les décideurs pour aider à orienter l'entreprise. Les trois classes d'outils sont les suivantes:

  • Reporting et tableaux de bord: Ces outils fournissent une représentation "user-friendly" de l'information provenant de diverses sources. Bien que l'un des piliers dans le monde traditionnel de données, ce domaine est encore en évolution pour les grandes données. Certains de ces outils qui sont utilisés sont traditionnels qui peuvent désormais accéder aux nouveaux types de bases de données NoSQL collectivement appelés (Not Only SQL).

  • Visualisation: Ces outils sont la prochaine étape dans l'évolution des rapports. La sortie a tendance à être hautement interactive et dynamique dans la nature. Une autre distinction importante entre les rapports et la sortie est visualisé l'animation. Les utilisateurs professionnels peuvent observer les changements dans les données en utilisant une variété de différentes techniques de visualisation, y compris des cartes mentales, des cartes de chaleur, des infographies et des schémas de raccordement. Rapports et la visualisation se produisent à la fin de l'activité de l'entreprise.

  • Analytics et d'analyse avancées: Ces outils atteignent dans l'entrepôt de données et traitent les données pour la consommation humaine. Des analyses avancées devraient expliquer des tendances ou des événements qui sont transformatrice, unique, ou révolutionnaire à la pratique d'entreprise existant. L'analyse prédictive et d'analyse de sentiment sont de bons exemples de cette science.


» » » » Couche 4 de la grande pile de données: les entrepôts de données analytiques