Modifier les produits de business intelligence pour gérer le Big Data

Les produits traditionnels de business intelligence sont pas vraiment conçus pour traiter les données volumineuses, ils peuvent nécessiter une certaine modification. Ils ont été conçus pour fonctionner avec des données hautement structurées, bien compris, souvent stockés dans un référentiel de données relationnelle et affichées sur votre ordinateur de bureau ou ordinateur portable. Cette analyse traditionnelle de business intelligence est généralement appliqué à des instantanés de données plutôt que la quantité totale de données disponibles. Ce qui est différent avec une grande analyse des données?

Sommaire

Big données de données

Big données est constitué des données structurées, semi-structurées, et non structurées. Vous avez souvent beaucoup de lui, et il peut être assez complexe. Quand vous pensez à analyser, vous devez être au courant des caractéristiques potentielles de vos données:

  • Il peut provenir de sources non fiables. Big analyse de données implique souvent l'agrégation des données à partir de diverses sources. Ceux-ci peuvent inclure des sources de données internes et externes. Comment fiables sont ces sources externes d'information? Par exemple, le niveau de confiance est de données de médias sociaux comme un tweet? L'information peut être provenant d'une source non vérifiée. L'intégrité de ces données doit être pris en compte dans l'analyse.

  • Il peut être sale. Sale données se réfère à des données inexactes, incomplètes ou erronées. Cela peut inclure la faute d'orthographe des mots: un capteur qui est cassé, pas correctement calibré, ou corrompu dans certains waypoint ou même les données dupliquées. Scientifiques de données débat sur où pour nettoyer les données - soit près de la source ou en temps réel.

    Bien sûr, une école de pensée dit que les données modifiées ne doivent pas être nettoyées du tout, car il peut contenir des valeurs aberrantes intéressants. La stratégie de nettoyage dépendra probablement de la source et le type de données et le but de votre analyse. Par exemple, si vous développez un filtre anti-spam, l'objectif est de détecter les mauvais éléments dans les données, de sorte que vous ne voulez pas de le nettoyer.




  • Le rapport signal sur bruit peut être faible. En d'autres termes, le signal (de l'information utilisable) ne peut être un petit pour cent de la de données le bruit est le reste. Être capable d'extraire un petit signal de données bruitées est partie de la prestation des grandes analyses de données, mais vous devez être conscient que le signal peut effectivement être très faible.

  • Il peut être en temps réel. Dans de nombreux cas, vous serez en essayant d'analyser les flux de données en temps réel.

Big gouvernance de données va être une partie importante de l'équation d'analyse. Sous l'analyse d'affaires, des améliorations devront être apportées à des solutions de gouvernance pour assurer la véracité provenant des nouvelles sources de données, d'autant plus qu'il est combiné avec confiance les données stockées dans un entrepôt existant. Des solutions de sécurité des données et de confidentialité doivent également être améliorée pour supporter la gestion / régissant grandes données stockées dans les nouvelles technologies.

Grands algorithmes de données analytiques

Lorsque vous envisagez de grandes analyses de données, vous devez être conscient que lorsque vous développez au-delà du bureau, les algorithmes que vous utilisez souvent besoin d'être remaniée, changer le code interne sans affecter son fonctionnement externe. La beauté d'une infrastructure de données est grande que vous pouvez exécuter un modèle qui permet de prendre des heures ou des jours en quelques minutes.

Cela vous permet d'itérer sur les centaines de modèles de fois. Toutefois, si vous utilisez une régression sur un milliard de lignes de données à travers un environnement distribué, vous devez tenir compte des exigences en matière de ressources relatives au volume des données et son emplacement dans le cluster. Vos algorithmes doivent être orientés données.

En outre, les fournisseurs commencent à offrir de nouvelles analyses destinés à être placés à proximité des sources de données grands pour analyser les données en place. Cette approche de l'exécution des analyses plus près des sources de données réduit la quantité de données stockées en ne retenant que les données de grande valeur. Il est également vous permet d'analyser les données plus tôt, ce qui est essentiel en temps réel la prise de décision.

Bien sûr, l'analyse continueront d'évoluer. Par exemple, vous pourriez avoir besoin des capacités de visualisation en temps réel pour afficher les données en temps réel qui est en constante évolution. Comment pouvez-vous tracer pratiquement un milliard de points sur un terrain de graphique? Ou, comment vous travaillez avec les algorithmes prédictifs afin qu'ils réalisent assez vite et assez profond pour l'analyse utilisent une constante expansion, ensemble complexe de données faites? Ceci est un domaine de recherche actif.

Big soutien de l'infrastructure de données

Qu'il suffise de dire que si vous êtes à la recherche d'une plate-forme, il a besoin pour atteindre les objectifs suivants:

  • Intégrer les technologies: L'infrastructure doit intégrer les nouvelles technologies grandes de données avec les technologies traditionnelles pour être en mesure de traiter toutes sortes de gros volumes de données et de la rendre consommable par analyse traditionnelles.

  • Stocker de grandes quantités de données disparates: Un système Hadoop entreprise durcie peut être nécessaire qui peut traiter / magasin / gérer de grandes quantités de données au repos, si elle est structurée, semi-structurée ou non structurée.

  • Les données de process en mouvement: Une capacité de flux-calcul peut être nécessaire pour traiter les données en mouvement qui est continuellement produites par des capteurs, des appareils intelligents, vidéo, audio, et les journaux pour soutenir en temps réel la prise de décision.

  • Les données de l'entrepôt: Vous devrez peut-être une solution optimisée pour les charges de travail d'analyse opérationnels ou profondes pour stocker et gérer les quantités croissantes de données de confiance.

Et bien sûr, vous avez besoin de la capacité d'intégrer les données que vous avez déjà en place ainsi que les résultats de la grande analyse de données.


» » » » Modifier les produits de business intelligence pour gérer le Big Data