Big data: la nécessité pour les métadonnées dans les flux de données

La plupart des grands professionnels de la gestion des données sont familiers avec la nécessité de gérer les métadonnées dans des environnements de gestion de base de données structurées. Ces sources de données sont fortement typés (par exemple, les dix premiers caractères sont le premier nom) et conçus pour fonctionner avec des métadonnées. Vous pourriez supposer que les métadonnées est inexistant dans les données non structurées, mais qui est pas vrai.

Sommaire

Typiquement, vous trouverez structure dans tout type de données. Prenons l'exemple de la vidéo. Bien que vous pourriez ne pas être en mesure de connaître exactement le contenu d'une vidéo spécifique, beaucoup de structure existe dans le format de ces données basés sur la vidéo. Si vous cherchez à texte non structuré, vous savez que les mots sont écrits en anglais et que si vous appliquez les bons outils, vous pouvez interpréter le texte.




En raison de cette entrée de métadonnées implicite à partir de données non structurées, il est possible d'analyser les informations en utilisant eXtensible Markup Language (XML). XML est une technique de présentation des fichiers texte non structurés avec des étiquettes significatives. La technologie sous-jacente est pas nouvelle et a été l'une des technologies de base pour la mise en œuvre de l'orientation service.

Exemples de produits pour des flux de données comprennent InfoSphere Streams d'IBM, la Tempête de Twitter, et le S4 de Yahoo.

Big data et IBM InfoSphere Streams

InfoSphere Streams fournit une analyse en continu des volumes massifs de données. Il est destiné à effectuer des analyses complexes de types de données hétérogènes, y compris le texte, images, audio, voix, VoIP, vidéo, trafic web, e-mail, les données GPS, les données sur les transactions financières, les données satellitaires, et des capteurs. InfoSphere Streams peuvent soutenir tous les types de données. Il peut effectuer en temps réel et de look-ahead analyse des données générées régulièrement, en utilisant le filtrage numérique, l'analyse motif / corrélation, et la décomposition ainsi que l'analyse géospatiale.

Big data et Storm Twitter

Storm Twitter est un moteur d'analyse en temps réel open source développé par une compagnie appelée BackType qui a été acquise par Twitter en 2011 en partie parce que Twitter utilise tempête interne. Il est toujours disponible en open source et a été gagne du terrain significative parmi les entreprises émergentes.

Il peut être utilisé avec n'importe quel langage de programmation pour les applications telles que les analyses en temps réel, le calcul continue, appels de procédure distante (RPC) distribués, et de l'intégration. Tempête est conçu pour fonctionner avec les technologies de file d'attente et de base de données existante. Les entreprises qui utilisent Tempête dans leurs grandes implémentations de données comprennent Groupon, Rocketfuel, Navisite et Oolgala.

Big data et Apache S4

Les quatre S's dans S4 tiennent pour Simple Scalable système streaming. Apache S4 a été développé par Yahoo! comme un usage général, distribuée, plate-forme évolutive, partiellement à tolérance de pannes, enfichable qui permet aux programmeurs de développer facilement des applications pour le traitement des flux continus de données. La plate-forme de base est écrit en Java et a été libéré par Yahoo! en 2010.

Un an plus tard, il a été remis à Apache sous la licence Apache 2.0. Les clients qui envoient et reçoivent des événements peuvent être écrits dans n'importe quel langage de programmation. S4 est conçu comme un système hautement distribué. Le débit peut être augmenté linéairement en ajoutant des nœuds dans un cluster. La conception S4 est le mieux adapté pour les applications à grande échelle pour l'extraction de données et l'apprentissage de la machine dans un environnement de production.


» » » » Big data: la nécessité pour les métadonnées dans les flux de données