Caractéristiques d'un grand cadre d'analyse de données

Même si de nouveaux ensembles d'outils continuent d'être disponibles pour vous aider à gérer et analyser votre cadre grand de données plus efficacement, vous ne pouvez pas être en mesure d'obtenir ce que vous avez besoin. En outre, une gamme de technologies peut soutenir grande analyse des données et des exigences telles que la disponibilité, l'évolutivité et la haute performance. Certains de ces comprennent de grands appareils de données, bases de données en colonnes, des bases de données en mémoire, des bases de données non relationnelles, et les moteurs de traitement massivement parallèle.

Alors, quels sont les utilisateurs professionnels à la recherche de quand il vient à grande analyse des données? La réponse à cette question dépend de la nature du problème de l'entreprise qu'ils tentent de résoudre. Quelques considérations importantes que vous sélectionnez un cadre d'analyse de la grande demande de données sont les suivantes:

  • Support pour plusieurs types de données: De nombreuses organisations intègrent, ou attendent d'intégrer, tous les types de données dans le cadre de leurs grands déploiements de données, y compris des données structurées, semi-structurées, et non structurées.

  • Manipulez le traitement par lots et / ou des flux de données en temps réel: Action orientation est un produit de l'analyse sur les flux de données en temps réel, tandis que la décision d'orientation peut être servi de façon adéquate par le traitement par lots. Certains utilisateurs auront besoin à la fois, à mesure qu'ils évoluent pour inclure différentes formes d'analyse.

  • Utiliser ce qui existe déjà dans votre environnement: Pour obtenir le bon contexte, il peut être important de tirer parti des données et des algorithmes existants dans le grand cadre de l'analyse de données.

  • Soutenir NoSQL et d'autres formes plus récentes de l'accès aux données: Alors que les organisations continueront à utiliser SQL, beaucoup cherchent également à de nouvelles formes d'accès aux données à l'appui des temps de réponse plus rapides ou plus rapides à la décision.

  • Surmonter faible latence: Si vous allez avoir affaire à la vitesse de données élevée, vous allez avoir besoin d'un cadre qui peut appuyer les exigences en matière de vitesse et de performance.

  • Fournir un stockage pas cher: Signifie Big données potentiellement beaucoup de rangement - en fonction de la quantité de données que vous souhaitez traiter et / ou garder.

  • Intégration avec les déploiements cloud: Le nuage peut fournir le stockage et calculer la capacité à la demande. De plus en plus d'entreprises utilisent le nuage comme une analyse “. Sandbox ” De plus en plus, le nuage est en train de devenir un modèle de déploiement important d'intégrer les systèmes existants avec des déploiements cloud dans un modèle hybride.

Bien que toutes ces caractéristiques sont importantes, la valeur perçue et réelle de créer des applications à partir d'un cadre est plus rapide temps de déploiement. Avec toutes ces capacités à l'esprit, envisager un grand cadre de l'application de l'analyse des données à partir d'une société appelée continuité.




La continuité AppFabric est un cadre soutenant le développement et le déploiement de grandes applications de données. Le AppFabric lui-même est un ensemble de technologies spécifiquement conçues pour abstraire les caprices des grandes technologies de données de bas niveau. Le générateur d'application est un plug-in Eclipse permettant au développeur de créer, tester et déboguer localement et dans un environnement familier.

AppFabric capacités sont notamment les suivantes:

  • Soutien Stream pour l'analyse en temps réel et la réaction

  • API unifiée, éliminant le besoin d'écrire à de grandes infrastructures de données

  • Interfaces de requête pour des résultats simples et un soutien pour les processeurs de requête enfichables

  • Les ensembles de données représentant des données interrogeables et des tables accessibles à partir de l'API unifiée

  • Lecture et écriture de données indépendantes des formats entrée ou de sortie ou spécificités de composants sous-jacents

  • Traitement des événements basé sur les transactions

  • Déploiement multimodal à un seul nœud ou le nuage

Cette approche va gagner du terrain pour le grand développement principalement en raison de la pléthore d'outils et les technologies nécessaires pour créer un environnement de données grande application de données.

Le manque de collaboration peut être coûteux à bien des égards. Les grandes organisations peuvent bénéficier d'outils qui favorisent les collaborations. Très souvent, les gens font un travail semblable ne sont pas conscients des efforts de chacun conduisant à reproduire le travail.

Un autre bon exemple d'un cadre d'application est OpenChorus. En plus du développement rapide des grandes applications d'analyse de données, il prend également en charge la collaboration et offre de nombreuses autres fonctionnalités importantes pour les développeurs de logiciels, comme l'intégration d'outils, contrôle de version, et la gestion de configuration.

Ouvrir Chorus est un projet maintenu par EMC Corporation et est disponible sous la licence Apache 2.0. EMC produit et prend en charge une version commerciale de Chorus également. Tant Ouvrir Chorus et de Chorus ont des réseaux de partenaires dynamiques ainsi que d'un grand nombre de contributeurs individuels et corporatifs.

Ouvrir Chorus est un cadre générique. Sa caractéristique principale est la possibilité de créer une commune “ hub ” pour le partage des sources de données volumineux, des idées, des techniques d'analyse, et des visualisations. Ouvrir Choeur prévoit ce qui suit:

  • Référentiel d'outils d'analyse, des artefacts et des techniques avec des versions complète, le suivi des modifications, et l'archivage

  • Les espaces de travail et des bacs à sable qui sont auto-provisionnés et facilement maintenu par des membres de la communauté

  • Visualisations, y compris les cartes de chaleur, des séries chronologiques, des histogrammes, etc.

  • La recherche fédérée de tout et de tous les actifs de données, y compris Hadoop, les métadonnées, les référentiels de données SQL et commentaires

  • Collaboration grâce à des fonctionnalités de réseautage sociaux comme encourageant la découverte, de partage et de remue-méninges

  • Extensibilité pour l'intégration de composants et de technologies tierces


» » » » Caractéristiques d'un grand cadre d'analyse de données