Bases de calcul distribué pour Big Data

Si votre entreprise envisage un grand projet de données, il est important que vous compreniez quelques notions de base de calcul distribué en premier. Il n'y a pas un seul modèle de calcul distribué parce que les ressources informatiques peuvent être distribuées à de nombreux égards.

Sommaire

Par exemple, vous pouvez distribuer un ensemble de programmes sur le même serveur physique et utiliser les services de messagerie pour leur permettre de communiquer et de transmettre des informations. Il est également possible d'avoir de nombreux systèmes différents ou des serveurs, chacun avec sa propre mémoire, qui peuvent travailler ensemble pour résoudre un problème.

Pourquoi l'informatique distribuée est nécessaire pour Big Data

Pas tous les problèmes exigent l'informatique distribuée. Si une grande contrainte de temps ne existe pas, un traitement complexe peut faire par l'intermédiaire d'un service spécialisé à distance. Lorsque les entreprises avaient besoin de faire l'analyse de données complexes, il serait déplacer les données vers un service externe ou une entité dont beaucoup de ressources de rechange étaient disponibles pour le traitement.

Ce ne fut pas que les entreprises voulaient attendre pour obtenir les résultats qu'ils besoin- juste était pas économiquement faisable pour acheter des ressources informatiques suffisantes pour gérer ces nouvelles exigences. Dans de nombreuses situations, les organisations devraient capturer uniquement des sélections de données plutôt que d'essayer de capturer toutes les données en raison des coûts. Les analystes voulu toutes les données, mais a dû se contenter pour les instantanés, espoir de capturer les bonnes données au bon moment.




Percées de matériels et logiciels clés révolutionné l'industrie de la gestion des données. Tout d'abord, l'innovation et la demande a augmenté la puissance et ont diminué le prix du matériel. Nouveau logiciel est apparu que comprendre comment tirer parti de ces matériels par des processus tels que l'équilibrage de charge et l'optimisation automatisant travers une énorme grappe de nœuds.

Le logiciel inclus règles intégrées qui ont compris que certaines charges de travail nécessaires à un certain niveau de performance. Le logiciel traite tous les noeuds comme si elles étaient tout simplement une grande piscine de l'informatique, de stockage et de réseaux actifs, et déplacés processus à un autre nœud sans interruption si un noeud a échoué, en utilisant la technologie de la virtualisation.

L'évolution de l'économie informatique et Big Data

Avance rapide et a beaucoup changé. Au cours des dernières années, le coût pour acheter des ressources de calcul et de stockage a considérablement diminué. Aidé par la virtualisation, les serveurs des produits de base qui pourraient être regroupés et les lames qui pourraient être mises en réseau dans un rack modifié l'économie de l'informatique. Ce changement a coïncidé avec l'innovation dans les solutions d'automatisation de logiciels qui a considérablement amélioré la maniabilité de ces systèmes.

La capacité de l'effet de levier informatique distribuée et les techniques de traitement en parallèle considérablement transformé le paysage et de réduire considérablement la latence. Il ya des cas spéciaux, tels que High Frequency Trading (HFT), dans laquelle une faible latence ne peut être atteint par les serveurs de localisation physiquement en un seul endroit.

Le problème avec une latence pour les Big Data

L'un des problèmes récurrents avec la gestion des données - en particulier les grandes quantités de données - a été l'impact de la latence. Latence est le retard dans un système basé sur des retards d'exécution d'une tâche. La latence est un problème dans tous les aspects de l'informatique, y compris les communications, la gestion de données, la performance du système, et plus encore.

Si vous avez déjà utilisé un téléphone sans fil, vous avez connu la latence de première main. Il est le retard dans les transmissions entre vous et votre interlocuteur. À certains moments, la latence a peu d'impact sur la satisfaction du client, comme si les entreprises ont besoin pour analyser les résultats dans les coulisses pour planifier une nouvelle version du produit. Probablement Cela ne nécessite pas une réponse instantanée ou d'accès.

Cependant, plus que la réponse est à un client au moment de la décision, plus que les questions de latence.

L'informatique distribuée et les techniques de traitement parallèles peuvent faire une différence significative dans la latence constatée par les clients, les fournisseurs et les partenaires. De nombreuses applications de données volumineux sont tributaires de faible latence en raison des exigences de données pour de grandes vitesse et le volume et la variété des données.

Il ne peut être possible de construire une application grand de données dans un environnement à forte latence si haute performance est nécessaire. La nécessité de vérifier les données en temps quasi réel peut également être affecté par la latence. Lorsque vous traitez avec des données en temps réel, un niveau élevé de latence signifie la différence entre le succès et l'échec.

Big demande de données répond solutions

La croissance de l'Internet comme une plate-forme pour tout, depuis le commerce à la médecine a transformé la demande pour une nouvelle génération de gestion des données. Dans les années 1990, des moteurs et de sociétés Internet comme Google, Yahoo !, et Amazon.com ont réussi à développer leurs modèles d'affaires, tirant parti du matériel peu coûteux pour l'informatique et le stockage.

Ensuite, ces entreprises avaient besoin d'une nouvelle génération de technologies logicielles qui leur permettront de monétiser les énormes quantités de données qu'ils capturaient des clients. Ces entreprises ne pouvaient pas attendre les résultats du traitement analytique. Ils avaient besoin de la capacité de traiter et d'analyser ces données en temps quasi réel.


» » » » Bases de calcul distribué pour Big Data