Formules statistiques importantes pour Big Data
Le mot statistiques
Sommaire
Statistiques est la pratique ou la science de la collecte de données numériques en grandes quantités. Vous ne disposez pas de sortir et de devenir un scientifique de données (un terme utilisé pour les statisticiens qui sont aussi des geeks de données dans le déguisement et qui détiennent généralement un certain type de diplôme d'études supérieures, comme un doctorat), mais vous voudrez peut-être envisager de ramasser un livre ou 101 classe Statistiques Si vous avez tout intérêt.
Des formules statistiques telles que la probabilité, variance, et les prévisions sont très populaires aujourd'hui. Ils sont assez faciles à appliquer à un ensemble de données, et la plupart des lecteurs seront les comprendre clairement. Vous pouvez intégrer certaines de ces formules statistiques dans vos visualisations de données pour fournir Big vraie valeur pour les utilisateurs en utilisant les techniques décrites dans les sections suivantes.
La connaissance de la probabilité qu'un événement se produise
Une formule statistique que vous connaissez peut-être est probabilité - la probabilité ou la chance qu'un événement peut se produire. La formule suivante calcule la probabilité de base pour un scénario linéaire. (Scénarios non linéaires sont un peu complexe et trop d'une entreprise pour un débutant.)
Probabilité = probabilité qu'un événement se produise / nombre de résultats possibles
La figure suivante montre une probabilité avec certaines couleurs alerte ajouté pour rendre le message facile à lire et, plus important, pour indiquer clairement que l'action immédiate est nécessaire.
Probabilités fournir une vérification de la réalité rapide et donnent le ton global pour l'histoire de la visualisation de données fournira pendant une période donnée (jour, semaine, quart, et ainsi de suite).
L'application de la variance pour montrer l'ampleur du changement
Une autre mesure statistique populaire est variance, qui est la différence entre un ensemble de points de données.
La formule la plus couramment utilisée pour le calcul de la variance est
Variance = final désiré - État actuel
Que la sortie affichée est un nombre ou pourcentage entier, la formule montre l'ampleur du changement entre le début et la fin d'un état de point de données.
Affichage de la variance est toujours une victoire rapide et un excellent substitut pour la ligne / bar chart combo, qui est la façon dont la relation de la variance est affiché dans la plupart des visualisations.
Le tableau dans la figure ci-dessous montre une ligne / bar chart combo qui permet à l'utilisateur de déchiffrer la variance pour chaque mois.
Le deuxième tableau, montré dans la figure suivante, trace clairement la variance et prend toutes les conjectures sur le visuel.
Prévoir l'avenir
Pourtant, une autre formule statistique populaire que vous connaissez peut-être est le Forecast, qui est l'acte de prédire ou estimer un événement ou une tendance.
Lorsque vous calculez une prévision, vous êtes vraiment en utilisant un certain nombre de données historiques pour prédire le comportement, un événement spécifique, ou une tendance. Par exemple, vous pouvez calculer les ventes pour l'année sur la base du fait historique que Janvier représente généralement 5% des ventes. Si vous avez fait 500 $ de ventes en Janvier alors vous utilisez la formule suivante pour prévoir combien de ventes que vous pouvez anticiper pour l'année:
500 $ / 0,05 = 10 000 $
Dans cette équation, 500 $ est les ventes en janvier à 0,05 est le pourcentage historique de ventes qui représente Janvier lucratif et 10 000 $ est la prévisions de ventes pour l'année.
La figure ci-dessous montre comment les prévisions sont affichés dans la plupart des visualisations de données comme une simple ligne dans un tableau. Les prévisions indiquent comment une activité donnée peut effectuer à l'avenir.