Les ensembles de données qui comprennent des dates

Vous rencontrez très rarement un ensemble de données qui ne comprend pas les dates. Achetez des dates, des dates de naissance, des dates de mise à jour, les dates de devis, et la liste continue. Dans presque tous les contextes, une sorte de date est nécessaire pour obtenir une image complète de la situation que vous essayez d'analyser.

Sommaire

Traiter avec des dates peut être un peu difficile, en partie à cause de la variété de façons de les stocker. Mais aussi, en fonction de ce que vous essayez de le faire, vous pouvez seulement besoin d'une partie de la date. Voici quelques situations courantes à regarder dehors pour.

Traiter avec les formats de datetime

Pour commencer, la plupart des systèmes de gestion de base de données ont une façon extrêmement précise les dates de stocker en interne: ils utilisent un datetime. Ceci est exactement ce que cela ressemble: un mashup de la date et l'heure. Par exemple, un format commun ressemble à ceci:

2014-11 - 2414: 25: 44

Cela signifie que 25 minutes et 44 secondes passées 14 heures sur 24 Novembre 2014.

Le détail apparemment excessive ici est rarement pleinement utilisé. De loin l'utilisateur le plus fréquent de la pleine détail est le système de gestion de base de données elle-même. Il est une pratique courante pour les bases de données de mettre un timbre datetime sur chaque enregistrement pour indiquer quand le dossier a été créé et quand il était dernière mise à jour. Les systèmes Bourse de New York gardent effectivement la trace des estampilles temporelles de commerce pour encore plus de précision.

Pour la plupart des applications analytiques, cependant, cela est plus détaillée que vous voulez.




Si vous analysez le cours de clôture d'une action au fil du temps, vous ne serez pas intéressé par plus que juste le jour ou peut-être le mois associé à chaque cours de clôture. Si vous faites une analyse démographique des distributions d'âge, l'année de naissance peut être tout ce qui est pertinent.

Les dates de naissance sont un bon exemple de quelque chose que vous pouvez rencontrer avec les données datetime. Même si les données peuvent être stockées dans un champ datetime, il peut être le cas que seule une partie du champ est vraiment utilisé. Les dates de naissance ont généralement la portion de temps par défaut 00:00:00 pour chaque enregistrement.

Heureusement, les deux systèmes de base de données et des logiciels d'analyse ont intégré dans les fonctions qui vous permettent d'extraire uniquement la partie de l'datetime qui est pertinente pour vous. Vous pouvez choisir d'extraire uniquement la partie de date, seul le mois et l'année, seule l'année, et ainsi de suite. Et en fait, ce qui est souvent fait pour vous avant que vous ne voyez les données.

Prenant en compte la géographie

Dans le nouveau monde de l'économie mondiale, vous rencontrerez probablement des données qui ont été recueillies à partir de nombreux endroits différents. Quiconque a déjà essayé de planifier une conférence téléphonique internationale est bien consciente de la logistique impliquée dans le traitement de plusieurs fuseaux horaires. De plus en plus fréquent de nos jours sont la conférence post-minuit appelle avec l'Inde.

Un exemple typique grandes de données implique la gestion de la chaîne d'approvisionnement. Gestion de l'approvisionnement est un processus continu d'essayer de gérer les matières premières, les stocks, la distribution et tout autre aspect pertinent de l'activité d'une entreprise. Il est comment Walmart garde étagères stockés, comment UPS assure le suivi des colis, et comment Amazon parvient à offrir presque tout imaginables presque partout.

Dans ces exemples, l'analyse qui sous-tend la gestion de la chaîne d'approvisionnement doit tenir compte du fait que des données provient des fuseaux horaires différents. Lorsqu'ils sont confrontés à ce genre de situations, les données datetime doivent être traitées avec précaution.

Supposons qu'un colis est expédié de la Californie à 10 heures le mercredi et est livré à sa destination finale à New York le jeudi à 10 heures Si vous êtes intéressés par l'analyse des délais de livraison, vous devez prendre en compte le changement de fuseau horaire. Dans cet exemple, le délai de livraison est en fait de 21 heures, et non 24.

Lorsque vous traitez avec des données datetime recueillies auprès de différents fuseaux horaires, vous ne pouvez pas simplement comparer les différents points de données sur la base des données brutes. Vous devez d'abord vous assurer que tous les datetimes sont représentés dans un fuseau horaire commun. Fuseau horaire que vous utilisez est quelque peu arbitraire, tant que tous les points de données utilisent le même.

Il ya un autre géographiquement - ou, pour être plus précis, culturellement - fait lié que vous devez être au courant. Tous les pays ne représentent dates de la même façon. Les États-Unis est en fait assez unique dans la représentation des dates au format mois / jour / année. Canada et la plupart de l'Europe préfèrent utiliser le jour de congrès / mois / année. Vous pouvez également courir à travers les variations compter de l'année.

Comment votre logiciel pense dates

Les dates sont utilisés dans une variété de façons dans l'analyse de données. Parfois, comme avec l'analyse du prix des actions, leur fonction première est de mettre les observations dans l'ordre du premier au dernier. Mais dans d'autres cas, ils sont utilisés pour mesurer des intervalles de temps.

En ingénierie, notamment dans les applications de contrôle de la qualité, une statistique clé est temps à l'échec signifie. Cela est tout simplement la durée de vie moyenne d'une partie ou d'un produit. Pour les produits à long terme, comme les pièces automobiles et les ampoules, ce calcul nécessite la comparaison des dates.

Sur le visage de celui-ci, le 15 Août, 2013 moins 1 Janvier, 2010 ne prend pas beaucoup de sens mathématique. Nous savons tous ce que l'on entend par cela, mais il faut un peu de réflexion pour obtenir la réponse. Pour cette raison, de nombreux progiciels statistiques, lorsqu'ils sont confrontés avec les dates, les convertir immédiatement dans un certain nombre dans le but de faciliter les comparaisons. Ils le font en choisissant un point de départ et de calculer le nombre de jours entre ce point de départ et la date qui est converti.

Par exemple, un grand fabricant de logiciels statistiques, SAS, utilise la date du 1er Janvier, 1960 comme point de départ. Cette date a la valeur 0. Il stocke chaque date que le nombre de jours, il est loin de ce point de départ. Ainsi, SAS pense de 1 Janvier, 1961, 366 (rappelez-vous 1960 a été une année bissextile, et le 1er Janvier est le jour 0, pas jour 1). Le point de départ est les fabricants de logiciels arbitraires et utilisent différents points de départ différents, mais l'idée est la même.

Une conséquence impair de cette convention est que si vous regardez les données brutes, non seulement sont toutes les dates entiers, mais ils ne sont même pas à être des nombres entiers positifs. Dans l'exemple SAS 1 Janvier, 1959 serait représentée comme -365.

En tout cas, cette façon de dates manipulation facilite les calculs. En convertissant la date d'un certain nombre sur l'entrée, le système évite d'avoir à sauter à travers des cerceaux à chaque fois un calcul impliquant cette date est effectué.


» » » » Les ensembles de données qui comprennent des dates