Comment enregistrer des données numériques pour biostatistique

Pour les données numériques, la question principale est de savoir combien de précision pour enregistrer. Enregistrement d'une variable numérique à autant de décimales que vous avez disponible est généralement préférable.

Par exemple, si une échelle peut mesurer le poids du corps à l'1/10 plus proche d'un kilogramme, l'enregistrer dans la base de données à ce degré de précision. Vous pouvez toujours arrondir au kilogramme près plus tard, si vous voulez, mais vous ne pouvez jamais "non circulaire" un certain nombre de récupérer chiffres que vous avez pas enregistrer en premier lieu.

Mais ne pas aller trop loin dans cette direction - ne pas enregistrer l'indice de masse corporelle d'une personne (IMC) comme 28.648832 kilogrammes / mètre carré, même si votre calculatrice a produit le résultat d'une telle précision ridicule.

Dans le même sens, faire des données numériques pas grouper en intervalles lors de l'enregistrement. Si vous connaissez l'âge d'une personne en années, puis les enregistrer comme le nombre réel de ans- ne enregistrer en intervalles de 10 ans (de 0 à 9, 10 à 19, et ainsi de suite). Vous pouvez toujours avoir l'ordinateur faire ce genre de groupement intervalle plus tard, mais vous ne pourrez jamais récupérer l'âge en années, si tout ce que vous enregistré était la décennie.

Certains programmes vous permettent de choisir entre plusieurs modes de représentation interne du nombre dans l'ordinateur. Le programme peut se référer à ces différents modes de stockage en utilisant des termes obscurs comme court, long ou très long entiers (nombres entiers) ou simple précision (court) ou double précision (long) point flottant (chiffres partiels). Chaque type a ses propres limites, qui peuvent varier d'un programme à l'autre ou d'un type d'ordinateur à un autre.




Par exemple, un entier court pourrait être en mesure de représenter uniquement des nombres entiers dans la gamme -32768 à 32767, tandis que le numéro un double précision en virgule flottante pourrait facilement gérer un nombre comme 1,23456789012345 x 10250.

Dans les temps anciens, le choix judicieux des modes de stockage pour vos variables pourrait produire des fichiers plus petits et de laisser le programme de travail avec plus de sujets ou plusieurs variables. Aujourd'hui, le stockage est beaucoup moins un problème que l'habitude d'être, donc pincer pennies cette façon offre peu d'avantages.

Aller pour la représentation numérique plus général disponibles - souvent en double précision en virgule flottante, qui peut représenter à peu près tout numéro que vous pouvez rencontrerez jamais dans votre recherche.

Voici quelques choses à surveiller lors de la saisie des données numériques dans Excel:

  • Ne mettez pas deux numéros (comme une lecture de la pression artérielle de 135/85 mm Hg) dans une colonne de données. Excel va pas se plaindre, mais il sera le traiter comme du texte en raison de l'embarqué "/", plutôt que comme des données numériques. Au lieu de cela, créez deux variables distinctes - comme les pressions systolique et diastolique (peut-être appelés BPS pour systolique artérielle et BPD pour diastolique de la pression sanguine) - Et entrer chaque numéro dans la variable appropriée.

  • Dans une base de données d'obstétrique, ne pas entrer 6w2d pour un âge gestationnel de 6 semaines et 2 jours- pire encore, ne pas entrer comme 6,2, dont l'ordinateur interpréterait comme 6,2 semaines. Soit entrer comme 44 jours, ou de créer deux variables (peut-être Badauds pour semaines d'âge gestationnel et GAdays pour jours d'âge gestationnel), Pour contenir les valeurs 6 et 2, respectivement.

    L'ordinateur peut facilement combiner plus tard dans le nombre de jours ou le nombre de semaines (et des fractions d'une semaine).

Il ya une exception importante à cette "ne pas entasser deux choses en une seule colonne« règle - Si vous enregistrez à la fois la date et l'heure d'un événement unique (comme "né le 15 Février 2006, à 08h56 dans la soirée" ), alors vous devrait enregistrer à la fois la date et l'heure comme une variable unique! Voir l'article sur Saisie date et l'heure des données pour plus de détails.

Les données manquantes numérique nécessite un peu plus de réflexion que les données manquantes catégoriques. Certains chercheurs utilisent 99 (ou 999, ou 9999) pour indiquer une valeur manquante. Si vous utilisez cette technique, vous devez vous assurer que tous vos analyses ignorent ces valeurs. Heureusement, plusieurs programmes statistiques vous permettent de spécifier ce que l'indicateur de valeur manquante est pour chaque variable, et les programmes ne comprennent pas les valeurs de toutes les analyses.

Mais pouvez-vous vraiment être sûr que vous allez jamais avec cette valeur pop up comme une valeur réelle pour un sujet très atypique? (Certaines personnes sont vieux de 99 ans, et certaines personnes pouvoir une valeur de glycémie de 999 mg / dL). Il suffit de laisser la cellule vide peut être les mieux presque tous les programmes traitent des cellules vides que les données manquantes et de les ignorer dans les calculs.


» » » » Comment enregistrer des données numériques pour biostatistique