Comment recueillir des données catégoriques en biostatistique

Configuration de vos formulaires de collecte de données et tables de base de données pour les données catégorielles nécessite plus de réflexion que vous pouvez vous attendre. Tout le monde suppose qu'il sait comment enregistrer et entrer les données catégorique - vous tapez simplement ce que les données (par exemple, Homme, blanc, diabète,

Sommaire

ou Mal de tête), droit? Bad hypothèse!

Des catégories de codes avec précaution

La première question est de savoir comment "code" les catégories (comment les représenter dans la base de données). Voulez-vous entrer Sexe comme Mâle ou Femelle, M ou F, 1 (si mâle) ou 2 (si femelle), soit d'une autre manière? La plupart des logiciels statistique moderne peut analyser les données catégoriques avec l'une de ces représentations, mais certains logiciels plus anciens besoins les catégories codées comme des numéros consécutifs: 1, 2, 3, et ainsi de suite.

Certains logiciels vous permet de spécifier une correspondance entre le nombre et le texte (1 = Homme, 2 = Femme, par exemple) -, alors vous pouvez taper dans les deux sens, et vous pouvez choisir de l'afficher soit sous la forme numérique ou textuelle.

Rien de pire que d'avoir à traiter avec un ensemble de données dans laquelle Sexe a été codé comme 1 ou 2, sans indication de qui est qui, lorsque la personne qui a créé le fichier est révolue depuis longtemps. Donc, il est probablement préférable d'entrer dans la catégorie des valeurs aussi court, significatives abréviations de texte comme M ou F, ou Mâle ou Femelle, qui vont de soi et, par conséquent, auto-documenté.




Excel ne se soucie pas de ce que vous tapez dans, et cette caractéristique est l'un de ses plus grands inconvénients quand il est utilisé comme un référentiel de données. Vous pouvez entrer Sexe comme M pour le premier objet, Mâle pour la seconde, mâle pour le troisième, 2 pour le quatrième, et m pour la cinquième, et Excel ne pouvait pas moins de soins. Mais la plupart des programmes de statistiques considèrent chacune d'elles pour une catégorie complètement différente!

Pire encore, vous pouvez par inadvertance taper un ou plusieurs espaces vides avant et / ou après le texte. Vous ne pouvez jamais le remarquer, mais certains programmes de statistiques envisager M ~ à la différence de ~ M, M ~ ~, et M ~~ (où ~ indique un espace vide). Dans Excel, il est une bonne idée pour permettre saisie semi-automatique des valeurs de cellule (dans la section Avancé de la boîte de dialogue Options, situé dans le menu Fichier). Puis, quand vous commencez à taper quelque chose dans une cellule, il suggère quelque chose qui est déjà présent dans cette colonne et commence par la même lettre ou les lettres que vous avez tapé. Cela vous aidera à éviter d'avoir plusieurs représentations légèrement différentes pour la même catégorie.

Lorsque vous vérifiez vos données pour des erreurs, il est utile si vous pouvez avoir le logiciel produire un décompte pour chaque variable catégorique, montrant comment plusieurs occurrences de chaque catégorie distincte qu'il a trouvé dans les données. Cela va vous montrer si des catégories fautes d'orthographe ont été inscrits (y compris celles avec ceux leader embêtants ou de fuite des caractères blancs).

Traiter avec plus de deux niveaux dans une catégorie

Quand une variable catégorique a plus de deux niveaux, les choses deviennent encore plus intéressant. D'abord, vous avez à vous poser ", est-ce variable a Choisissez onLy un (à choix unique) ou Choisissez toutes les réponses applicables (à choix multiples) variable? "Le codage requis dans votre fichier informatisé de données est complètement différente pour ces deux types de variables. Par exemple, supposons que vous allez enregistrer les résultats d'une analyse du laboratoire de microbiologie d'un échantillon sanguin. Et supposons que, pour des raisons de simplicité, qui analyse ce laboratoire de la présence de seulement cinq classes de bactéries: coccus, bacille, les rickettsies, mycoplasma, et spirille. Pour réduire le risque de fautes d'orthographe, vous pouvez décider d'utiliser des abréviations courtes telles que: COC, bac, ric, mon c, et spi.

Supposons que vous décidez (ou suppose) aucun échantillon de sang ne sera jamais avoir plus d'un type d'infection présente. Ce serait une situation unique choix. Ensuite, le résultat de laboratoire pourrait se tenir à une seule variable (une seule colonne dans votre fichier de données), qui vous pourriez appeler BacteriaType (ou BT si vous voulez garder vos noms de variables court). Les résultats pour chaque échantillon (dans chaque cellule de votre table) seraient codés comme une valeur unique: coc, ou bac, ou ric, ou mon c, ou spi. Vous auriez également pour permettre une autre catégorie (peut-être appelé aucun) Si aucune infection du tout été trouvé.

Mais vous pourriez trouver que votre accession au plus une infection par spécimen était irréaliste. Une personne pourrait avoir deux (ou plusieurs) des infections présentes simultanément. Comment réagiriez-vous que dans votre base de données? Si le laboratoire a rapporté que les deux coccus et Bacillus infections étaient présents, souhaitez-vous essayer de bourrer les deux abréviations (COC) et le bac dans la cellule dans le même temps? La plupart des logiciels statistiques permettrait une seule catégorie à être spécifié dans une cellule d'une variable catégorique. Malheureusement, Excel serait heureux de vous laisser entasser autant que vous aimez dans la cellule, même si ce serait la bonne façon de le faire.

Si plusieurs choix sont possibles-(même si vous pensez qu'ils sont peu susceptibles de se produire dans votre étude), vous devez configurer votre base de données différemment. Vous devez définir variables distinctes dans la base de données (des colonnes distinctes dans Excel) - un pour chaque valeur possible de la catégorie. Dans ce cas, car il ya cinq types possibles de bactéries, vous devez définir cinq séparée les variables, peut-être appelé BTcoc, BTbac, BTric, BTmyc, et BTspi (où le BT supports pour Type de bactéries). Chaque variable sera représentée en tant que catégorie de deux valeur (peut-être avec des valeurs Pres/Abdos debout pour présent et absent, ou Oui/Non, ou 1 ou 0).

Donc, si l'échantillon de réserve 101 a été trouvé pour contenir coccus, sous réserve spécimen de 102 eu bacille et mycoplasmes présents, et le spécimen de réserve 103 n'a pas de bactéries à tous, l'information pourrait être codé comme indiqué dans le tableau suivant.

SujetBTcocBTbacBTricBTmycBTspi
101OuiNonNonNonNon
102NonOuiNonOuiNon
103NonNonNonNonNon

Peu importe si vous codez une variable catégorique à choix unique ou à choix multiples, vous aurez besoin pour permettre la possibilité de valeurs manquantes. Vous pouvez gérer les valeurs manquantes en laissant la cellule vide, mais une meilleure façon est d'ajouter une catégorie appelée Manquant des catégories régulières de cette variable. Si vous avez besoin de plusieurs saveurs différentes de Manquant (aimer pas encore rassemblé, Don't savent, d'autre part, refusé de répondre, ou Non appljecâble), Simplement les ajouter à l'ensemble des catégories admissibles pour cette variable. La chose importante est de vous assurer que vous pouvez toujours entrer quelque chose pour cette variable.

Jamais essayer de caser des choix multiples en une seule colonne - ne pas entrer "COC, bac" dans une cellule de la BacType colonne. Si vous le faites, la colonne résultante sera presque impossible d'analyser statistiquement, et vous aurez à prendre le temps plus tard, laborieusement diviser votre colonne multi-valeur unique dans séparés oui / non colonnes. Alors pourquoi ne pas le faire dès la première fois?


» » » » Comment recueillir des données catégoriques en biostatistique