Scikit-learn est un point focal pour le travail de la science de données avec Python, il est utile de connaître les méthodes qui vous avez le plus besoin. La liste suivante vous donne un bref aperçu des méthodes les plus importantes utilisées pour l'analyse de données.
feature_extraction.FeatureHasher
Utilisation: Préparer vos données
Description: L'astuce de hachage, vous permettant d'accueillir un grand nombre de fonctionnalités dans votre ensemble de données
preprocessing.Binarizer
Utilisation: Préparer vos données
Description: Créez des variables binaires (valeurs de caractéristiques à 0 ou 1)
preprocessing.Imputer
Utilisation: Préparer vos données
Description: Les valeurs manquantes imputation
preprocessing.MinMaxScaler
Utilisation: Préparer vos données
Description: Créez des variables liées par une valeur minimale et maximale
preprocessing.OneHotEncoder
Utilisation: Préparer vos données
Description: Transformez caractéristiques entières catégoriques dans les binaires
preprocessing.StandardScaler
Utilisation: Préparer vos données
Description: Normalisation variable en enlevant la moyenne et la mise à l'échelle de variance unité
feature_extraction.text.CountVectorizer
Utilisation: Préparer vos données
Description: Convertir des documents texte dans une matrice de données de comptage
feature_extraction.text.HashingVectorizer
Utilisation: Préparer vos données
Description: Directement convertir votre texte en utilisant l'astuce de hachage
feature_extraction.text.TfidfVectorizer
Utilisation: Préparer vos données
Description: Crée un jeu de données de caractéristiques TF-IDF.
feature_selection.RFECV
Utilisation: La sélection des fonctionnalités
Description: Sélection de fonction automatique
decomposition.PCA
Utilisation: Réduction de dimensionnalité
Description: Analyse en composantes principales (ACP)
decomposition.RandomizedPCA
Utilisation: Réduction de dimensionnalité
Description: Analyse en composantes principales (ACP) en utilisant SVD randomisé
cross_validation.cross_val_score
Utilisation: La phase de validation croisée
Description: Estimer le score de validation croisée
cross_validation.KFold
Utilisation: La phase de validation croisée
Description: Diviser l'ensemble de données en k plis pour la validation croisée
cross_validation.StratifiedKFold
Utilisation: La phase de validation croisée
Description: Validation stratifié qui tient compte de la répartition des classes que vous prédis
cross_validation.train_test_split
Utilisation: La phase de validation croisée
Description: Divisez vos données en apprentissage et de test
grid_search.GridSearchCV
Utilisation: Optimisation
Description: Recherche exhaustive afin de maximiser un algorithme d'apprentissage automatique
linear_model.LinearRegression
Utilisation: Prédiction
Description: Régression linéaire
linear_model.LogisticRegression
Utilisation: Prédiction
Description: Linéaire Régression logistique
neighbors.KNeighborsClassifier
Utilisation: Prédiction
Description: K-Voisins classement
naive_bayes.MultinomialNB
Utilisation: Prédiction
Description: Multinomial Na # 239-ve de Bayes
metrics.accuracy_score
Utilisation: Solution d'évaluation
Description: Précision pointage de classification.
metrics.f1_score
Utilisation: Solution d'évaluation
Description: Calculer le score de F1, l'équilibrage de précision et de rappel
metrics.mean_absolute_error
Utilisation: Solution d'évaluation
Description: Erreur absolue erreur de régression moyenne
metrics.mean_squared_error
Utilisation: Solution d'évaluation
Description: Erreur quadratique erreur de régression moyenne
metrics.roc_auc_score
Utilisation: Solution d'évaluation
Description: Calculer aire sous la courbe (AUC) à partir des scores de prédiction