La science des données pour les nuls

Traditionnellement, Big Data

est le terme pour les données qui a un volume incroyable, la vitesse, et la variété. Les technologies traditionnelles de bases de données ne sont pas capables de gérer les données de grandes - des solutions de données-ingénierie les plus innovantes sont nécessaires. Pour évaluer votre projet pour savoir si il est considéré comme un grand projet de données, considérer les critères suivants:

  • Volume: Entre 1 téraoctets / an et10 pétaoctets / an

  • Velocity: Entre 30 kilo-octets / seconde et 30 gigaoctets / seconde

  • Variété: Des sources combinées de données non structurées, semi-structurées et structurées

La science des données et de l'ingénierie des données ne sont pas identiques

Les gestionnaires d'embauche ont tendance à confondre les rôles de scientifique de données et ingénieur de données. Alors qu'il est possible de trouver quelqu'un qui fait un peu des deux, chaque champ est incroyablement complexe. Il est peu probable que vous trouverez quelqu'un avec des compétences et de l'expérience dans les deux domaines robustes. Pour cette raison, il est important d'être en mesure d'identifier ce type de spécialiste est le plus approprié pour vous aider à atteindre vos objectifs spécifiques. Les descriptions ci-dessous devraient vous aider à le faire.

  • Scientifiques de données: Les scientifiques utilisent le codage de données, méthodes quantitatives (mathématiques, statistiques, et d'apprentissage de la machine), et une expertise hautement spécialisée dans leur domaine d'étude pour obtenir des solutions à des problèmes complexes et des affaires scientifiques.

  • Ingénieurs de données: Ingénieurs données utilisent des compétences en informatique et en génie logiciel pour concevoir des systèmes pour, et résoudre les problèmes avec, la manutention et la manipulation de grands ensembles de données.

La science des données et de business intelligence sont également pas la même

Scientifiques de données orientée métier et les analystes d'affaires qui font des affaires intelligence sont comme des cousins. Les deux types de données sur l'utilisation spécialisés pour atteindre les mêmes objectifs de l'entreprise, mais leurs approches, de technologies et de fonctions sont différentes. Les descriptions ci-dessous précisent les différences entre les deux rôles.

  • L'intelligence d'affaires (BI): Solutions de BI sont généralement construites en utilisant des ensembles de données générées en interne - au sein d'une organisation plutôt que de l'extérieur, en d'autres termes. Des outils et des technologies communes comprennent le traitement analytique en ligne, extrait transformation et chargement, et de l'entreposage de données. Bien BI implique parfois des méthodes prospectifs comme les prévisions, ces méthodes sont basées sur des déductions mathématiques simples à partir des données historiques ou actuelles.

  • Les données scientifiques d'affaires centrée sur: Solutions scientifiques de données orientée métier sont construites en utilisant des ensembles de données qui sont à la fois interne et externe à une organisation. Des outils communs, de technologies et de compétences analytiques comprennent les plates-formes de cloud computing, la programmation statistique et mathématique, l'apprentissage machine, l'analyse de données en utilisant Python et R, et la visualisation de données avancées. Scientifiques de données orientée métier utilisent des méthodes mathématiques ou statistiques avancées pour analyser et générer des prédictions à partir de vastes quantités de données d'entreprise.

En regardant les principes de base de la statistique, l'apprentissage automatique, et les méthodes mathématiques en sciences de données

Si les statistiques a été décrite comme la science de tirer des idées à partir des données, alors quelle est la différence entre un statisticien et un scientifique de données? Bonne question! Alors que de nombreuses tâches dans les sciences de données nécessitent un peu juste de savoir comment statistique, la portée et l'étendue des connaissances et des compétences de base d'un scientifique de données est distincte de celles d'un statisticien. Les distinctions fondamentales sont décrites ci-dessous.

  • Expertise en la matière: Une des caractéristiques essentielles de scientifiques de données est qu'ils offrent un degré sophistiqué de l'expertise dans le domaine auquel ils appliquent leurs méthodes analytiques. Les scientifiques ont besoin de données de telle sorte que ce qu'ils sont capables de vraiment comprendre les implications et les applications des idées de données qu'ils génèrent. Un scientifique de données devrait avoir assez d'expertise en la matière pour être en mesure d'identifier l'importance de leurs conclusions et indépendamment décider comment procéder à l'analyse.

    En revanche, les statisticiens ont généralement une connaissance incroyablement profonde de statistiques, mais très peu d'expertise dans les sujets auxquels ils appliquent des méthodes statistiques. La plupart du temps, les statisticiens sont tenus de consulter des experts en la matière externes pour vraiment une prise ferme sur l'importance de leurs résultats, et pour être en mesure de décider de la meilleure façon d'aller de l'avant dans une analyse.

  • Approches mathématiques et d'apprentissage de la machine: Statisticiens comptent essentiellement sur les méthodes et processus statistiques lors de la dérivation des idées de données. En revanche, les scientifiques de données sont nécessaires pour tirer à partir d'une grande variété de techniques pour obtenir un aperçu de données. Ceux-ci comprennent des méthodes statistiques, mais également des approches qui ne sont pas fondées dans les statistiques - comme ceux qu'on trouve dans les mathématiques, le regroupement, la classification et les méthodes d'apprentissage de la machine non-statistiques.

Voyant l'importance du savoir-faire statistique

Vous ne devez pas sortir et obtenir un diplôme en statistiques pratiquer la science de données, mais vous devriez au moins se familiariser avec quelques-unes des méthodes les plus fondamentaux qui sont utilisés dans l'analyse statistique des données. Ceux-ci inclus:

  • Régression linéaire: La régression linéaire est utile pour modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes. Le but de la régression linéaire est de découvrir (et de quantifier la force des) corrélations importantes entre les variables dépendantes et indépendantes.

  • Analyse des séries chronologiques: Analyse des séries temporelles consiste à analyser un ensemble de données sur les valeurs d'attributs au fil du temps, afin de prédire les futures instances de la mesure sur la base des dernières données d'observation.

  • Simulations de Monte Carlo: La méthode de Monte Carlo est une technique de simulation vous pouvez utiliser pour tester des hypothèses, pour générer des estimations de paramètres, pour prédire les résultats de scénarios, et pour valider les modèles. La méthode est puissant car il peut être utilisé pour simuler très rapidement n'importe où de 1 à 10000 (ou plus) des échantillons de simulation pour tous les processus que vous essayez d'évaluer.




  • Statistiques de données spatiales: Une propriété fondamentale et importante de données spatiales est qu'il est pas aléatoire. Il est spatialement dépendante et autocorrélés. Lors de la modélisation des données spatiales, éviter les méthodes statistiques qui supposent que vos données est aléatoire. Krigeage et Krige existe deux méthodes statistiques que vous pouvez utiliser pour modéliser des données spatiales. Ces méthodes vous permettent de produire des surfaces prédictifs pour les zones d'étude entières basées sur des ensembles de points connus dans l'espace géographique.

Travailler avec le clustering, la classification et les méthodes d'apprentissage de la machine

L'apprentissage de la machine est l'application d'algorithmes de calcul à apprendre (ou en déduire des modèles in) ensembles de données brutes. Clustering est un type particulier de l'apprentissage de la machine -sans surveillance l'apprentissage de la machine, pour être précis, ce qui signifie que les algorithmes doivent apprendre à partir des données non marqués, et en tant que tels, ils doivent utiliser des méthodes déductives de découvrir des corrélations.

Classification, d'autre part, est appelé apprentissage supervisé de la machine, ce qui signifie que les algorithmes apprennent de données étiquetées. Les descriptions suivantes présentent quelques-uns des clusters et de classification des approches plus fondamentales:

  • k-moyennes: Vous déployez généralement k-means algorithmes de subdiviser les points de données d'un ensemble de données en clusters basés sur les valeurs moyennes les plus proches. Pour déterminer la répartition optimale de vos points de données en clusters, de telle sorte que la distance entre les points dans chaque grappe est minimisée, vous pouvez utiliser k-means.

  • Algorithmes les plus proches voisins: Le but d'une analyse du plus proche voisin est à rechercher et localiser soit un point le plus proche dans l'espace ou une valeur numérique la plus proche, en fonction de l'attribut que vous utilisez pour la base de comparaison.

  • Kernel densité estimation: Une autre façon d'identifier des grappes de vos données est d'utiliser une fonction de lissage de la densité. Kernel densité estimation (KDE) fonctionne en plaçant un noyau une fonction de pondération qui est utile pour la quantification de la densité - sur chaque point de données dans l'ensemble de données, puis en additionnant les grains pour produire une estimation de la densité du noyau de la région globale.

Garder méthodes mathématiques dans le mix

Beaucoup qui se dit à propos de la valeur de la statistique dans la pratique de la science des données, mais appliqué des méthodes mathématiques sont rarement mentionnés. Pour être franc, les mathématiques sont la base de toutes les analyses quantitatives. Son importance ne doit pas être sous-estimée. Les deux méthodes mathématiques suivantes sont particulièrement utiles dans les sciences de données.

  • Multi-critères prise de décision (MCDM): Est un MCDM approche de modélisation mathématique de la décision que vous pouvez utiliser lorsque vous avez plusieurs critères ou alternatives que vous devez évaluer simultanément pour prendre une décision.

  • Chaînes de Markov: Une chaîne de Markov est une méthode mathématique que les chaînes ensemble une série de variables générés aléatoirement qui représentent l'état actuel afin de modéliser comment les changements dans les variables actuelles de l'Etat affectent les états futurs.

Utilisation de techniques de visualisation pour communiquer des données scientifiques Insights

Toutes les informations et de perspicacité dans le monde est inutile si elle ne peut pas être communiquée. Si les scientifiques de données ne peuvent pas communiquer clairement leurs conclusions aux autres, données potentiellement intéressantes idées peuvent rester inexploitées.

Suivant les meilleures pratiques claires et précises dans la conception de la visualisation des données peut vous aider à développer des visualisations qui communiquent d'une manière qui est très pertinent et utile pour les parties prenantes pour qui vous travaillez. Ce qui suit est un bref résumé de quelques-unes des plus importantes meilleures pratiques de conception de visualisation de données.

  • Connais ton public: Depuis des visualisations de données sont conçus pour toute une gamme de différents publics, des fins différentes, et différents niveaux de qualification, la première étape pour la conception d'une grande visualisation de données est de connaître votre public. Depuis chaque public sera composé d'une classe unique de consommateurs, chacun avec leurs besoins de visualisation de données uniques, il est essentiel de clarifier exactement pour qui vous concevez.

  • Choisissez les styles de conception appropriées: Après avoir examiné votre public, en choisissant le style de conception la plus appropriée est également critique. Si votre objectif est d'attirer votre public en prenant, une plongée plus profonde et analytique dans la visualisation, puis utiliser un style de design qui induit un calcul et une réponse exigeante dans ses téléspectateurs. Si vous voulez que votre visualisation de données pour alimenter la passion de votre auditoire, utiliser un style de design émotionnellement convaincante à la place.

  • Choisissez les types de graphiques de données intelligents: Enfin, assurez-vous de choisir les types graphiques qui affichent de façon spectaculaire les tendances des données vous qui cherchent à révéler. Vous pouvez afficher la même tendance de données de plusieurs façons, mais certaines méthodes livrer plus efficacement un message visuel que d'autres. Choisissez le type de graphique qui fournit plus directement un message visuel clair, complet.

En regardant votre jeu d'outils de codage

D3.js est le langage de programmation parfaite pour construire des visualisations à base de web dynamiques et interactifs. Si vous êtes déjà un programmeur web, ou si vous ne vous dérange pas de prendre le temps nécessaire pour obtenir jusqu'à la vitesse dans les bases du HTML, CSS et javascript, il est une évidence: l'aide à la conception interactive d3.js visualisations de données basée sur le Web est sûr d'être la solution idéale pour un grand nombre de vos problèmes de visualisation.

Travailler avec des applications basées sur le Web

Si vous ne possédez pas le temps ou l'énergie pour entrer dans le codage de votre propre visualisation de données faits sur mesure, ne craignez pas - il ya quelques applications en ligne incroyables disponibles pour vous aider à faire le travail en peu de temps. La liste suivante détaille quelques excellentes alternatives.

  • Watson Analytics: Watson Analytics est la première solution à grande échelle de données scientifiques et de l'analyse qui a été mis à disposition comme une offre cloud 100%. Watson Analytics a été construit dans le but de démocratiser le pouvoir de la science des données. Il est une plate-forme où les utilisateurs de tous niveaux peuvent aller à l'accès, d'affiner, de découvrir, de visualiser, rapport, et de collaborer sur des idées orientées données.

  • CartoDB: Pour les non-programmeurs ou non-cartographes, CartoDB est sur la solution de carte-faire le plus puissant qui est disponible en ligne. Il est utilisé pour les communications visuelles numériques par des gens de toutes sortes d'industries - y compris les services d'information, génie logiciel, des médias et du divertissement, et le développement urbain.

  • Piktochart: L'application Web Piktochart fournit une interface facile à utiliser pour créer de belles infographies. L'application propose une très large sélection de attrayant, modèles professionnels. Avec Piktochart, vous pouvez faire des infographies statiques ou dynamiques.

Aller avec des tableaux de bord d'analyse

Lorsque le mot “ tableau de bord ” arrive, beaucoup de gens associent avec des solutions de business intelligence à l'ancienne. Cette association est défectueux. Un tableau de bord est juste une autre façon d'utiliser des méthodes de visualisation de communiquer des idées de données.

Tandis qu'il est vrai que vous pouvez utiliser un tableau de bord pour communiquer les résultats qui sont générés à partir de l'intelligence d'affaires, vous pouvez également les utiliser pour communiquer et fournir des indications précieuses qui sont dérivés de la science de données orientée métier. Tout simplement parce que les tableaux de bord ont depuis un certain temps, ils ne devraient pas être négligés comme des outils efficaces pour communiquer des données précieuses idées.

Systèmes d'information géographique effet de levier (SIG)

Systèmes d'information géographique (SIG) est une autre ressource sous-estimée dans les sciences de données. Lorsque vous avez besoin de découvrir et de quantifier les tendances de géolocalisation dans votre ensemble de données, SIG est la solution parfaite pour le poste. Les cartes sont une forme de visualisation de données spatiales que vous pouvez générer en utilisant le SIG, mais le logiciel de SIG est également bon pour les formes plus avancées d'analyse et de visualisation. Les deux solutions SIG les plus populaires sont détaillées ci-dessous.

  • ArcGIS for Desktop: ArcGIS for Desktop propriétaire est l'application de la carte-faire le plus largement utilisé.

  • QGIS:Si vous ne disposez pas de l'argent à investir dans ArcGIS for Desktop, vous pouvez utiliser open-source QGIS pour accomplir la plupart des mêmes objectifs gratuitement.

En regardant les mécanismes impliqués dans Doing Data Science

Si vous êtes vraiment intéressé à la science de données, vous devriez vraiment faire l'effort de maîtriser Python, certainement le langage de programmation le plus facile pour les sciences de données. Python est un langage de programmation orienté objet qui est parfait pour un traitement facile des données, l'analyse et la visualisation.

Python est un des langages de programmation les plus populaires. Voilà parce qu'il est relativement facile à maîtriser et parce qu'il permet aux utilisateurs d'accomplir plusieurs tâches avec seulement quelques lignes de code. Ce qui suit est une liste de trois bibliothèques Python qui sont les plus utiles et pertinentes dans la pratique de la science des données.

  • NumPy: La Numpforfait y est à l'origine de presque tous les calculs numériques en Python. C'est parce que NumPy offre aux utilisateurs un moyen de créer des objets de tableau multi-dimensionnel en Python.

  • SciPy: SciPy est construit au-dessus de, et étend les capacités de la NumPy package. SciPy est une collection d'algorithmes mathématiques et des fonctions sophistiquées que vous pouvez utiliser pour la quantification vectorielle, fonctions statistiques, n dimensions opérations de l'image, les routines d'intégration, d'outils d'interpolation, algèbre linéaire clairsemée, solveurs linéaires, des outils d'optimisation, outils de traitement du signal, matrices creuses, et de nombreux autres services publics qui ne sont pas desservis par d'autres bibliothèques Python.

  • Matplotlib: Matplotlib est construit au-dessus de NumPy et SciPy. Utilisez le Matplotlib bibliothèque lorsque vous souhaitez créer des représentations visuelles de vos résultats de l'ensemble de données ou d'analyse de données.

Travailler avec R

Pour ceux qui ne le savent pas, R est un open source, système de logiciel de statistiques libre qui est largement adopté dans le secteur des sciences de données. Oui, il est pas aussi facile à apprendre que Python, mais il peut être beaucoup plus puissant pour certains types d'analyses statistiques avancées. Il a aussi notamment des capacités avancées de visualisation de données. Ce qui suit est une liste de trois packages R qui sont particulièrement utiles dans la pratique de la science des données.

  • Prévisions: La prévision paquet contient diverses fonctions de prévision que vous pouvez adapter à utiliser pour ARIMA, ou pour d'autres types de prévisions de séries chronologiques univariées.

  • Mlogit: Un modèle logit multinomial est celui dans lequel les observations d'une classe connue sont utilisés pour “ le train n ° 148; le logiciel afin qu'il puisse identifier les classes d'autres observations dont les classes sont inconnus. Si vous souhaitez effectuer une régression logistique en R, vous pouvez utiliser le paquet logistique multinomial.

  • ggplot2: La ggplot2 paquet est le paquet de visualisation de données fondamentale dans R. Il vous offre un moyen de créer tous les différents types de graphiques de données, y compris les histogrammes, diagrammes de dispersion, de graphiques à barres, boîtes à moustaches, et des parcelles de densité. Il offre une grande variété d'options de conception - y compris les choix de couleurs, mise en page, la transparence, et la densité de la ligne.

Utilisation de SQL dans un contexte de science des données

Structured Query Language (SQL) est un ensemble de règles que vous pouvez utiliser pour rapidement et efficacement interroger, mettre à jour, modifier, ajouter ou supprimer des données de bases de données volumineuses et complexes. Il est utile dans les sciences de données lorsque vous avez besoin de faire quelques manipulations d'interrogation et de données rapide.

  • Interrogation enregistrements de données et de filtrage: Dans SQL, vous utilisez le SELECT fonctionner pour interroger un ensemble de données. Si vous utilisez ensuite la argument, vous pouvez limiter la sortie de la requête aux seuls enregistrements qui répondent aux critères que vous avez spécifiés. Ceci est une manière d'utiliser SQL pour interroger et filtrer les données.

  • Agrégation des données: Si vous voulez regrouper vos données en utilisant SQL, vous pouvez utiliser la PAR GROUPE déclaration à votre groupe ensemble de données en fonction des valeurs d'attributs partagés.

Garder codage à un minimum

Si vous n'êtes pas pour le codage des choses pour vous-même, vous pouvez essayer de terminer un projet en utilisant les applications off-the-shelf logiciels à la place. Vous pouvez utiliser les deux applications de bureau suivantes pour effectuer des tâches de sciences de données avancées sans avoir à apprendre à coder.

  • Microsoft Excel: Bien que ce soit une application logicielle peu simple, Microsoft Excel peut être assez utile dans la pratique de la science des données. Si vous voulez faire un contrôle ponctuel rapide pour les tendances et les valeurs aberrantes dans votre ensemble de données, vous pouvez utiliser des filtres, Excel mise en forme conditionnelle, et de la cartographie des options pour faire le travail rapide. Tableaux croisés dynamiques d'Excel sont une autre grande option si vous devez reformater et résumer vos tableaux de données rapidement. Enfin, si vous souhaitez automatiser la manipulation de données ou d'analyse dans Excel tâches, vous pouvez utiliser des macros Excel pour faire le travail.

  • KNIME: KNIME est un logiciel d'exploration de données que vous pouvez utiliser pour l'analyse prédictive sans code. Le logiciel est assez simple pour que les débutants en sciences de données peut même l'utiliser, mais il offre des plug-ins pour étendre les capacités pour répondre aux besoins des utilisateurs les plus avancés. Analytics KNIME sont utiles pour faire des choses comme upsell et cross-sell, la réduction de la perte de clients, l'analyse des sentiments, et l'analyse de réseau social.


» » » » La science des données pour les nuls