Choisir les meilleurs langages de programmation pour la science des données

Le codage est l'une des compétences principales dans la boîte à outils d'un scientifique de données. Certaines applications incroyablement puissantes ont fait avec succès l'écart avec la nécessité de coder dans certains contextes de données scientifiques, mais vous ne vont jamais être en mesure d'utiliser ces applications pour l'analyse et la visualisation personnalisée. Pour les tâches avancées, vous allez avoir à coder les choses pour vous-même, en utilisant soit le langage de programmation Python ou le langage de programmation R.

Sommaire

Utiliser Python pour la science des données

Python est un langage de programmation lisible et facile à apprendre, que vous pouvez utiliser pour munging avancée des données, l'analyse et la visualisation. Vous pouvez l'installer et de le configurer incroyablement facile, et vous pouvez plus facilement apprendre Python que le langage de programmation R. Python fonctionne sur Mac, Windows et UNIX.




IPython offre une interface de codage très convivial pour les personnes qui ne aiment pas de codage de la ligne de commande. Si vous téléchargez et installez la distribution Python Anaconda, vous obtenez votre environnement IPython, ainsi que la pile NumPy, qui inclut les bibliothèques NumPy, SciPy, matplotlib, et les pandas que vous aurez probablement besoin dans vos procédures de détection de décisions données.

Le paquet de NumPy de base est un facilitateur formidable pour le calcul scientifique en Python, car il fournit des conteneurs / structures de tableaux que vous pouvez utiliser pour faire des calculs avec les deux vecteurs et les matrices (comme dans R). SciPy est la bibliothèque Python qui est le plus couramment utilisé pour le calcul scientifique et technique. Il offre des tonnes d'algorithmes mathématiques qui sont tout simplement pas disponibles dans d'autres bibliothèques. Fonctionnalités les plus populaires sont le regroupement, l'algèbre linéaire et de la matrice mathématiques, des fonctionnalités de matrice creuse, analyse spatiale, et les statistiques. Matplotlib est première bibliothèque de visualisation de données de Python. Enfin, la bibliothèque Pandas est utile pour les tâches de munging de données.

Utilisation de R pour la science des données

R est un autre langage de programmation populaire qui est utilisé pour le calcul statistique et scientifique. Rédaction analyse et de visualisation des routines en R est connu comme R scripting. R a été spécialement développé pour le calcul statistique, et par conséquent, il a une offre plus abondante de paquets open-source de calcul statistique que les offres de Python. En outre, les capacités de visualisation de données de R sont plus sophistiqués que Python. Cela étant dit, Python est un peu juste plus facile à apprendre et à utiliser.

R a une communauté très grand et très actif utilisateur. Les développeurs sont à venir avec (et le partage) de nouveaux paquets tout le temps - pour ne citer que quelques-uns, la prévision emballage, la ggplot2 paquet, et de la STATNET / igraph paquets. Si vous voulez faire l'analyse prédictive et de prévision dans R, la prévision paquet est un bon endroit pour commencer. Ce forfait offre l'ARMA, AR, et les méthodes de lissage exponentiel.

Pour la visualisation de données, vous pouvez utiliser la ggplot2 paquet, qui a tous les types de graphiques de données standard, plus beaucoup d'autres. Enfin, les logiciels d'analyse de réseau de R sont assez spécial aussi. Par exemple, vous pouvez utiliser igraph et STATNET pour l'analyse des réseaux sociaux, la cartographie génétique, la planification de la circulation, et même la modélisation hydraulique.


» » » » Choisir les meilleurs langages de programmation pour la science des données