Tous les logiciels de statistique nomment leurs variables, mais R est particulier en ce sens qu' il nomme aussi les lignes. Cela implique un apprentissage de la gestion des noms de lignes ET des noms des colonnes. qu'il est nécessaire d'apprendre à gérer aussi bien les noms des lignes que les noms des variables.
Les fonctions en R , excepté les fonctions primitives du package { base }, sont composées de trois parties : une liste d'arguments ; un corps, contenant du code exécuté lors de l'appel à la fonction ; un environnement, qui définit l'endroit où sont stockées les variables.
L'utilisation de R est facilitée par l'installation d'un IDE (integrated development environment) ou "environnement de développement intégré". RStudio est une application permettant de travailler en R dans un environnement de développement riche et complet que nous allons utiliser dans la suite de ce cours.
Le langage R est largement utilisé par les statisticiens, les data miners, data scientists pour le développement de logiciels statistiques et l'analyse des données.
L'analyse des données est essentielle pour comprendre les résultats des enquêtes, des sources administratives et des études pilotes, pour obtenir des renseignements sur les lacunes en matière de données, pour concevoir et remanier les enquêtes, pour planifier de nouvelles activités statistiques et pour formuler des ...
La façon la plus pratique d'exécuter des scripts R en ligne de commande est d'utiliser Rscript, un autre frontal pour exécuter le code R. Rscript est capable d'exécuter du code R à partir de différents interpréteurs de commandes, comme un script bash sous Linux ou une tâche du planificateur de tâches sous Windows.
R est à la fois un langage de programmation et un progiciel de fonctions statistiques. La version de base de R contient déjà un grand nombre de fonctions statistiques et graphiques permettant, par exemple, de calculer une moyenne ou une variance ou de tracer un histogramme.
Un script R est un fichier texte contenant toutes les commandes nécessaires pour réaliser un projet.
Avec RStudio, vous pouvez sélectionner la code et faire CTRL + Entrée, le code s'exécute directement dans la Console. Ces exemples vous permettent de voir l'effet attendu de la fonction.
Il est possible d'utiliser RStudio un peu comme un simple éditeur de texte. On ouvre les fichiers de scripts un à un, soit à partir du menu File|Open file…, soit à partir de l'onglet Files du navigateur de fichiers. Lorsque nécessaire, on change le répertoire de travail de R à partir du menu Session.
La dernière version de R : pour Windows : https://cran.r-project.org/bin/windows/base/ pour Mac : https://cran.r-project.org/bin/macosx/ pour Linux (à voir en fonction de votre distribution) : https://cran.r-project.org/bin/linux/
1) Téléchargement du logiciel R
R est accessible sur le site du CRAN : https://cran.r-project.org/Pour le télécharger il suffit de suivre la démarche présentée ici en pas à pas pour Windows. La procédure pour les autres plateformes est sensiblement identique.
1.2.1 Pour afficher les modalités
Ces modalités (ou levels) sont affichées dans la sortie de la fonction str , mais il est parfois plus pratique d'utiliser la fonction levels , qui n'affichera que cette information.
La fonction ls permet d'afficher une liste simple des objets en mémoire, c'est-`a-dire que seuls les noms des objets sont affichés. L'option pattern peut également être utilisée comme avec ls. Une autre option utile de ls. str est max.
La fonction apply permet d'appliquer une fonction sur toutes les lignes ou toutes les colonnes d'un data frame (ou une matrice). Si on souhaite appliquer la fonction sur les lignes, on va spécifier l'argument MARGIN=1 (en pratique, on utilise que le 1 en second argument de la fonction).
Il faut créer un script R (via le menu "New Script" dans RStudio ou directement dans un dossier sur votre pc, au choix), que vous sauvegardez quelque part, cela vous permettra de conserver et ré-exécuter votre code à loisir.
Sauvegarde en sortie de RStudio
Il vous suffit de cliquer sur Save pour qu'un fichier de sauvegarde de votre session de travail . RData soit créee. Ce fichier sera enregistré dans votre dossier de travail. Il n'aura alors aucun nom, seulement l'extension .
Pourquoi étudier la statistique? La statistique est la science de l'information qui permet de dégager des modèles à partir de données. À titre de statisticien, vous savez vous servir de la théorie des probabilités pour prendre des décisions en contexte d'incertitude.
La seule utilité des statistiques est de nous permettre de faire de meilleurs plans, de contrôler les résultats, de boucler notre budget.
Adolphe Quételet fut certainement le premier à concevoir que la statistique pouvait être fondée sur le calcul des probabilités, et son œuvre extrêmement variée a donné à cette discipline une impulsion considérable. Elle concerne aussi bien l'anthropométrie que l'économie et les sciences sociales.
Tout d'abord R s'utilise dans une console. Contrairement à la majorité des logiciels de statistiques par défaut R pour GNU/linux n'a pas d'interface graphique et son interface graphique sous Windows et MacOS est particulièrement spartiate. En outre R permet de travailler les données d'une façon singulière.
Le salaire d'un data analyst débutant oscille entre 35 K€ et 38 K€. Après 4 ans d'expérience, il peut atteindre 45 à 55 K€. Le salaire du data scientist, forcément professionnel expérimenté, s'établit à partir de 50 K€ à 60 K€.
Via les dépôts Ubuntu
L'installation de R est très simple : il suffit d'installer le paquet r-base. R dispose de nombreuses fonctions supplémentaires disponibles sous la forme de paquets téléchargeables (un peu comme ubuntu). Pour pouvoir installer certains de ces paquets, il vous faut de quoi les compiler.