Saagie sera au World IA Cannes Festival du 9 au 11 février→ Venez nous rencontrer, contactez nos équipes !

R en data science, un langage aux nombreux avantages

Dans le secteur de la data science, il existe des classements, selon le niveau de popularité des langages en informatique. Notamment, deux classements mensuels sont régulièrement cités : il s’agit du « Tiobe Index » (Tiobe est le nom de l’entreprise ayant créé cet index) et du « PYPL » (PopularitY of Programming Language index). 

Pour un langage donné :

le Tiobe index compte le nombre de pages web renvoyées par les principaux moteurs de recherches lorsque l’on fait une recherche sur ce langage ;

⦁ le PYPL utilise les données Google Trends pour compter combien de fois ce langage a été recherché par les utilisateurs de Google.

Une petite surprise a eu lieu pendant l’été 2020, en particulier dans le Tiobe Index : la remontée en force du langage R !

Assiste-t-on à un retour de R en data science ?

Dans le Tiobe Index de juillet 2020, R bat son niveau de popularité depuis la lancée de cet index, et fait une introduction dans le top 10. Il se hisse à son plus haut niveau, à savoir, la 8e place, derrière Python, C et Java, alors qu’il était 20e une année plus tôt, et qu’il était même sorti du top 20 en mai 2020. 

Depuis, nous avons constaté une régression, car R se situe en 18e position en septembre 2022.

classement de l'indice TIOBE pour le mois de juillet 2020. © TIOBE
Le classement de l'indice TIOBE pour le mois de juillet 2020 - © TIOBE

R est un langage informatique open source (et donc gratuit) lancé en 1993, mais aussi d’un projet GNU. C’est un langage de programmation dédié à l’analyse statistique, à l’analyse de données ainsi qu’à la réalisation de graphiques et visualisations. Parmi ses concurrents sur ce segment de la science des données, on trouve d’autres logiciels libres (notamment Python), ainsi que le logiciel informatique propriétaire et payant Matlab, mais on peut aussi citer SAS et SPSS.

En pratique, R est un langage de programmation très spécialisé, de niche en quelque sorte. D’où la surprise de le voir surgir aussi haut dans ce classement, aux côtés de langages de programmation soit plus généralistes, soit dédiés à des tâches beaucoup plus répandues en data science (telles que le développement d’applications et le machine learning). 

De plus, la formation en data science et les cours de code informatique en R sont plus complexes que pour d’autres langages de programmation.

Durant les dix dernières années, la data science, les statistiques, et plus généralement, toutes les problématiques liées à la gestion et à l’analyse de données sont devenues des incontournables dans de nombreux secteurs de l’économie. Ce phénomène a probablement profité à la popularité de R (entre autres). 

Pourtant, ces derniers temps, R était plutôt en perte de vitesse et il semblait qu’une consolidation s’effectuait parmi les langages de ce segment, au profit de Python, qui permet de faire également du Big Data et du machine learning. Alors, comment expliquer un regain de popularité si soudain ?

L’effet coronavirus sur R en data science

Le développement du Big Data pendant le coronavirus et la mise à disposition d’une quantité impressionnante de données sur ce sujet ont créé un pic d’activité dans la data science du domaine médical et le traitement des données pour définir des pratiques de santé publique, des avis médicaux et des techniques de protection des populations. 

Il a fallu faire l’analyse des données grâce à des outils tels que R. Cette explication est valable pour l’ensemble des outils d’analyse de données et de Big Data. R semble en avoir davantage bénéficié en pratique du fait de son orientation statistique et de sa popularité dans les milieux académiques (en première ligne donc lorsque l’on parle de recherche en médecine, en sciences naturelles, en biologie…), d’autant plus qu’il est open source.

R en data science : open source vs logiciels propriétaires

Effectivement, la popularité du langage informatique R vient aussi du fait qu’il s’agit d’un logiciel libre, à l’inverse de certains de ses concurrents. Les utilisateurs préfèrent un logiciel standard open source à une solution payante. R est souvent développé avec l’environnement de développement intégré (IDE) Rstudio, qui est aussi open source. 

L’open source possède bien sûr l’avantage de la gratuité, comparé à des solutions payantes dont les licences sont parfois très onéreuses. Cela permet d’avoir de nombreux livres, cours et formations à distance ou en présentiel. À l’instar de Java et Python, le caractère open source de R offre la possibilité de développer ses compétences facilement, grâce aux réseaux, qui permettent de poser des questions. La communauté crée également des systèmes et des techniques pour une bonne programmation et des packages. 

Dans le cadre de la pandémie covid-19, une mobilisation importante de la communauté du langage R a permis d’échanger les résultats grâce aux réseaux, de développer la formation, les compétences et les bonnes pratiques de programmation ainsi que d’éviter la régression.

 

Pour développer vos compétences en R après cette introduction, il existe plusieurs techniques : les cours et formations disponibles à distance ou en présentiel disponible et les livres sur le R et son application pratique au big data et à à la data science, comme R for Data Science de Garrett Grolemund et Hadley Wickham.

Si vous êtes curieux d’essayer R pour un projet de data science, ou si ce langage est familier à un data scientist de votre équipe, sachez que vous pouvez faire la gestion des scripts en R directement dans votre projet avec Saagie.