Retrouvez-nous le 14 mai au Google Cloud Summit à l'Accor Arena - Paris !

logo saagie red

R, le langage roi en statistiques

R est un langage informatique lancé en 1993 et niché dans la modélisation et l’analyse statistique des données. Il est souvent utilisé avec R Studio, qui est un IDE (environnement de développement) dédié à ce langage, bien qu’il soit tout à fait possible d’utiliser d’autre IDE avec R, notamment Jupyter.

R a connu un boost de popularité durant l’été 2020, notamment à cause de la covid, nous en parlions déjà dans cet article. Mais quel est le lien entre la popularité d’un langage informatique et la covid ? 

Une explication possible est la hausse soudaine de données médicales liées à la pandémie, qu’il a fallu analyser. Or, R est un langage très utilisé dans le monde médical : biologie, recherche ou même produits de beauté, beaucoup de laboratoires l’utilisent.

En effet, R est idéal pour effectuer des analyses statistiques rigoureuses, nécessaires dans ce domaine ; c’est ce que nous allons voir dans cet article.

R : un langage résolument dédié à l’analyse des données

Ce langage a été créé pour manipuler et analyser les données. Il est devenu très populaire dans le milieu médical comme mentionné plus haut et plus généralement dans le milieu académique et même professionnel.

R trouve le bon équilibre entre :

Pour ces raisons, R est devenu un standard pour les équipes souhaitant mener des analyses statistiques complexes, sans pour autant avoir des développeurs expérimentés.

Bien sûr, R intègre beaucoup de fonctionnalités utiles pour manipuler des données, à l’image des « dataframe ».

R compte une communauté dense et active

Nous l’avons dit, R est un type de langage très répandu. Il existe donc une communauté très active autour de ce langage. Cela présente deux grands avantages :

R est open source

Un autre avantage de R est le fait qu’il soit open-source. Par conséquent, c’est un langage « gratuit » contrairement à d’autres alternatives payantes telles que SAS ou SPSS. De plus, l’open source est un aspect essentiel pour la communauté, ce qui explique entre autres pourquoi ce langage possède autant de librairies externes.

L’IDE R Studio est également gratuit, cependant, il ne s’agit pas d’un logiciel open-source. L’entreprise derrière R Studio propose des options payantes incluant des solutions cloud. C’est idéal pour les équipes voulant faire du big data sans les tracas liés à la gestion de l’infrastructure, qui peuvent être nombreux dans ce domaine.

R n’est pas l’outil à privilégier dans tous les cas

Malgré ses avantages, R n’est pas indiqué dans toutes les situations. Dans certains cas, on préférera d’autres alternatives, notamment Python, qui est aussi très populaire en data science.

Parmi les situations dans lesquelles R n’est pas idéal, on trouve notamment :

Pour résumer, R est un langage très spécialisé, s’adressant à un public relativement restreint. Mais c’est justement ce qui fait sa force, car il excelle dans son domaine et propose à ses utilisateurs tous les outils nécessaires pour l’analyse de données.