La variance est une mesure statistique qui nous indique dans quelle mesure les données sont réparties autour de la moyenne . C’est comme mesurer à quel point les données sont “étalées” par rapport à la valeur moyenne.
Imaginez que vous ayez une liste de nombres, comme des notes à un test. La variance vous aide à comprendre à quel point ces notes sont différentes les unes des autres . Si les scores sont très proches les uns des autres, la variance sera faible. Mais s’il y a beaucoup de différences entre les notes, la variance sera élevée.
De manière générale, la variance est un outil utile pour comprendre la dispersion des données dans un ensemble de valeurs. Si la variance est élevée, cela signifie que les données sont plus étalées, tandis que si elle est faible, cela signifie que les données sont plus proches les unes des autres.
Comment l’écart est-il calculé ?
Pour calculer la variance, vous devez effectuer quelques étapes mathématiques, mais ne vous inquiétez pas, c’est plus facile qu’il n’y paraît. Tout d’abord, vous devez calculer la moyenne ou la moyenne des données. Ensuite, soustrayez chaque élément de données de la moyenne et placez chaque différence au carré. Ensuite, vous additionnez tous ces carrés et divisez par la quantité de données. C’est la variance.
Pour comprendre un peu mieux cela, voyons un exemple sur le calcul de la variance, ci-dessous :
Étape 1 : Obtenir les données
Supposons que vous disposiez des données suivantes : 5, 7, 9, 11, 13. Ce sont les valeurs d’un échantillon de données dont vous souhaitez calculer la variance.
Étape 2 : Calculer la moyenne
Additionnez toutes les valeurs et divisez par la quantité totale de données pour obtenir la moyenne :
Moyenne = (5 + 7 + 9 + 11 + 13) ÷ 5 = 45 ÷ 5 = 9
La moyenne des données est 9.
Étape 3 : Soustraire la moyenne de chaque donnée
Soustrayez la moyenne obtenue à l’étape précédente de chaque élément de données de la liste :
5 – 9 = -4
7 – 9 = -2
9 – 9 = 0
11 – 9 = 2
13 – 9 = 4
Étape 4 : Mettre au carré chaque différence
Mettez au carré chacune des différences obtenues à l’étape précédente :
(-4) 2 = 16
(-2) 2 = 4
0 2 = 0
2 2 = 4
4 2 = 16
Étape 5 : Additionnez les carrés des différences
Additionnez tous les résultats obtenus à l’étape précédente :
16 + 4 + 0 + 4 + 16 = 40
Étape 6 : Divisez par la quantité de données
Divisez la somme des carrés des différences par la quantité totale de données (dans ce cas, 5) :
Écart = 40 ÷ 5 = 8
La variance des données est de 8 .
Quelle est la formule de la variance ?
Avant d’analyser ce point, il est important de mentionner que la variance est d’une grande importance pour les statistiques. Malgré le fait qu’il s’agisse d’une mesure assez simple, elle fournit des informations intéressantes basées sur une variable spécifique.
L’unité de mesure sera toujours celle qui correspond aux données, mais au carré. De plus, il convient de noter que la variance est toujours égale ou supérieure à zéro. C’est parce que les résidus sont toujours au carré, donc, en termes mathématiques, il est impossible qu’il y ait une variance négative.
Gardant cela à l’esprit, ci-dessous, nous vous montrons la formule de variance :
S 2 = écart
x i = terme de l’ensemble de données
X̄ = mesure de l’échantillon
∑ = somme
n = taille de l’échantillon
Qu’est-ce qu’une variance élevée et faible ?
La variance est considérée comme élevée lorsque les données d’un échantillon statistique ou d’une population sont rares et éloignées de la moyenne . Cela signifie que les valeurs individuelles dans les données sont largement distribuées et qu’il existe une grande variabilité dans les données.
En revanche, la variance est considérée comme faible lorsque les données d’un échantillon ou d’une population sont plus proches de la moyenne et qu’il y a peu de dispersion entre les valeurs individuelles. Cela implique que les données sont plus cohérentes et ont moins de variabilité.
Quelles sont les principales utilisations de la variance ?
La variance est une mesure statistique largement utilisée dans divers domaines en raison de sa capacité à évaluer la dispersion ou la variabilité des données dans un échantillon. Certaines des principales utilisations de la variance sont :
Dans les statistiques descriptives – pour décrire la dispersion des données dans un échantillon, permettant de comprendre comment les valeurs individuelles s’écartent de la moyenne et comment elles sont réparties dans l’échantillon.
Dans les statistiques inférentielles – pour estimer la variabilité des données dans une population à partir d’un échantillon, permettant de faire des inférences sur la population dans son ensemble.
En finance : dans l’analyse du risque et du rendement des investissements, où une variance plus élevée indique un risque plus élevé et une variance plus faible indique un risque plus faible dans un portefeuille d’investissement.
Dans la recherche scientifique – Analyser la variabilité des données dans les études scientifiques, telles que la recherche médicale, la biologie, la psychologie et d’autres disciplines, pour comprendre la variabilité des résultats et la cohérence des données.
Dans la maîtrise de la qualité des procédés : dans le contrôle qualité des procédés industriels pour mesurer la variabilité des produits ou services fabriqués, ce qui permet d’identifier les problèmes de cohérence et de qualité du procédé.
En économétrie : dans la modélisation et l’analyse de données économiques pour comprendre la variabilité des variables économiques et évaluer la fiabilité des modèles économétriques.
Quelle est la signification de la variance ?
La variance est importante car elle vous permet de comprendre la variabilité des données dans un échantillon . Si la variance est élevée, cela signifie que les données sont rares et qu’il y a beaucoup de variabilité. Cela est pertinent pour prendre des décisions éclairées dans des domaines tels que l’investissement, la gestion des risques et l’analyse des données.
De plus, la variance vous aide à comprendre la cohérence des données dans un échantillon ou une population. Une variance faible indique que les données sont cohérentes et ont peu de variabilité, tandis qu’une variance élevée indique que les données sont moins cohérentes et ont plus de variabilité.
L’écart type et la variance sont-ils les mêmes ?
L’écart type et la variance sont deux mesures statistiques connexes qui décrivent la propagation, ou la variabilité, des données dans un échantillon ou une population. La principale différence entre eux est l’unité de mesure et l’interprétation des résultats.
La variance est une mesure qui représente la dispersion des données par rapport à sa moyenne, calculée comme la somme des carrés des écarts des valeurs individuelles par rapport à la moyenne, divisée par le nombre total de données.
Il est calculé en mettant au carré les différences entre chaque valeur et la moyenne, en les additionnant et en les divisant par la taille de l’échantillon ou de la population. La variance est exprimée en unités au carré et peut être difficile à interpréter directement car elle est à une échelle différente de celle des données d’origine.
D’autre part, l’écart-type n’est rien d’autre que la racine carrée de la variance . Il est calculé comme la racine carrée positive de la variance. L’écart type est exprimé dans les mêmes unités que les données d’origine et constitue une mesure plus intuitive de la dispersion des données.
Un écart-type plus élevé indique une plus grande propagation ou variabilité des données, tandis qu’un écart-type inférieur indique moins de propagation ou de variabilité.
Écart pour les données groupées
La variance pour les données groupées fait référence au calcul de la variabilité ou de la dispersion des données qui sont regroupées en intervalles ou classes . Au lieu d’avoir des données individuelles, comme dans le cas de la variance pour des données non groupées, vous avez des plages ou des intervalles dans lesquels se trouvent les données.
Le calcul de la variance pour les données groupées se fait à l’aide d’une formule légèrement différente. Tout d’abord, le point médian de chaque intervalle est calculé, qui est la moyenne des limites inférieure et supérieure de chaque intervalle. Ensuite, la moyenne pondérée des points médians est calculée, en utilisant les fréquences relatives ou absolues des intervalles comme poids.
A partir de cette moyenne pondérée, la variance est calculée selon la même formule que pour les données non groupées , c’est-à-dire comme la moyenne des carrés des différences entre les valeurs individuelles et la moyenne pondérée.
La variance des données groupées est utile lorsque vous travaillez avec des ensembles de données présentés sous forme d’intervalles ou de classes, tels que des données démographiques, des données économiques ou tout autre type de données regroupées en catégories ou plages.
Propriétés de variance
La variance est une mesure statistique qui possède plusieurs propriétés importantes. Certaines des principales propriétés de la variance sont :
- C’est toujours une valeur non négative , puisqu’elle est définie comme la moyenne des carrés des différences entre les données individuelles et la moyenne.
- Il est sensible aux valeurs extrêmes ou aberrantes dans les données , puisqu’il s’agit du carré des différences.
- Il a des unités au carré , ce qui implique qu’il est dans la même unité au carré que les données d’origine.
- Il peut être affecté par des valeurs aberrantes ou des données extrêmes, ce qui peut en faire une mesure non robuste de la variabilité des données.
- Si les données sont indépendantes et non corrélées entre elles, la variance de la somme de deux ensembles de données est égale à la somme des variances des deux ensembles de données .
Exemples d’écart
Maintenant que nous avons compris le concept de variance et son importance, regardons un exemple pratique pour mieux comprendre comment cela fonctionne.
Supposons que nous disposions des données suivantes sur le résultat économique d’une entreprise en millions de dollars pour les cinq dernières années : 8, 12, 6, -4, 10. Nous souhaitons calculer la variance de cet ensemble de données à l’aide de la formule mentionnée précédemment.
Étape 1 : Calculer la moyenne arithmétique
Tout d’abord, nous calculons la moyenne arithmétique des données en l’additionnant et en divisant par le nombre total de données (dans ce cas, 5) :
Moyenne arithmétique (X̄) = (8 + 12 + 6 – 4 + 10) ÷ 5 = 6,4 millions de dollars
Étape 2 : Utiliser la formule de variance
Ensuite, nous utilisons la formule de variance pour calculer le carré des différences entre chaque point de données et la moyenne arithmétique, puis nous les additionnons :
Où x i est chaque élément de données, X̄ est la moyenne arithmétique et n est le nombre total d’éléments de données.
Nous substituons les données et la moyenne arithmétique dans la formule de variance :
Écart (Var(X)) = [(8 – 6,4) 2 + (12 – 6,4) 2 + (6 – 6,4) 2 + (-4 – 6,4) 2 + (10 – 6,4) 2 ] ÷ (5 – 1)
Étape 3 : Résoudre les opérations
Résolvons maintenant les opérations pour obtenir la valeur de la variance :
Écart (Var(X)) = [1,6 2 + 5,6 2 + 0,16 2 + (-10,4) 2 + 3,6 2 ] ÷ 4
Écart (Var(X)) = [2,56 + 31,36 + 0,0256 + 108,16 + 12,96] ÷ 4
Écart (Var(X)) = 155 072 ÷ 4
Variance (Var(X)) = 38,768 millions au carré
La variance de cet ensemble de données est de 38,768 millions de dollars au carré, ce qui nous donne une mesure de la dispersion ou de la variabilité des données par rapport à la moyenne arithmétique.