Intéressant

Intervalle de confiance pour la différence de deux proportions de population

Intervalle de confiance pour la différence de deux proportions de population


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Les intervalles de confiance font partie des statistiques inférentielles. L'idée de base de ce sujet est d'estimer la valeur d'un paramètre de population inconnu à l'aide d'un échantillon statistique. Nous pouvons non seulement estimer la valeur d'un paramètre, mais nous pouvons également adapter nos méthodes pour estimer la différence entre deux paramètres liés. Par exemple, nous voudrons peut-être trouver la différence entre le pourcentage de la population électorale américaine votant qui est favorable à un texte de loi donné par rapport à la population électorale féminine.

Nous verrons comment faire ce type de calcul en construisant un intervalle de confiance pour la différence entre deux proportions de population. Dans le processus, nous examinerons une partie de la théorie derrière ce calcul. Nous verrons quelques similitudes dans la façon dont nous construisons un intervalle de confiance pour une seule proportion de la population ainsi qu'un intervalle de confiance pour la différence de deux moyennes de population.

Généralités

Avant d'examiner la formule spécifique que nous allons utiliser, considérons le cadre général dans lequel ce type d'intervalle de confiance s'intègre. La forme du type d'intervalle de confiance que nous allons examiner est donnée par la formule suivante:

Estimation +/- Marge d'erreur

De nombreux intervalles de confiance sont de ce type. Nous devons calculer deux nombres. La première de ces valeurs est l'estimation du paramètre. La deuxième valeur est la marge d'erreur. Cette marge d'erreur explique le fait que nous avons une estimation. L'intervalle de confiance nous fournit une plage de valeurs possibles pour notre paramètre inconnu.

Conditions

Nous devons nous assurer que toutes les conditions sont remplies avant d'effectuer tout calcul. Pour trouver un intervalle de confiance pour la différence de deux proportions de population, nous devons nous assurer que les éléments suivants sont conservés:

  • Nous avons deux échantillons aléatoires simples provenant de grandes populations. Ici, "grande" signifie que la population est au moins 20 fois plus grande que la taille de l'échantillon. Les tailles d'échantillon seront notées par n1 et n2.
  • Nos individus ont été choisis indépendamment les uns des autres.
  • Il y a au moins dix succès et dix échecs dans chacun de nos échantillons.

Si le dernier élément de la liste n'est pas satisfait, il y a peut-être moyen de contourner ce problème. Nous pouvons modifier la construction de l'intervalle de confiance de plus-quatre et obtenir des résultats robustes. À l'avenir, nous supposons que toutes les conditions ci-dessus ont été remplies.

Échantillons et proportions de la population

Nous sommes maintenant prêts à construire notre intervalle de confiance. Nous commençons par l'estimation de la différence entre les proportions de notre population. Ces deux proportions de population sont estimées à l'aide d'une proportion de l'échantillon. Ces proportions d'échantillons sont des statistiques qui sont obtenues en divisant le nombre de succès dans chaque échantillon, puis en divisant par la taille de l'échantillon respectif.

La première proportion de population est notée par p1. Si le nombre de succès dans notre échantillon de cette population est k1, alors nous avons un échantillon de k1 / n1.

On note cette statistique par p̂1. Nous lisons ce symbole comme "p1-hat "car il ressemble au symbole p1 avec un chapeau sur le dessus.

De la même manière, nous pouvons calculer une proportion de l'échantillon de notre deuxième population. Le paramètre de cette population est p2. Si le nombre de succès dans notre échantillon de cette population est k2, et notre proportion d'échantillon est p2 = k2 / n2.

Ces deux statistiques constituent la première partie de notre intervalle de confiance. L'estimation de p1 est p̂1. L'estimation de p2 est p̂2. Donc l'estimation pour la différence p1 - p2 est p̂1 - p̂2.

Distribution d'échantillonnage de la différence des proportions d'échantillon

Ensuite, nous devons obtenir la formule pour la marge d'erreur. Pour ce faire, nous allons d'abord examiner la distribution d'échantillonnage de p. Ceci est une distribution binomiale avec probabilité de succès p1 etn1 essais. La moyenne de cette distribution est la proportion p1. L’écart type de ce type de variable aléatoire a une variance de p(1 - p)/n1.

La distribution d'échantillonnage de p̂2 est similaire à celle de p̂. Changer simplement tous les indices de 1 à 2 et nous avons une distribution binomiale avec moyenne de p2 et variance de p2 (1 - p2 )/n2.

Nous avons maintenant besoin de quelques résultats de statistiques mathématiques pour déterminer la distribution d'échantillonnage de p1 - p̂2. La moyenne de cette distribution est p1 - p2. Du fait que les variances s’additionnent, on constate que la variance de la distribution d’échantillonnage est p(1 - p)/n1 + p2 (1 - p2 )/n2. La déviation standard de la distribution est la racine carrée de cette formule.

Il y a quelques ajustements que nous devons faire. La première est que la formule de l'écart type de p̂1 - p̂2 utilise les paramètres inconnus de p1 et p2. Bien sûr, si nous connaissions vraiment ces valeurs, il ne s'agirait pas du tout d'un problème statistique intéressant. Nous n’aurions pas besoin d’estimer la différence entre p1 etp2…  Au lieu de cela, nous pourrions simplement calculer la différence exacte.

Ce problème peut être résolu en calculant une erreur type plutôt qu'un écart type. Tout ce que nous devons faire est de remplacer les proportions de la population par des proportions d'échantillon. Les erreurs types sont calculées à partir de statistiques uniques au lieu de paramètres. Une erreur type est utile car elle estime efficacement un écart type. Cela signifie pour nous que nous n’avons plus besoin de connaître la valeur des paramètres. p1 et p2.Puisque ces proportions d'échantillons sont connues, l'erreur type est donnée par la racine carrée de l'expression suivante:

1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.

Le deuxième élément que nous devons aborder est la forme particulière de notre distribution d'échantillonnage. Il s’avère que nous pouvons utiliser une distribution normale pour approximer la distribution d’échantillonnage de p- p̂2. La raison en est un peu technique, mais est décrite dans le paragraphe suivant.

Les deux1 et Pavoir une distribution d'échantillonnage qui est binomiale. Chacune de ces distributions binomiales peut être très bien approximée par une distribution normale. Donc p- p̂2 est une variable aléatoire. Il est formé comme une combinaison linéaire de deux variables aléatoires. Chacun de ceux-ci sont approximés par une distribution normale. Par conséquent, la distribution d'échantillonnage de p- p̂2 est également normalement distribué.

Intervalle de confiance

Nous avons maintenant tout ce dont nous avons besoin pour assembler notre intervalle de confiance. L'estimation est (p̂1 - p̂2) et la marge d'erreur est z *1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.0.5. La valeur que nous entrons pour z * est dicté par le niveau de confiance C.Valeurs couramment utilisées pour z * sont 1,645 pour une confiance de 90% et 1,96 pour une confiance de 95%. Ces valeurs pourz * désigne la partie de la distribution normale standard où exactementC pour cent de la distribution est entre -z * et z *.

La formule suivante nous donne un intervalle de confiance pour la différence de deux proportions de population:

(p̂1 - p̂2) +/- z *1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.0.5


Video, Sitemap-Video, Sitemap-Videos