Qual teste usar para comparar a média com mediana

O conteúdo desta seção pode ser visualizado neste vídeo.

Este capítulo discute técnicas para estudar a relação entre uma variável binária e uma variável quantitativa. Vamos considerar duas situações distintas.

A primeira situação diz respeito à estimativa da diferença das médias dos valores de uma variável numérica em dois grupos distintos de pacientes. O estudo de Haijanen et al. [Haijanen et al. 2019] foi um ensaio controlado randomizado multicêntrico que fez uma comparação de custos de antibióticos x apendectomia para o tratamento da apendicite aguda sem complicações. Parte dos resultados estão mostrados na figura 16.1. Por exemplo, para custos hospitalares em 5 anos de acompanhamento, os autores apresentaram o custo médio para cada grupo de tratamento [2730 x 2056 euros], bem como a diferença de custos entre os dois grupos [674]. Ao lado de cada custo, foram mostrados entre parênteses o intervalo de confiança ao nível de 95%. Na última coluna, os autores apresentaram os valores de p resultante dos testes de hipóteses para verificar a significância estatística da diferença entre os custos de cada tratamento.

A análise estatística para a diferença entre os custos médios nos dois grupos de tratamento foi baseada no teste t de Student. Diferenças entre os grupos em relação ao tempo de internação e licença médica [não apresentadas na tabela] foram testadas por meio do teste de Mann-Whitney.

Os dois grupos de pacientes nesse estudo são chamados independentes, porque as unidades de observação [os pacientes] foram alocados aos grupos de maneira independente. Em um arquivo de dados, usualmente uma variável binária é usada para designar o grupo a que cada unidade de análise pertence e outra variável designa a variável numérica que está sendo medida em cada unidade de análise [vide figura 1.9].

Figura 16.1: Comparação de diversos custos entre dois tratamentos para apendicite aguda. Fonte: tabela 1 do estudo de [Haijanen et al. 2019] [CC BY].

Outra situação é quando as duas amostras ou os dois grupos são dependentes. Isso pode ocorrer nos cenários apresentados a seguir.

O primeiro cenário diz respeito à estimativa da diferença de efeitos sobre uma variável numérica em um grupo de pacientes quando dois tratamentos distintos são aplicados em sequência aos pacientes [a ordem de aplicação pode ser aleatória] e, então, uma variável numérica é medida após cada tratamento e os valores da variável após cada tratamento são comparados. Cada conjunto de medidas da variável após cada tipo de tratamento forma um grupo.

Outro cenário é quando uma variável numérica é medida em cada par de indivíduos, sendo que cada par é formado por indivíduos semelhantes de acordo com algum critério estabelecido. Os primeiros elementos de cada par formam um grupo e os segundos elementos de cada par formam o outro grupo.

Um terceiro cenário é quando uma variável numérica é medida em dois instantes diferentes, ou em posições diferentes, em um mesmo grupo de indivíduos e os valores dessa variável nos dois instantes [posições] são comparados. Cada instante, ou cada posição, representa um grupo de medidas.

Por exemplo, o estudo de Andrade et al. [V. G. Andrade et al. 2018] avaliou o modelo de avaliação da homeostase do índice de resistência à insulina [HOMA-IR] em pacientes com hepatite C crônica tratados com medicação antiviral de ação direta na resposta virológica sustentada [RVS]. Os dados foram coletados no início do tratamento [t-base] e na décima segunda semana após o término do tratamento [t-RVS12]. O HOMA-IR foi calculado como insulinemia de jejum [\[\mu U/mL\]] x glicemia de jejum [mmol/L]/22,5. A tabela 4 desse estudo [figura 16.2] mostra as médias das diferenças dos valores das variáveis glicemia de jejum, insulinemia de jejum e HOMA-IR entre o início do tratamento e a décima segunda semana após o término do tratamento para pacientes não diabéticos e com valores de HOMA-IR > 2,5. Foi realizado o teste t pareado para cada uma dessas médias e os valores de p dos testes são mostrados na última coluna da tabela.

Figura 16.2: Comparação dos valores das variáveis glicemia de jejum, insulinemia de jejum e HOMA-IR entre o início do tratamento e a décima segunda semana após o término do tratamento para pacientes não diabéticos e com valores de HOMA-IR > 2,5. Fonte: tabela 4 do estudo de [V. G. Andrade et al. 2018] [CC BY-NC].

Nos três cenários acima, dizemos que os grupos são dependentes, ou pareados, porque os valores da variável numérica tendem a estar correlacionados em cada indivíduo ou em cada par de indivíduos. Por exemplo, no estudo de Andrade et al., indivíduos que possuem valores de glicemia de jejum mais baixos antes do tratamento tendem a ter valores mais baixos de glicemia de jejum após o tratamento do que indivíduos que possuem valores mais altos de glicemia de jejum antes do tratamento.

Em amostras dependentes, há duas variantes para a organização do arquivo de dados. Numa variante, uma variável identifica cada indivíduo, uma segunda variável identifica os grupos [instante ou posição da medida, um dos elementos de cada par de indivíduos, ou tratamento aplicado] e uma variável numérica identifica o desfecho. Na segunda variante, duas variáveis numéricas identificam as duas medidas da variável [uma para um instante - posição da medida, um dos elementos de cada par de indivíduos ou um dos tratamentos aplicados - e outra para o outro instante - posição, elemento do par ou tratamento] [vide figura 1.10]. Este capítulo discute as condições para a realização de cada uma das técnicas de análise indicadas acima, começando pela situação onde os dois grupos, ou amostras, são independentes.

O conteúdo desta seção e da seção 16.2.1 podem ser visualizados neste vídeo.

Vamos utilizar o conjunto de dados energy da biblioteca ISwR [GPL-2 | GPL-3]. Esse conjunto de dados contém o consumo de energia de 22 pessoas, sendo 13 magras e 9 obesas. As duas variáveis são: expend, que representa o consumo de energia, e stature, que indica se a pessoa é magra ou obesa. Para ler esse conjunto de dados, podemos utilizar o R Commander, seguindo o procedimento mostrado no capítulo 3, seção 3.6.1, ou por meio dos comandos:

library[ISwR] data[energy] energy

## expend stature ## 1 9.21 obese ## 2 7.53 lean ## 3 7.48 lean ## 4 8.08 lean ## 5 8.09 lean ## 6 10.15 lean ## 7 8.40 lean ## 8 10.88 lean ## 9 6.13 lean ## 10 7.90 lean ## 11 11.51 obese ## 12 12.79 obese ## 13 7.05 lean ## 14 11.85 obese ## 15 9.97 obese ## 16 7.48 lean ## 17 8.79 obese ## 18 9.69 obese ## 19 9.68 obese ## 20 7.58 lean ## 21 9.19 obese ## 22 8.11 lean

A primeira função carrega a biblioteca ISwR e a segunda função carrega o conjunto de dados energy. A última função mostra os dados das 22 pessoas.

Em relação ao conjunto de dados energy, podemos realizar as seguintes perguntas:

  1. Existe alguma relação entre o consumo de energia e o fato de a pessoa ser magra ou obesa? Colocados em termos estatísticos, existe diferença estatisticamente significativa entre os níveis de consumo de energia entre pessoas magras e obesas?

  2. Como podemos quantificar o valor e a precisão dessa diferença?

A figura 16.3 mostra os boxplots da variável expend para as mulheres magras e obesas respectivamente. Os diagramas sugerem que os consumos de energia, em geral, são maiores nas mulheres obesas do que nas mulheres magras. Vamos analisar esses dados estatisticamente.

Figura 16.3: Boxplots da variável expend do conjunto de dados energy para as mulheres magras e obesas respectivamente.

De um modo geral, consideremos o seguinte problema: dadas duas populações, 1 e 2, que se distinguem por uma característica [por exemplo, magros e obesos], uma amostra de tamanho n1 é extraída aleatoriamente da população 1 e uma amostra aleatória de tamanho n2 é extraída da população 2. Sejam X1 a variável de interesse [por exemplo, consumo de energia], medida em cada unidade da amostra 1 e X2 a mesma variável medida nas unidades da amostra 2.

Vamos supor que:

\[X_1 \sim N[\mu_1, \sigma_1^2]\] e \[X_2 \sim N[\mu_2, \sigma_2^2]\]

e que as variâncias \[\sigma_1^2\] e \[\sigma_2^2\] sejam conhecidas.

Como X1 e X2 são variáveis aleatórias independentes, vimos na seção 9.6 que a variável

\[X = X_1 - X_2\]

terá uma distribuição \[N[\mu_1-\mu_2, \sigma_1^2+\sigma_2^2]\].

Consequentemente, a partir dos resultados da mesma seção 9.6, a diferença de médias amostrais

\[\bar{X} = \bar{X_1} - \bar{X_2}\]

terá uma distribuição \[N[\mu_1 - \mu_2, \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}]\].

Vamos considerar diferentes situações.

Quando as variâncias \[\sigma_1^2\] e \[\sigma_2^2\] são conhecidas, a estatística

\[\begin{aligned} &\ Z = \frac{[\bar{X_1}- \bar{X_2}] - [\mu_1-\mu_2]}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \end{aligned}\]

possui uma distribuição normal padrão [vide capítulo 14, seção 14.2]. A estatística

\[\begin{align} &\ \frac{\bar{X_1}- \bar{X_2}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}\tag{16.1} \end{align}\]

pode ser utilizada para realizar um teste de hipótese bilateral para \[H_0: \mu_1 - \mu_2 = 0\] ou testes unilaterais para \[H_0: \mu_1 - \mu_2 \ge 0\] ou \[H_0: \mu_1 - \mu_2 \le 0\].

O intervalo de confiança para \[\mu_1\]\[\mu_2\] , sendo \[[1-\alpha]\] o nível de confiança, é dado por:

\[\begin{align} [\bar{X_1}- \bar{X_2}] - z_{1-\alpha/2}\ \sigma \leq [\mu_1 - \mu_2] \leq [\bar{X_1}- \bar{X_2}] + z_{1-\alpha/2}\ \sigma \tag{16.2} \end{align}\]

onde

\[\begin{aligned} &\ \sigma = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} \end{aligned}\]

Como, em geral, as variâncias não são conhecidas, então elas devem ser estimadas por meio das variâncias amostrais. Sob determinadas condições, uma análise frequentemente utilizada quando não se conhece as variâncias nas duas populações se baseia na distribuição t de Student.

Quando as variáveis possuem distribuições normais com a mesma variância, \[X_1 \sim N[\mu_1, \sigma^2]\] e \[X_2 \sim N[\mu_2, \sigma^2]\], mas a variância não é conhecida, um estimador da variância comum pode ser obtido a partir da média ponderada dos estimadores das variâncias nas amostras 1 [\[S_1^2\]] e 2 [\[S_2^2\]], com pesos respectivamente iguais a \[n_1 - 1\] e \[n_2 - 1\]:

\[\begin{aligned} &\ S^2 = \frac{[n_1 - 1]S_1^2+[n_2 - 1]S_2^2}{n_1+n_2-2} \end{aligned}\]

onde:

\[\begin{aligned} &\ S_1^2 = \frac{1}{n_1 - 1} \sum_{i=1}^{n_1}[X_{1i}-\bar{X_1}]^2 \end{aligned}\]

e

\[\begin{aligned} &\ S_2^2 = \frac{1}{n_2 - 1} \sum_{i=1}^{n_2}[X_{2i}-\bar{X_2}]^2 \end{aligned}\]

A estatística

\[\begin{align} &\ T = \frac{[\bar{X_1}- \bar{X_2}] - [\mu_1-\mu_2]}{S \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \tag{16.3} \end{align}\]

possui uma distribuição t de Student com \[n_1 + n_2 - 2\] graus de liberdade [gl]. A estatística:

\[\begin{aligned} &\ T = \frac{[\bar{X_1}- \bar{X_2}]}{S \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \end{aligned}\]

pode ser utilizada para realizar um teste de hipótese bilateral para \[H_0: \mu_1 - \mu_2 = 0\] ou testes unilaterais para \[H_0: \mu_1 - \mu_2 \ge 0\] ou \[H_0: \mu_1 - \mu_2 \le 0\].

O intervalo com nível de confiança \[[1-\alpha]\] para a diferença de médias entre os dois grupos é dado por:

\[\begin{align} [\bar{X_1}- \bar{X_2}] - t_{gl, 1-\alpha/2}\ {S\ \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \leq [\mu_1 - \mu_2] \leq [\bar{X_1}- \bar{X_2}] + t_{gl, 1-\alpha/2}\ {S\ \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \tag{16.4} \end{align}\]

Vamos utilizar o R Commander para realizar um teste de hipótese bilateral de igualdade de médias e calcular o intervalo de confiança ao nível de 90% para o conjunto de dados energy. Tendo selecionado o conjunto de dados energy, utilizamos a seguinte opção do menu do R Commander para realizar um teste t paras amostras independentes:

\[\text{Estatísticas} \Rightarrow \text{Médias} \Rightarrow \text{Teste t para amostras independentes...}\]

Após a seleção do teste, é preciso definir a variável que define os grupos e a variável resposta [figura 16.4].

Figura 16.4: Seleção das variáveis de resposta e da variável que define os grupos. O conjunto de dados energy somente tem uma variável como fator e uma variável quantitativa como resposta.

Ao clicarmos na guia Opções na caixa de diálogo da figura 16.4, podemos selecionar o tipo de teste [bilateral/unilateral], o nível de confiança e se as variâncias são iguais ou não [figura 16.5]. Vamos especificar o nível de confiança igual a 90% [0.9] e marcar a opção que as variâncias são iguais.

Figura 16.5: Definindo o tipo de teste, o nível de confiança e especificando que as variâncias são iguais.

Ao clicarmos em OK na figura 16.5, o teste t é realizado e os resultados são mostrados a seguir.

## ## Two Sample t-test ## ## data: expend by stature ## t = -3.9456, df = 20, p-value = 0.000799 ## alternative hypothesis: true difference in means is not equal to 0 ## 90 percent confidence interval: ## -3.207130 -1.256118 ## sample estimates: ## mean in group lean mean in group obese ## 8.066154 10.297778

Observem a sintaxe do comando que é executado para a realização do teste.

A saída mostra que o valor de p é 0,0008. Nesse caso, a hipótese nula deve ser rejeitada. O intervalo de confiança ao nível de 90% para a diferença de médias do consumo de energia entre as populações de mulheres magras e obesas varia de -3,2 a -1,26 MJ. Observem que o intervalo de confiança não inclui o zero [hipótese nula].

Se as variáveis X1 e X2 possuem distribuição normal, mas com variâncias desconhecidas e diferentes, um procedimento confiável é conhecido como teste t para duas amostras de Welch. Por essa aproximação, a variável aleatória

\[\begin{align} T = \frac{[\bar{X_1}- \bar{X_2}] - [\mu_1-\mu_2]}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \tag{16.5} \end{align}\]

segue uma distribuição t de Student com graus de liberdade dado pela seguinte expressão:

\[\begin{align} gl = \frac{[\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}]^2} {\frac{[\frac{S_1^2}{n_1}]^2}{n_1-1} + \frac{[\frac{S_2^2}{n_2}]^2}{n_2-1}} \tag{16.6} \end{align}\]

A estatística

\[\begin{aligned} &\ T = \frac{[\bar{X_1}- \bar{X_2}]}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \end{aligned}\]

pode ser utilizada para realizar um teste de hipótese bilateral para \[H_0: \mu_1 - \mu_2 = 0\] ou testes unilaterais para \[H_0: \mu_1 - \mu_2 \ge 0\] ou \[H_0: \mu_1 - \mu_2 \le 0\].

O intervalo com nível de confiança \[[1-\alpha]\] para a diferença de médias entre as duas amostras é dado por:

\[\begin{align} [\bar{X_1}- \bar{X_2}] - t_{gl, 1-\alpha/2} \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}} \leq [\mu_1 - \mu_2] \leq [\bar{X_1}- \bar{X_2}] + t_{gl, 1-\alpha/2} \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}} \tag{16.7} \end{align}\]

Para realizarmos um teste de hipótese bilateral e calcularmos o intervalo de confiança ao nível de 90% para o conjunto de dados energy, supondo que as variâncias sejam diferentes, seguimos os mesmos passos das figuras 16.4 e 16.5, porém, não assumimos que as variâncias são iguais na aba Opções [figura 16.6].

Figura 16.6: Definindo o tipo de teste, o nível de confiança e especificando que as variâncias são diferentes

Ao clicarmos em OK na figura 16.6, o teste t para duas amostras de Welch é realizado e a saída é mostrada a seguir.

## ## Welch Two Sample t-test ## ## data: expend by stature ## t = -3.8555, df = 15.919, p-value = 0.001411 ## alternative hypothesis: true difference in means is not equal to 0 ## 90 percent confidence interval: ## -3.242484 -1.220763 ## sample estimates: ## mean in group lean mean in group obese ## 8.066154 10.297778

Os resultados nesse exemplo são bastante semelhantes aos obtidos com a suposição de que as variâncias são iguais.

Quando as duas amostras possuem o mesmo número de elementos [\[n_1 = n_2 = n\]], o número de graus de liberdade, calculado pela expressão [16.6], é igual \[2n-2\], as estatísticas [16.3] e [16.5] são iguais, assim como os intervalos de confiança [16.7] e [16.4]. Isso significa que quando as amostras possuem o mesmo tamanho, o teste t de Student é idêntico ao teste t de Welch.

Uma condição necessária para se realizar um teste t de Student ou o teste t aproximado de Welch é que as variáveis \[X_1\] e \[X_2\] sejam normalmente distribuídas. O teste t é robusto para desvios consideráveis da hipótese de normalidade dos dados, especialmente se os tamanhos das amostras são iguais ou aproximados e especialmente quando os testes são bilaterais.

Mesmo quando as variáveis possuem grandes desvios em relação à distribuição normal, como a distribuição da média amostral tende a uma distribuição normal à medida que o tamanho da amostra aumenta [Teorema do Limite Central], se as amostras são suficientemente grandes [digamos \[n_1, n_2 \ge 30\]], podemos usar a estatística [16.1] para realizarmos um teste de hipótese bilateral para \[H_0: \mu_1 - \mu_2 = 0\] ou testes unilaterais para \[H_0: \mu_1 - \mu_2 \ge 0\] ou \[H_0: \mu_1 - \mu_2 \le 0\], e a expressão [16.2] para o cálculo do intervalo de confiança para a diferença de médias, com \[\sigma_1^2\] e \[\sigma_2^2\] substituídos por suas estimativas amostrais \[S_1^2\] e \[S_2^2\].

Para amostras pequenas, digamos \[n_1\ ou\ n_2 < 30\], é necessário verificar a normalidade das variáveis \[X_1\] e \[X_2\] e a igualdade de suas variâncias.

O conteúdo desta seção pode ser visualizado neste vídeo.

Na seção 16.2.1 foram realizados dois testes t para a comparação de médias entre dois grupos independentes cujas variáveis seguem uma distribuição normal: um supondo que as variâncias dos grupos fossem iguais e outro na suposição de que as variâncias fossem diferentes. Há vários testes estatísticos para verificar a suposição de que as variâncias de duas populações sejam iguais. Para realizar tais testes, como sempre, temos que definir a hipótese nula H0 e a hipótese alternativa H1, bem como qual a estatística a ser utilizada no teste. Para a variância, sendo \[S_1^2\] e \[S_2^2\] as estimativas amostrais das variâncias \[\sigma_1^2\] e \[\sigma_2^2\], respectivamente, de duas variáveis com distribuição normal, teríamos:

H0: \[\sigma_1^2 =\sigma_2^2\]

H1: \[\sigma_1^2 \neq \sigma_2^2\]

Estatística de teste: um dos testes para verificação de igualdade de variâncias é o teste F para duas variâncias. Nesse caso, utiliza-se uma das duas estatísticas a seguir:

\[\begin{align} F_1 = \frac{S_1^2}{S_2^2} \tag{16.8} \end{align}\]

ou

\[\begin{align} F_2 = \frac{S_2^2}{S_1^2} \tag{16.9} \end{align}\]

A estatística [16.8] segue uma distribuição chamada F de Fisher, com [n1 – 1] e [n2 – 1] graus de liberdade, que é a razão entre duas distribuições qui-quadrado, a primeira com [n1 – 1] graus de liberdade e a segunda com [n2 – 1] graus de liberdade:

\[\begin{aligned} &\ F_1 \sim \frac{\chi_{\nu_1}^2/\nu_1}{\chi_{\nu_2}^2/\nu_2} \end{aligned}\]

A estatística [16.9] segue uma distribuição F de Fisher, com [n2 – 1] e [n1 – 1] graus de liberdade, que é a razão entre duas distribuições qui-quadrado, a primeira com [n2 – 1] graus de liberdade e a segunda com [n1 – 1] graus de liberdade:

\[\begin{aligned} &\ F_2 \sim \frac{\chi_{\nu_2}^2/\nu_2}{\chi_{\nu_1}^2/\nu_1} \end{aligned}\]

A estatística utilizada no teste F é o maior valor entre \[F_1\] e \[F_2\]. Sob a hipótese nula de igualdade de variâncias, espera-se que o maior valor entre \[F_1\] e \[F_2\] esteja próximo de 1. Se essa razão for acima do valor crítico, então a hipótese de igualdade de variâncias é rejeitada.

No exemplo do conjunto de dados energy, os graus de liberdade \[\nu_1\] e \[\nu_2\] são dados por 12 e 8, respectivamente. Para realizarmos esse teste no R Commander, selecionamos a seguinte opção:

\[\text{Estatísticas} \Rightarrow \text{Variâncias} \Rightarrow \text{Teste F para 2 variâncias}\]

Na caixa de diálogo do teste F para 2 variâncias [figura 16.7], selecionamos a variável que define os grupos e a variável resposta. Em Opções, selecionamos o tipo de teste [bilateral/unilateral] e o nível de confiança.

Figura 16.7: Seleção das variáveis de resposta e da variável que define os grupos. O conjunto de dados energy somente tem uma variável como fator e uma variável quantitativa como resposta.

Ao clicarmos no botão OK, o teste é realizado de acordo com a função abaixo.

## ## F test to compare two variances ## ## data: expend by stature ## F = 0.78445, num df = 12, denom df = 8, p-value = 0.6797 ## alternative hypothesis: true ratio of variances is not equal to 1 ## 90 percent confidence interval: ## 0.2388735 2.2345455 ## sample estimates: ## ratio of variances ## 0.784446

Com base nos resultados, vemos que o valor para a maior das estatísticas [16.8] e [16.9] está dentro do intervalo de não rejeição da hipótese de que as variâncias sejam iguais. Portanto não há evidência suficiente para rejeitarmos a hipótese nula de que as variâncias sejam iguais. Porém o intervalo de confiança para a razão entre as variâncias \[[0,24 - 2,2]\] é bastante amplo, de modo que esse teste possui pouco poder estatístico, ou seja, pouca capacidade de rejeitar a hipótese de igualdade de variâncias, se elas forem diferentes.

Há diversos outros testes para verificar a igualdade de 2 variâncias. No R Commander, dois outros podem ser executados [teste de Bartlett e teste de Levene] via mesma opção do menu que leva ao teste F para 2 variâncias. Em geral esses testes não possuem grande poder estatístico, especialmente quando as distribuições das variáveis \[X_1\ e\ X_2\] não são normais. Então, se houver dúvidas de que as variâncias são iguais, o mais indicado é realizar o teste t para duas amostras de Welch, na suposição de que as variâncias são diferentes.

O conteúdo desta seção e da seção 16.2.4 podem ser visualizados neste vídeo.

O teste t para diferença de duas médias para grupos independentes supõe que os dados sejam normalmente distribuídos. Um instrumento visual útil para checar a normalidade de dados é o gráfico de probabilidade normal [normal probability plot ou qqplot]. No R Commander, esse gráfico é obtido por meio da opção Gráfico de comparação de quantis….

O gráfico de probabilidade normal é construído a partir da ordenação dos valores da variável em ordem crescente e a plotagem em um gráfico do i-ésimo valor contra o quantil esperado desse valor em uma distribuição normal. Ao plotar todos os pontos assim obtidos, obteríamos uma linha reta se os dados seguissem uma distribuição normal. Diferentes fontes usam diferentes aproximações para o cálculo do quantil esperado do i-ésimo valor.

A fórmula usada pelo R é dada por:

\[\begin{align} z_i = \Phi^{-1} \left[\frac{i-a}{n+1-2a}\right] \tag{16.10} \end{align}\]

para i = 1, 2, …, n, onde:

\[\begin{aligned} a = \begin{cases} 3/8,\ n \leq 10 \\ 0,5,\ n > 10 \end{cases} \end{aligned}\]

e \[\Phi^{-1}\] é a função quantil da distribuição normal.

Vamos mostrar como seriam obtidos os pares de pontos para construir o qqplot para o grupo de obesas do conjunto de dados energy. Primeiramente iremos selecionar todas os valores do consumo energético para o grupo de mulheres obesas, usando o comando abaixo.

obesas_exp

Bài mới nhất

Chủ Đề