Quando não comparar duas variaveis

As variáveis de linha não podem ser diretamente comparadas mesmo se forem o mesmo tipo de dados de linha, entretanto campos de linha individuais podem ser comparados.

Os campos individuais dentro de um tipo de linha podem ser comparados a outros valores e as regras de comparação para o tipo de dados do campo se aplicam.

Para comparar duas variáveis de linha, os valores de campo correspondentes individuais devem ser comparados.

A seguir está um exemplo de comparação de dois valores de linha com definições de campo compatíveis no SQL PL: IF ROW1.field1 = ROW2.field1 AND ROW1.field2 = ROW2.field2 AND ROW1.field3 = ROW2.field3 THEN SET EQUAL = 1; ELSE SET EQUAL = 0;No exemplo a instrução IF é usada para executar a lógica processual que configura uma variável local EQUAL para 1 se os valores de campo forem iguais, ou 0 se os valores de campo não forem iguais.

Até aqui vimos como é possível comparar médias de até dois grupos usando o teste t, por exemplo. Entretanto, em muitas situações estamos interessados em examinar se 3 ou mais grupos [ou condições] difererem entre si. Por exemplo, suponha que três turmas de Bioestatística estão sendo ofertadas neste quadrimestre e estamos interessados em saber se o desempenho dos alunos destas turmas foi diferente? Alguém poderia sugerir o seguinte “por que não usar vários testes t para investigar isto?”. Em outras palavras, se comparararmos as turmas A e B; depois as turmas A e C e, finalmente, as turmas B e C não levaria ao que estamos interessados? Embora estes testes consigam cumprir estes objetivos e testar as diferenças, esta abordagem não é adequada por algumas razões [1]:

  • As médias dos grupos que não estão sendo comparados são ignoradas
  • Aumenta a chance de erro tipo I e, portanto, aumenta a probabilidade de observar diferenças significativas por acaso
  • Quanto mais médias [grupos] existem para comparar, maior é o número de testes estatíticos [e.g. testes t]

Portanto, uma outra abordagem é necessária para responder se estas diferenças existem. Este é um problema frequente em estudos clínicos uma vez que necessitamos entender os efeitos de intervenções [e.g. intervenções terapêuticas ou preventivas] quando mais de 2 grupos ou mais de uma fator são envolvidos. Portanto, a análise de variância [ANOVA] é uma das ferramentas mais utilizadas neste tipo de estudo pois é uma abordagem estatística capaz de examinar diferenças observadas nas médias dos grupos [baseado em suas variâncias esperadas] e as variâncias não explicadas devido a chance por exemplo. Então, ao invés de usarmos a distribuição z ou t usaremos uma outra família de distribuição conhecida como F também conhecida como distribuição de Fisher-Snedecor devido a contribuição de Ronald Fisher.

Na verdade esta abordagem não é diferente da que vimos anteriormente em regressão linear onde podemos predizer a variável dependente a partir de uma variável independente [ou a partir de vários preditores se for uma regressão múltipla]. A diferença é que em regressão linear simples, as variáveis independente e dependente são variáveis contínuas e o modelo de regressão é expresso da seguinte forma

\[ \hat{Y} = \hat{\beta{_0}} + \hat{\beta{_1}} X + \epsilon \]

Por exemplo, suponha que queremos predizer o salário dos professores [variável dependente, Y] pelo tempo de trabalho em anos [variável independente, X]. Note que ambas são variáveis contínuas. Imagine agora que, ao invés do tempo de trabalho, usássemos o gênero [homem vs. mulher] como variável independente, ou seja, uma variável categórica. A Figura abaixo ilustra esta condição. Suponha que 65 [mulher] e 90 [homem] são os níveis da variável independente categórica. Podemos observar que em cada nível a variável dependente [salário, Y] segue uma distribuição normal com média 0 e variância \[\sigma{^2}\]. Em outras palavras, para cada nível da variável independente [X] a variável dependente tem média [\[\hat{Y} = \hat{\beta{_0}} + \hat{\beta{_1}} X\]] e desvio padrão [\[\sigma\]].

Figura. Modelo de regressão destacando a distribuição da variável dependente em cada nível da variável independente. Fonte://reliawiki.org/index.php/Simple_Linear_Regression_Analysis

Então, ANOVA é um caso especial de análise de regressão linear. De qualquer forma para o caso acima, o teste t seria adequado pois existem apenas dois níveis da variável independente. O ANOVA é útil quando temos mais do que dois níveis na variável independente.

O teste F é usado para comparar variâncias que é a base para a ANOVA que, por sua vez, é a técnica usada para comparar se as médias de 3 ou mais grupos são diferentes. A ideia do teste F é usar o resultado do F-ratio para determinar se rejeita ou não a hipótese nula com base na distribuição F. F-ratio, por sua vez, é a razão da variância explicada, ou seja, aquela que pode ser atribuída pela intervenção pela variância não explicada, ou aquela devido a outros fatores que não diretamente relacionadas à intervenção [e.g. erros experimentais].

\[ F = \frac{\text{Variância explicada}}{\text{Variância não explicada}} \] \[ F = \frac{\text{Variância entre grupos}}{\text{Variância intra-grupo}} \]

Portanto, se a variação devido a uma intervenção foi substancialmente maior que a variação não explicada a tendência é que o valor do F-ratio seja maior que 1. O teste F é sempre unicaudal para a direita [positivo] pois a razão não pode ser negativa. O F-ratio é usado para obter o valor crítico da distribuição F e assim aceitar ou refutar a hipótese nula do estudo.

O numerador na equação representa a variância entre grupos e é calculada a partir da razão entre a soma dos quadrados entre os grupos e respectivo graus de liberdade.

\[ \textit{s}^{2}_{B} = \frac{\sum n_{i}[\bar{X}_{i} - \bar{X}_{GM}]^2}{\textit{k}-1} \]

A equação acima tenta capturar a variação entre os grupos pois, como os grupos foram submetidos a condições distintas, é esperado uma variação. Por isto é referido como variância sistemática ou explicada.

Por sua vez, a variância intragrupo é calculada pela razão entre a soma dos quadrados intragrupo e do respectivo graus de liberdade.

\[ \textit{s}^{2}_{W} = \frac{\sum [n_{i}-1] \textit{s}^{2}_{i}}{\sum [n_{i}-1]} \]

E então o F-ratio pode ser calculado,

\[ \textit{F} = \frac{\textit{s}^{2}_{B}}{\textit{s}^{2}_{W}} \]

Os graus de liberdade do teste F tem relação com o numerador e o denominador desta razão [variância entre os grupos e intragrupos]. Então os graus de liberdade do numerador é k-1 onde k é o número de grupos. E os graus de liberdade do denominador é N-k, onde N é a amostra total. Assim, para encontrar o valor crítico na distribuição F, é preciso saber os graus de liberdade [numerador e denominador] e o nível de significância \[\alpha\].

Um forma de interpretar a variância intragrupo [que o Andy Conway chama de variância não sistemática] é o desvio de cada sujeito da média do grupo que ele pertence. Por que indivíduos estão variando se eles foram submetidos às mesmas condições [e.g. intervenção]? Não podemos explicar esta variação, por isso consideramos não explicada [não sistemática] ou variações atribuídas a chance.

Estas duas variâncias são também conhecidas como médias quadráticas [mean squares] entre grupos [\[MS_{B}\]] e intragrupo [\[MS_{W}\]].

A excelente ilustração abaixo [2] resume estes conceitos que tratamos até aqui portanto se entendermos a Figura é um passo significativo para entender ANOVA.

Figura. [a] Between- and within-group variance is calculated from SSB, the between treatment sum of squares, and SSW, the within treatment sum of squares.. Deviations are shown as horizontal lines extending from grand and sample means. The test statistic, F, is the ratio mean squares MSB and MSW, which are SSB and SSW weighted by d.f. [b] Distribution of F, which becomes approximately normal as k and N increase, shown for k = 3, 5 and 10 samples each of size n = 6. N = kn is the total number of sample values. [c] ANOVA analysis of sample sets with decreasing within-group variance [σw2 = 6,2,1]. MSB = 6 in each case. Error bars, s.d. Fonte: //www.nature.com/nmeth/index.html

Assim como nos testes estatísticos anteriores, a ANOVA é um teste de hipótese e, portanto, é necessário declarar as hipóteses do estudo a priori. Entretanto, diferente do que vimos no teste t, temos mais que dois grupos e, portanto, as hipóteses nula e alternativa são declaradas de forma um pouco diferente.

\[ H_0: \mu_{1} = \mu_{2} = ... \mu_{k}\] \[ H_1: \text{Ao menos uma diferença existe entre os grupos comparados}\]

Condições para usar ANOVA

  • A variável dependente é contínua
  • A variável dependente segue uma distribuição normal
  • Homogeneidade das variâncias

A melhor maneira de entender como o ANOVA é calculado é por meio de exemplos. Vamos seguir o exemplo do livro [2].

“A researcher wishes to try three different techniques to lower the blood pressure of individuals diagnosed with high blood pressure. The subjects are randomly assigned to three groups; the first group takes medication, the second group exercises, and the third group follows a special diet. After four weeks, the reduction in each person’s blood pressure is recorded. At \[\alpha=\] 0.05, test the claim that there is no difference among the means. The data are shown.”

Vamos usar o R para resolver.

# Input data medication

Bài mới nhất

Chủ Đề