Inferência Estatística

Google Planilhas

Gilberto Sassi

IME/UFBA - OBEC

Inferência Estatística

Inferência

Inferência Dedutiva

Argumentação e lógica para desenhar conclusões e predições.

Exemplo

Premissa: todas pessoas nascidas em território nacional tem direito a cidadania Brasileira.
Conclusão: a filha de Francisco nasceu em Salvador, logo ela tem direito a cidade Brasileira.

Inferência Indutiva

A partir de alguns casos, desenham-se conclusões e predições.

Exemplo

Estudo de 96 entes federativos para análise do fomento às artes para todos os mais de 5 mil entes federativos do Brasil.

O que vamos ver nesse curso?

Probabilidade
Variável aleatória
Distribuições Binomial e Distribuição Normal
Uma população:
- Intervalo de confiança $z$ para proporção de sucesso
- Teste de hipóteses $t$ para a média
Duas populações:
- Intervalo de confiança $z$ para a diferença das proporções de sucesso
- Teste de confinaç $t$ para a diferença de médias

Probabilidade

Alguns conceitos

Controlamos o erro da generalização usando probabilidade.

Fenômeno ou Experimento aleatório: situações ou acontecimentos que não ser previstos antecipadamente e com certeza.
Espaço amostral: conjunto de todos os resultados de um fenômeno aleatório.
- Notação matemática: $\Omega$.
Ponto amostral: um elemento do espaço amostral.
- Notação matemática: $\omega$.
Evento: parte (subconjunto) do espaço amostral.
- Notação matemática: letra maiúscula do alfabeto pt-BR.
Probabilidade de um evento $A$: número entre 0 e 1 que representa a chance/plausabilidade/crença que um ponto amostral de $A$ seja resultado do Experimento Aleatório.
- Notação matemática: $P(A)$.

Alguns conceitos
Exemplo

Fenômeno ou Experimento aleatório: lançamento de um dado de seis faces.
Espaço amostral: $\Omega=\{$ face 1, face 2, face 3, face 4, face 5, face 6 $\}$.
Ponto amostral: face 1.
Evento: $A =\{$ face par $\}$ = $\{$ face 2, face 4, face 6 $\}$.
Probabilidade de um evento A - $P(A)$: 0,5.

Fenômeno determinístico: soltar pedra da mão.
Resultado: pela leis da gravidade, a pedra irá em direção ao chão.

Variável aleatória

Função

Pontos de $A$ são conectado a um, e apenas um, ponto de B.
Notação matemática:
- Função de $A$ a $B$: $f: A \rightarrow B$.
  - $A$: domínio
  - $B$: contradomínio
- Conjunto de todos números reais: $\mathbb{R}$.
- Conjunto de todos números inteiros: $\mathbb{Z}$.

O que é uma variável aleatória?

Variável aleatória é uma função $X: \Omega \rightarrow \mathbb{R}$ com:
- Domínio: espaço amostra
- Contradomínio: números
- Suporte: conjunto de números do contradomínio associados a um ponto amostral do domínio.
  - Notação matemática: $\chi$
  - Na prática, $\chi$ é o conjunto de valores possíveis para uma variável aleatória

Ideia: associar números (ou intervalo de números) a probabilidade.

Variável aleatória.

Classificação de variável aleatória

Variável aleatória discreta

Suporte tem apenas números inteiros.
Geralmente, é resultado de contagem.
Calculamos probabilidade para números individuais.

Exemplo: número de propostas previstas no edital.

Variável aleatório contínua

Suporte é um intervalo de números reais.
Calculamos probabilidade para intervalo de números reais.

Exemplo: montante do edital.

Exemplo ingênio para fixação

Fenômeno aleatório: lançamento de um dado de seis faces.
Espaço amostral: $\Omega = \{$ face 1, face 2, face 3, face 4, face 5, face 6 $\}$.
Variável aleatória: $X$(face 1) = 1; $X$(face 2) = 2; $X$(face 3) = 3; $X$(face 4) = 4; $X$(face 5) = 5; $X$(face 6) = 6.
Suporte: $\chi=\{$ 1, 2, 3, 4, 5, 6 $\}$.
Variável aleatória discreta: $P(X=1)=\frac{1}{6}$; $P(X=2)=\frac{1}{6}$; $P(X=3)=\frac{1}{6}$; $P(X=4)=\frac{1}{6}$; $P(X=5)=\frac{1}{6}$; $P(X=6)=\frac{1}{6}$.

Como usar variável aleatória?

Existem diversas variáveis aleatórias (livros inteiros).

Entenda os padrões e tendências da sua variável (coluna da planilha).
Faça o match: escolha a melhor variável aleatória para os padrões e tendências descobertos.
Estime os parâmetros da variável aleatória e faça as inferência indutivas.

No nosso curso

80% dos problemas na Estatística e Ciência de Dados são resolvidos com:

Distribuição Binomial: variávela aleatória discreta
Distribuição Normal: variável aleatória contínua

Distribuição Binomial

Calculando probabilidades
Variável aleatória discreta

Probabilidade de um número:
- Função de probabilidade (fp): $f(a) = P(X = a)$.
Probabilidade para o intervalo $(-\infty, a]$:
- Função de distribuição acumulada (fda): $F(a) = P(X \leq a)$.
Quantil de ordem proba: Q(proba)
- Quantil populacional de ordem proba.

Distribuição Binomial

Quando usar

Temos $n$ casos em análise.
Cada caso pode ser sucesso ou fracasso.
Probabilidade de sucesso $p$.
$X$: número de sucessos em $n$ casos.
Sucesso: foco da análise.
Suporte: $\chi = \{1, 2, 3, \cdots, n\}$.

Parâmetro

Probabilidade sucesso: $p$.

No Google Planilha

fp e fda

=BINOM.DIST(x; n; p; cumulativa)

x: valor do suporte
n: número de casos
p: probabilidade sucesso
cumulativa: indica se queremos calcular fp ou fda
- 1: a função calcula fda
- 0: a função calcula fp

Quantil de ordem `prob`

=BINOM.INV(n; p; prob)

n: número de casos
p: probabilidade sucesso
prob: limiar de probabilidade desejado

Distribuição Binomial

Exemplo:

Casos: cidades do Recôncavo Baiano - 20 cidades.
Sucesso: cidade tem cinema.
Probabilidade de sucesso: 75%.
$X$: número de sucessos.
$X$: número de cidades do Recôncavo Baiano com cinema.
Suporte: $\chi = \{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20\}$.

Probabilidade de 11 cidades do Recôncavo Baiano ter cinema:

=BINOM.DIST(11; 20; 75/100; 0)

Resultado: 0,03 (3%).

Probabilidade de até 11 cidades terem cinema:

=BINOM.DIST(11; 20; 75/100; 1)

Resultado: 0,04 (4%).

Quantil de ordem 90%:

=BINOM.DIST(20; 0,75; 90/100)

Resultado: 17
Resultado: até 17 cidades têm cinema.

Distribuição Bernoulli

Distribuição binomial quando $n=1$ (apenas um caso).

Exemplo

Caso: uma cidade.
Sucesso: cidade tem plano de cultura.
Probabilidade de sucesso: 95%.
Suporte: $\chi=\{0, 1\}$.

Probabilidade da cidade tem plano de cultura:

=BINOM.DIST(1;1;0,95;0)

Resultado: 0,95.

Probabilidade de fracasso:

=BINOM.DIST(1;1;0,05;0)

Resultado: 0,05.

Distribuição Normal

Calculando probabilidades
Variável aleatória contínua

Probabilidade para o intervalo $(-\infty, a]$:
- Função de distribuição acumulada (fda): $F(a) = P(X \leq a)$.
Probabilidade de um intervalo:
- $P(a < X < b) = F(b) - F(a)$.
Quantil de ordem proba: Q(proba)
- Quantil populacional de ordem proba.

Distribuição Normal

Quando usar

Suporte: $\chi=\mathbb{R}$.
Valores ficam em torno de um valor (média).

Valores longe desse valor (média) são raros.
Probabilidade é área sob a Curva Gaussiana.

Parâmetros

média (populacional): centro da Curva Gaussiana.
desvio padrão (populacional): abertura da Curva Gaussiana.

No Google Planilha

fda

=NORM.DIST(x; média; desvio padrão; 1)

x: valor do suporte
media: média (populacional)
desvio padrão: desvio padrão (populacional)

Quantil de ordem `proba`

=NORM.INV(proba; média; desvio padrão)

prob: limiar de probabilidade desejado
media: média (populacional)
desvio padrão: desvio padrão (populacional)

Distribuição normal

Exemplo:

Variável: montante dos editais com recursos próprios de um ente.
Média: um milhão de reais.
Desvio padrão: 100 mil reais.

No Google Planilha

Probabilidade de um edital do ente ter montante entre 800 mil e 900 mil reais:

=NORM.DIST(9E+5;1E+6;1E+5;1) - NORM.DIST(8E+5;1E+6;1E+5;1)

Resultado: 0,14.

Quantil de ordem 99%:

=NORM.INV(99/100; 1E+6; 1E+5)

Resultado: R$ 1.232.634,79.

Inferência Estatística

Intervalo de Confiança

Intervalo de Confiança
proporção de sucesso $p$

Ideia: Encontrar $LI$ e $LS$ tal que

\[ LI \leq p \leq LS \]

$(LI, LS)$ é chamado de Intervalo de Confiança (IC).

Interpretação

Impossível sempre produzir um resultado correto!

Às vezes, o IC está correto.
Às vezes, o IC está errado.

x1	x2	x3	x4	x5	li	ls	média populacional
1.087.275,5	1.096.954,5	1.038.384,7	814.844,4	994.600,3	864.030,4	1.106.399,8	1.000.000
1.106.477,3	1.081.319,5	980.918,3	730.007,0	1.006.096,7	795.298,8	1.111.347,7	1.000.000
1.057.375,2	1.004.580,4	1.015.741,2	1.043.156,5	960.345,0	969.462,3	1.049.089,2	1.000.000
992.654,2	861.297,3	869.332,4	923.160,5	947.289,2	850.628,5	966.583,0	1.000.000
915.118,4	891.148,0	951.570,9	966.368,9	984.664,2	894.436,0	975.017,4	1.000.000
929.756,1	968.857,0	833.684,3	924.946,7	922.264,8	854.197,8	959.233,6	1.000.000

Interpretação
Intervalo de Confiança

$\gamma$ dos Intervalos de Confiança estarão corretos.
$\gamma$: coeficiente de confiança. Geralmente, $\gamma=95$%.

$\gamma$% dos Intervalos de Confianças estarão corretos.

Intervalo de Confiança $t$

Intervalo de Confiança para média populacional.

$\epsilon$: margem de erro.
$\bar{x}$: média da amostra.

No Google Planilha

Margem de erro

=MARGINOFERROR(intervalo; coeficiente de confiança)

Intervalo de confiança $t$
Exemplo

Margem de erro:

=MARGINOFERROR(editais_proprios_capitais[v_1_5];0,95)

Resposta: R$ 811.755,45

Média:

=MÉDIA(editais_proprios_capitais[v_1_5];0,95)

Resposta: R$ 2.119.487,86

Intervalo de Confiança:

\[ \begin{split} (LI, LS) &= (2.119.487,86 - 811.755,45; 2.119.487,86 + 811.755,45)\\ &= (1.307.732,42; 2.931.243,31) \end{split} \]

O montante dos editais com recursos próprios nas capitais no ano de 2023 teve valor médio entre R$ 1.307.732,42 e R$ 2.931.243,31, com coeficiente de confiança 95%.

Intervalo de confiança $t$

Exercício

Nos exercícios abaixo, use $\gamma=95\%$.

Construa o Intervalo de Confiança para o número médio de propostas previstas (v_1_7) nos editais com recursos próprios das capitais.
Construa o Intervalo de Confiança para o número médio de páginas (n_page) nos editais com recursos próprios das capitais.

Intervalo de Confiança $z$ para proporção

Intervalo de Confiança para a proporção populacional de sucesso

$\epsilon$: margem de erro.
$\hat{p}$: proporção amostral de sucesso.

Calculamos $\epsilon$ na mão: criei uma função nomeada.

No Google Planilha

Proporção de sucesso

=PROP_SUCESSO(intervalo, sucesso)

intervalo: células com os dados categóricos.
sucesso: categoria que indica sucesso.

Margem de erro

=MARGEM_ERRO_PROP_1POP(intervalo;sucesso; conf)

intervalo: células com os dados categóricos.
sucesso: categoria que indica sucesso.
conf: Coeficiente de Confiança.

Intervalo de Confiança $z$
Exemplo

IC para a proporção de cidades com plano de cultura com coeficiente de confiança 99%.

Proporção de sucesso

=PROP_SUCESSO(respostas_cidades[plano_cultura];"sim")

Resposta: 0,57

Margem de erro

=MARGEM_ERRO_PROP_1POP(respostas_cidades[plano_cultura];"sim"; 0,99)

Margem de erro: 0,13
$LI$: 0,54 - 0,13=0,44
$LS$: 0,54 + 0,13=0,70

A proporção de cidades com plano de cultura no Brasil está entre 44% e 70%, com coeficiente de confiança 99%.

Intervalo de Confiança $z$
Exercício

Construa o Intervalo de Confiança para a proporção de entes federativos que apoiam o audiovisual (linguagens_orgao___2). Use $\gamma=95$%.
Construa o Intervalo de Confiança para a proporção de entes federativos que apoiam a literatura (linguagens_orgao___5). Use $\gamma=90$%.

Use o arquivo respostas.xlsx.

Teste de Hipóteses

Definindo o contexto

Objetivo:

Decidir entre $H_0$ (hipótese nula) e $H_1$ (hipótese alternativa) usando as evidências da amostra.

$H_0$ é a negação de $H_1$ e vice-versa
$H_1$ é aquilo que desejamos provar que é verdade
- a hipótese alternativa é afirmação extraordinária que precisa de evidências para acreditarmos
$H_0$ é o padrão, senso comum ou benchmark
- a hipótese nula é afirmação ordinária que assumimos como verdade na ausência de evidências

Decisão usando amostra

Decisão usando evidência na amostra:

Decisão embasada com evidência $\Longrightarrow$ hipótese alternativa $H_1$
Decisão sem evidência ou na dúvida $\Longrightarrow$ hipótese nula $H_0$

Como temos uma tendência de continuar em $H_0$ na ausência de evidências,escrevemos:

Decisão por $H_0$: Não rejeitamos $H_0$;
Decisão por $H_1$: Rrejeitamos $H_0$.

Erros

Podemos cometer dois erros ao decidir:

Falso positivo (ou Erro Tipo I): Rejeitamos $H_0$, mas $H_0$ é a verdade. Erro mais grave!
- $\alpha$: proporção de amostras no qual o Falso Positivo ocorreu
Falso negativo: Não rejeitamos $H_0$, mas $H_1$ é a verdade
- $\beta$: proporção de amostras no qual o Falso Negativo ocorreu

Não existe uma regra (estratégia) de decisão que minimiza $\alpha$ e $\beta$ simultaneamente.

Escândalo falso positivo na Colômbia

$\alpha$ e $\beta$ são erros concorrentes.

Tradeoff entre $\alpha$ e $\beta$.

Encontrar regra de decisão satisfazendo:

$\alpha$ fixo em um valor pequeno (geralmente 5%)
menor valor possível para $\beta$

$\alpha$ é chamado de nível de significância.

Como decidir?

$H_0$: o montante médio dos editais é menor or igual que um milhão de reais
- $H_0: \mu - \mu_0 \leq 0$, com $\mu_0 = 1.000.000$
$H_1$: o montante médio dos editais é maior que um milhão de reais
- $H_1: \mu - \mu_0 > 0$, com $\mu_0 = 1.000.000$

Amostras com 10 editais.

Primeira amostra
- $\bar{x}$=R$ 100.000,00 $\Longrightarrow$ Não rejeito $H_0$
Segunda amostra
- $\bar{x}$=R$ 10.000.000,00 $\Longrightarrow$ Rejeito $H_0$

Terceira amostra
- $\bar{x}$=R$ 500.000,00 $\Longrightarrow$ Não rejeito $H_0$
Quarta amostra
- $\bar{x}$=R$ 3.000.000,00 $\Longrightarrow$ Rejeito $H_0$

Calculamos uma distância entre a média amostral e $\mu_0$:

Se a distância for extrema $\Longrightarrow$ rejeitamos $H_0$
Se a distância não for extra $\Longrightarrow$ não rejeitamos $H_0$

Esta distância é chamada de estatística de teste.

Valor-p

$p$: proporção de amostras com estatística de teste mais extrema que a estatística de teste observada.

$p < \alpha$: rejeito $H_0$
$p \geq \alpha$: não rejeito $H_0$

Teste t

Estatística de teste

Equação matemática

\[ t_0 = \frac{(\bar{x}-\mu_0) \cdot \sqrt{n}}{s} \]

Google Planilha

=ESTATISTICA_TESTE_T_MEDIA_1POP(intervalo;mu)

intervalo: intervalo para calcular a estatística de teste.
mu: número que compõe as hipóteses.

Valor-p

Equação matemática

	$H_1: \mu - \mu_0<0$	$H_1: \mu - \mu_0>0$	$H_1: \mu - \mu_0\neq 0$
Equação	$P(t_{n-1}<t_0 )$	$P(t_{n-1}>t_0 )$	$2 \cdot (1 - P(t_{n-1} < \lvert t_0 \rvert))$
Tipo	“less”	“greater”	“two_sided”

Google Planilha

=VALOR_P_TESTE_T_MEDIA_1POP(intervalo;tipo;mu)

intervalo: intervalo para calcular a estatística de teste.
tipo: um dos valores: “less”, “greater”, e “two_sided”.
mu: número que compõe as hipóteses.

Teste $t$
Exemplo

Existe evidência que o montante médio dos editais próprios das capitais em 2023 ultrapassou o limiar de um milhão de reais, ao nível de significância 5%?

Estatística de teste

=ESTATÍSTICA_TESTE_T_MÉDIA_1POP(editais_proprios_capitais[v_1_5];1000000)

Resposta: 2,76.

Valor-p

=VALOR_P_TESTE_T_MÉDIA_1POP(editais_proprios_capitais[v_1_5];1000000;"greater")

Resposta: 0,00.

Conclusão

Podemos afirmar que o montante médio dos editais com recursos próprios das capitais ultrapassou um milhão de reais, ao nível de significância 5%.

Teste $t$
Exercício

Existe evidência que o número médio de páginas (n_page) dos editais das capitais é superior a 50, ao nível significância 1%?
Existe evidência que o número de propostas previstas (v_1_7) dos editais com recursos próprios das capitais é inferior a 10, em média, ao nível significância 5%?

Teste $z$ para proporção de sucesso

Estatística de teste

Equação matemática

\[ z_0 = \frac{(\hat{p}-p_0) \cdot \sqrt{n}}{\sqrt{p_0 - p_0^2}} \]

Google Planilha

=ESTATÍSTICA_TESTE_T_PROP_1POP(intervalo;prop;sucesso)

intervalo: intervalo para calcular a estatística de teste.
prop: número que compõe as hipóteses.
sucesso: categoria que indica o sucesso.

Valor-p

Equação matemática

	$H_1: p - p_0<0$	$H_1: p - p_0>0$	$H_1: p - p_0\neq 0$
Equação	$P(Z<z_0 )$	$P(Z>z_0 )$	$2 \cdot (1 - P(Z < \lvert z_0 \rvert))$
Tipo	“less”	“greater”	“two_sided”

Google Planilha

=VALOR_P_TESTE_Z_PROP_1POP(intervalo;prop;sucesso;tipo)

intervalo: intervalo para calcular a estatística de teste.
prop: número que compõe as hipóteses.
sucesso: categoria que indica o sucesso.
tipo: um dos valores: “less”, “greater”, e “two_sided”.

Teste $z$ para proporção
Exemplo

Existe evidência que mais de 50% dos municípios brasileiros têm Plano de Cultura ao nível de significância 5%?

Estatística de teste

=ESTATÍSTICA_TESTE_Z_PROP_1POP(respostas[plano_cultura]; 0,5;"sim")

Resposta: 1,41

Valor-p

=VALOR_P_TESTE_Z_PROP_1POP(respostas[plano_cultura];0,5;"sim";"greater")

Resposta: 0,08

Conclusão

Não temos evidência para afirmar que mais de 50% dos munícipios brasileiros têm Plano de Cultura, ao nível de singificância 5%.

Teste $z$ para proporção
Exercício

Existe evidência para afirmamos que mais de 10% dos municípios têm Planos Setoriais (planos_setoriais) para as artes? Use $\alpha=5\%$.
Existe evidência para afirmarmos que maioria dos entes federativos no Brasil apoiam a Literatura (variavel linguagens_orgao___5 com sucesso igual a Checked)? Use $\alpha=1\%$.

Duas populações

Dois grupos (chamados de populações) complementamente independentes.
Experimento complementamente aleatório.
Se decidirmos por $H_1$, dizemos que temos uma relação de causa e efeito.

Neste curso

Intervalo de confiança para a diferença de médias (populacionais).
Intervalo de confiança para a diferença de proporções de sucesso (populacionais).
Teste de Hipóteses para a diferença de médias (populacionais).
Teste de Hipóteses para a diferença de proporções de sucesso (populacionais).

Intervalo de Confiança $t$ para diferença das médias

Intervalo de Confiança para a diferença de médias.

$\mu_1$: média da população 1
$\mu_2$: média da população 2
$\bar{x}_1$: média da amostra da população 1
$\bar{x}_2$: média da amostra da população 2
$\epsilon$: margem de erro

No Google Planilha

=MARGEM_ERRO_MÉDIA_2POP(intervalo1;intervalo2;conf)

intervalo1: células com os dados da população 1.
intervalo2: células com os dados da população 2.
conf: coeficiente de confiança.

Intervalo de Confiança $t$ para $\mu_1-\mu_2$
Exemplo

Margem de erro

=MARGEM_ERRO_MÉDIA_2POP(editais_proprios_capitais_norte[v_1_5];editais_proprios_capitais_sul[v_1_5];0,95)

Cálculo da média da população 1: A1
Cálculo da média da população 2: A2
Margem de erro: A3

Intervalo de confiança

=A1 - A2 - A3

=A1 - A2 + A3

LI: -R$ 3.394.943,72
LS: -R$ 570.488,11

A diferença entre o montante médio dos editais das capitais das regiões Norte, Nordeste e Centro-Oeste e o montante médio dos editais das capitais das região Sul e Sudeste está entre -R$ 3.394.943,72 e -R$ 570.488,11, com coeficiente de confiança 95%.

Intervalo de Confiança $t$ para $\mu_1-\mu_2$
Exercício

Construa um intervalo de confiança para a diferença entre o número médio de páginas (n_page) dos editais próprios das capitais das regiões Norte, Norte e Centro-Oeste e montante médio dos PNAB das capitais das regiões Sul e Suldeste. Use $\gamma=99\%$.
Construa um intervalo de confiança para a diferença entre o número médio de propostas previstas (v_1_7) dos editais próprios das capitais das regiões Norte, Norte e Centro-Oeste e número médio de propostas previstas dos PNAB das capitais das regiões Sul e Suldeste. Use $\gamma=95\%$.

Intervalo de Confiança $Z$ para a diferença de proporções

Intervalo de Confiança para a diferença de proporções populacionais de sucesso.

$p_1$: proporção de sucesso da população 1
$p_2$: proporção de sucesso população 2
$\hat{p}_1$: média da amostra da população 1
$\hat{p}_2$: média da amostra da população 2
$\epsilon$: margem de erro

No Google Planilha

=MARGEM_ERRO_PROP_2POP(intervalo1;intervalo2;sucesso;conf)

intervalo1: células com os dados da população 1.
intervalo2: células com os dados da população 2.
sucesso: categoria que indica sucesso.
conf: coeficiente de confiança.

Intervalo de Confiança $Z$ para $p_1-p_2$

IC para a diferença entre a proporção de entes que apoiam Circo (linguagens_orgao__3) entre cidades de pequeno porte (menos de 100 mil habitantes) e cidades de grande porte (mais de 100 mil habitantes).

=MARGEM_ERRO_PROP_2POP(cidade_pequena[linguagens_orgao___3];cidade_grande[linguagens_orgao___3];"Checked";0,95)

Cálculo da proporção de sucesso da população 1: A1
Cálculo da proporção de sucesso da população 2: A2
Margem de erro: A3

=A1-A2-A3

=A1-A2+A3

LI: -60,32%
LS: -24,29%

A diferença entre a porcentagem de cidades pequenas que apoiam o circo e a porcentagem de cidades grandes que apoiam circo está etnre -60,32% e -24,29%, com coeficiente de confiança 95%.

Intervalo de Confiança $Z$ para $p_1 - p2$

Exercício

Construa um Intervalo de Confiança para a diferença entre a proporção de editais com recursos próprios das capitais que preveem apoio ao circo (v_3_2__3) entre as capitais das regiões Norte, Nordeste e Centro-Oeste e as capitais das regiões Sul e Sudeste. Use $\gamma=95\%$.
Construa um Intervalo de Confiança para a diferente entre a proporção de entes que apoiam literatura (linguagens_orgao__4) entre cidades de pequeno porte (menos de 100 mil habitantes) e grande porte (mais de 100 mil habitantes). Use $\gamma=99\%$.

Teste $t$ para $\mu_1-\mu_2$

Estatística de teste

Equação matemática

\[ t_0 = \frac{\bar{x}_1 - \bar{x_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]

$\bar{x_1}$ e $s_1$: média e desvio padrão da amostra da população 1;
$\bar{x_2}$ e $s_2$: média e desvio padrão da amostra da população 2.

Google planilha

=ESTATÍSTICA_TESTE_T_MÉDIA_2POP(intervalo1; intervalo2)

intervalo1: dados da população 1.
intervalo2: dados da população 2.

Valor-p

Equação matemática

	$H_1: \mu_1 - \mu_2<0$	$H_1: \mu_1 - \mu_2\neq 0$
Equação	$P(t_\nu<t_0 )$	$2 \cdot (1 - P(t_\nu < \lvert t_0 \rvert))$
Cauda	Unilateral	Bilateral
Cauda - Google Planilha	1	2

$\mu_1$ é a média populacional da população 1, $\mu_2$ é a média populacional da população 2, e $\nu$ é grau de liberdade pela correção de Welch.

Google Planilha

=TESTET(intervalo1; intervalo2; cauda; 3)

intervalo1: células com dados da população 1.
intervalo2: células com dados da população 2.
cauda: 1 - cauda unilateral, 2 - cada bilateral·

Teste $t$ para $\mu_1 - \mu_2$

Exemplo

Existe diferença entre o valor complementado nos editais LAB e LPG para as cidades brasileiras? Use $\alpha=5\%$.

População 1: valores complementados - LAB.
população 2: valores complementados - LPG.

\[ \begin{split} H_0 &: \mu_1 - \mu_2 = 0\\ H_1 &: \mu_1 - \mu_2 \neq 0 \end{split} \]

Estatística de teste

=ESTATÍSTICA_TESTE_T_MÉDIA_2POP(editais_proprios_capitais_norte[v_1_5];editais_proprios_capitais[v_1_5])

Respostas: -2,18

Valor-p

=TESTET(editais_proprios_capitais_norte[v_1_5];editais_proprios_capitais_sul[v_1_5];1;3)

Respostas: 0,00

Em média, o montante dos editais próprios das capitais das regiões Norte, Nordeste e Centro-Oeste é menor que o montante dos editais próprios das capitais das regiões Sul e Sudeste, ao nível de significância 1%.

Teste $t$ para $\mu_1-\mu_2$
Exercício

Ao nível de significância 1%, existe evidência que o número de página (n_page) os chamamentos públicos com recursos próprios das capitais das regiões Sul e Sudeste é maior que o valor total dos editais das capitais das regiões Norte, Nordeste e Centro-Oeste?
Ao nível de significância 5%, existe evidência que o número de propostas (v_1_7) previsto no editais nas capitais das regiões Sul e Sudeste é menor que o total de propostas previstas nos chamamentos públicos das regiões Sul, Sudeste e Centro-Oeste?

Teste $Z$ para $p_1-p_2$

Estatística de teste

Equação matemática

\[ z_0 = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{ \frac{\hat{p}(1-\hat{p})}{n_1} + \frac{\hat{p}(1-\hat{p})}{n_2} }} \]

$\hat{p}_1$ é a proporção de sucesso na população 1 e $n_1$ é o tamanho da amosta da população 1;
$\hat{p}_2$ é a proporção de sucesso na população 2 e $n_2$ é o tamanho da amosta da população 2;
$\hat{p}$ é a proporção de sucesso nas duas populações.

Equação matemática

	$H_1: p_1 - p_2<0$	$H_1: p_1 - p_2>0$	$H_1: p_1 - p_2\neq 0$
Equação	$P(Z<t_0 )$	$1-P(Z<t_0 )$	$2 \cdot (1 - P(Z < \lvert t_0 \rvert))$
Tipo	“less”	“greater”	“two_sided”

$p_1$ é a proporção populacional de sucesso da população 1
$p_2$ é a proporção populacional de sucesso da população 2

Google Planilha

=VALOR_P_TESTE_Z_PROP(intervalo1;intervalo2;sucesso;tipo)

intervalo1: células com dados da população 1.
intervalo2: células com dados da população 2.
sucesso: categoria que indica sucesso.
tipo: “less”, “greater” ou “two_sided”.

Teste $Z$ para $p_1 - p_2$

Exemplo

Ao nível de significância 5%, existe evidência que as cidades de grande porte (mais de 100 mil habitantes) apoiam, proporcionalmente, mais o circo (linguagens_orgao__3) do que cidade de pequeno porte (100 mil habitantes ou menos)?

População 1: cidades de grande porte.
População 2: cidades de pequeno porte

\[ \begin{split} H_0 &: p_1 - p_2 \leq 0\\ H_1 &: p_1 - p_2 > 0 \end{split} \]

Estatística de teste

=ESTATÍSTICA_TESTE_Z_PROP_2POP(cidade_grande[linguagens_orgao___3];cidade_pequena[linguagens_orgao___3];"Checked")

Respostas: 4,17

Valor-p

=VALOR_P_TESTE_Z_PROP_2POP(cidade_grande[linguagens_orgao___3];cidade_pequena[linguagens_orgao___3];"Checked";"greater")

Resposta: 0,00

Ao nível de significância 5%, cidades de grande apoiam proporcionalmente mais o circo do que cidades de pequeno porte.

Teste $Z$ para $p_1 - p_2$

Exercício

Existe evidência de que as capitais das regiões Sul e Sudeste apoiam, proporcionalmente, mais o Circo (v_3_2__3) com recursos próprios do que as capitais das regiões Norte, Nordeste e Centro-Oeste? Use $\alpha=5\%$ e utilize o conjunto de dados pnab-capitais.xlsx.
Existe evidência de cidades de grande porte apoiam, proporcionalmente, mais a Literatura (linguagens_orgao__4) do que as cidades de pequeno porte. Use $\alpha=1\%$ e utilize o conjunto de dados respostas.xlsx.

	\(H_1: \mu - \mu_0<0\)	\(H_1: \mu - \mu_0>0\)	\(H_1: \mu - \mu_0\neq 0\)
Equação	\(P(t_{n-1}<t_0 )\)	\(P(t_{n-1}>t_0 )\)	\(2 \cdot (1 - P(t_{n-1} < \lvert t_0 \rvert))\)
Tipo	“less”	“greater”	“two_sided”

	\(H_1: p - p_0<0\)	\(H_1: p - p_0>0\)	\(H_1: p - p_0\neq 0\)
Equação	\(P(Z<z_0 )\)	\(P(Z>z_0 )\)	\(2 \cdot (1 - P(Z < \lvert z_0 \rvert))\)
Tipo	“less”	“greater”	“two_sided”

	\(H_1: p_1 - p_2<0\)	\(H_1: p_1 - p_2>0\)	\(H_1: p_1 - p_2\neq 0\)
Equação	\(P(Z<t_0 )\)	\(1-P(Z<t_0 )\)	\(2 \cdot (1 - P(Z < \lvert t_0 \rvert))\)
Tipo	“less”	“greater”	“two_sided”

	\(H_1: \mu_1 - \mu_2<0\)	\(H_1: \mu_1 - \mu_2\neq 0\)
Equação	\(P(t_\nu<t_0 )\)	\(2 \cdot (1 - P(t_\nu < \lvert t_0 \rvert))\)
Cauda	Unilateral	Bilateral
Cauda - Google Planilha	1	2

Inferência EstatísticaGoogle Planilhas

Inferência Estatística

Inferência

Inferência Dedutiva

Exemplo

Inferência Indutiva

Exemplo

O que vamos ver nesse curso?

Probabilidade

Alguns conceitos

Alguns conceitosExemplo

Variável aleatória

Função

O que é uma variável aleatória?

Classificação de variável aleatória

Variável aleatória discreta

Variável aleatório contínua

Exemplo ingênio para fixação

Como usar variável aleatória?

No nosso curso

Distribuição Binomial

Calculando probabilidadesVariável aleatória discreta

Distribuição Binomial

Quando usar

Parâmetro

No Google Planilha

fp e fda

Quantil de ordem prob

Distribuição Binomial

Exemplo:

Distribuição Bernoulli

Exemplo

Distribuição Normal

Calculando probabilidadesVariável aleatória contínua

Distribuição Normal

Quando usar

Parâmetros

No Google Planilha

fda

Quantil de ordem proba

Distribuição normal

Exemplo:

No Google Planilha

Inferência EstatísticaIntervalo de Confiança

Intervalo de Confiançaproporção de sucesso \(p\)

Interpretação

InterpretaçãoIntervalo de Confiança

Intervalo de Confiança \(t\)

No Google Planilha

Intervalo de confiança \(t\)Exemplo

Intervalo de confiança \(t\)

Exercício

Intervalo de Confiança \(z\) para proporção

No Google Planilha

Intervalo de Confiança \(z\)Exemplo

Intervalo de Confiança \(z\)Exercício

Teste de Hipóteses

Definindo o contexto

Decisão usando amostra

Erros

Como decidir?

Valor-p

Teste t

Estatística de teste

Valor-p

Teste \(t\)Exemplo

Estatística de teste

Valor-p

Conclusão

Teste \(t\)Exercício

Teste \(z\) para proporção de sucesso

Estatística de teste

Valor-p

Teste \(z\) para proporçãoExemplo

Estatística de teste

Valor-p

Conclusão

Teste \(z\) para proporçãoExercício

Duas populações

Duas populações

Inferência Estatística

Google Planilhas

Alguns conceitos
Exemplo

Calculando probabilidades
Variável aleatória discreta

Quantil de ordem `prob`

Calculando probabilidades
Variável aleatória contínua

Quantil de ordem `proba`

Inferência Estatística

Intervalo de Confiança

Intervalo de Confiança
proporção de sucesso \(p\)

Interpretação
Intervalo de Confiança

Intervalo de confiança \(t\)
Exemplo

Intervalo de Confiança \(z\)
Exemplo

Intervalo de Confiança \(z\)
Exercício

Teste \(t\)
Exemplo

Teste \(t\)
Exercício

Teste \(z\) para proporção
Exemplo

Teste \(z\) para proporção
Exercício

Intervalo de Confiança \(t\) para \(\mu_1-\mu_2\)
Exemplo

Intervalo de Confiança \(t\) para \(\mu_1-\mu_2\)
Exercício

Teste \(t\) para \(\mu_1-\mu_2\)
Exercício