IME/UFBA - OBEC
Argumentação e lógica para desenhar conclusões e predições.
A partir de alguns casos, desenham-se conclusões e predições.
Estudo de 96 entes federativos para análise do fomento às artes para todos os mais de 5 mil entes federativos do Brasil.
Controlamos o erro da generalização usando probabilidade.
Ideia: associar números (ou intervalo de números) a probabilidade.
Variável aleatória.
Exemplo: número de propostas previstas no edital.
Exemplo: montante do edital.
Existem diversas variáveis aleatórias (livros inteiros).
80% dos problemas na Estatística e Ciência de Dados são resolvidos com:
proba: Q(proba)
proba.Probabilidade sucesso: \(p\).
x: valor do suporten: número de casosp: probabilidade sucessocumulativa: indica se queremos calcular fp ou fda
1: a função calcula fda0: a função calcula fpProbabilidade de 11 cidades do Recôncavo Baiano ter cinema:
Resultado: 0,03 (3%).
Probabilidade de até 11 cidades terem cinema:
Resultado: 0,04 (4%).
Quantil de ordem 90%:
Resultado: 17
Resultado: até 17 cidades têm cinema.
Distribuição binomial quando \(n=1\) (apenas um caso).
Probabilidade da cidade tem plano de cultura:
Resultado: 0,95.
Probabilidade de fracasso:
Resultado: 0,05.
proba: Q(proba)
proba.x: valor do suportemedia: média (populacional)desvio padrão: desvio padrão (populacional)Ideia: Encontrar \(LI\) e \(LS\) tal que
\[ LI \leq p \leq LS \]
\((LI, LS)\) é chamado de Intervalo de Confiança (IC).
Impossível sempre produzir um resultado correto!
| x1 | x2 | x3 | x4 | x5 | li | ls | média populacional |
|---|---|---|---|---|---|---|---|
| 1.087.275,5 | 1.096.954,5 | 1.038.384,7 | 814.844,4 | 994.600,3 | 864.030,4 | 1.106.399,8 | 1.000.000 |
| 1.106.477,3 | 1.081.319,5 | 980.918,3 | 730.007,0 | 1.006.096,7 | 795.298,8 | 1.111.347,7 | 1.000.000 |
| 1.057.375,2 | 1.004.580,4 | 1.015.741,2 | 1.043.156,5 | 960.345,0 | 969.462,3 | 1.049.089,2 | 1.000.000 |
| 992.654,2 | 861.297,3 | 869.332,4 | 923.160,5 | 947.289,2 | 850.628,5 | 966.583,0 | 1.000.000 |
| 915.118,4 | 891.148,0 | 951.570,9 | 966.368,9 | 984.664,2 | 894.436,0 | 975.017,4 | 1.000.000 |
| 929.756,1 | 968.857,0 | 833.684,3 | 924.946,7 | 922.264,8 | 854.197,8 | 959.233,6 | 1.000.000 |
Intervalo de Confiança para média populacional.
Margem de erro
Margem de erro:
Resposta: R$ 811.755,45
Média:
Resposta: R$ 2.119.487,86
Intervalo de Confiança:
\[ \begin{split} (LI, LS) &= (2.119.487,86 - 811.755,45; 2.119.487,86 + 811.755,45)\\ &= (1.307.732,42; 2.931.243,31) \end{split} \]
O montante dos editais com recursos próprios nas capitais no ano de 2023 teve valor médio entre R$ 1.307.732,42 e R$ 2.931.243,31, com coeficiente de confiança 95%.
Nos exercícios abaixo, use \(\gamma=95\%\).
v_1_7) nos editais com recursos próprios das capitais.n_page) nos editais com recursos próprios das capitais.Calculamos \(\epsilon\) na mão: criei uma função nomeada.
Proporção de sucesso
intervalo: células com os dados categóricos.sucesso: categoria que indica sucesso.Margem de erro
intervalo: células com os dados categóricos.sucesso: categoria que indica sucesso.conf: Coeficiente de Confiança.IC para a proporção de cidades com plano de cultura com coeficiente de confiança 99%.
Proporção de sucesso
Resposta: 0,57
Margem de erro
A proporção de cidades com plano de cultura no Brasil está entre 44% e 70%, com coeficiente de confiança 99%.
linguagens_orgao___2). Use \(\gamma=95\)%.linguagens_orgao___5). Use \(\gamma=90\)%.Use o arquivo respostas.xlsx.
Objetivo:
Decidir entre \(H_0\) (hipótese nula) e \(H_1\) (hipótese alternativa) usando as evidências da amostra.
Decisão usando evidência na amostra:
Como temos uma tendência de continuar em \(H_0\) na ausência de evidências,escrevemos:
Podemos cometer dois erros ao decidir:
Não existe uma regra (estratégia) de decisão que minimiza \(\alpha\) e \(\beta\) simultaneamente.
\(\alpha\) e \(\beta\) são erros concorrentes.
Tradeoff entre \(\alpha\) e \(\beta\).
Encontrar regra de decisão satisfazendo:
\(\alpha\) é chamado de nível de significância.
Amostras com 10 editais.
Calculamos uma distância entre a média amostral e \(\mu_0\):
Esta distância é chamada de estatística de teste.
\(p\): proporção de amostras com estatística de teste mais extrema que a estatística de teste observada.
Equação matemática
\[ t_0 = \frac{(\bar{x}-\mu_0) \cdot \sqrt{n}}{s} \]
Google Planilha
intervalo: intervalo para calcular a estatística de teste.mu: número que compõe as hipóteses.Equação matemática
| \(H_1: \mu - \mu_0<0\) | \(H_1: \mu - \mu_0>0\) | \(H_1: \mu - \mu_0\neq 0\) | |
|---|---|---|---|
| Equação | \(P(t_{n-1}<t_0 )\) | \(P(t_{n-1}>t_0 )\) | \(2 \cdot (1 - P(t_{n-1} < \lvert t_0 \rvert))\) |
| Tipo | “less” | “greater” | “two_sided” |
Google Planilha
intervalo: intervalo para calcular a estatística de teste.tipo: um dos valores: “less”, “greater”, e “two_sided”.mu: número que compõe as hipóteses.Existe evidência que o montante médio dos editais próprios das capitais em 2023 ultrapassou o limiar de um milhão de reais, ao nível de significância 5%?
Resposta: 2,76.
Resposta: 0,00.
Podemos afirmar que o montante médio dos editais com recursos próprios das capitais ultrapassou um milhão de reais, ao nível de significância 5%.
n_page) dos editais das capitais é superior a 50, ao nível significância 1%?v_1_7) dos editais com recursos próprios das capitais é inferior a 10, em média, ao nível significância 5%?Equação matemática
\[ z_0 = \frac{(\hat{p}-p_0) \cdot \sqrt{n}}{\sqrt{p_0 - p_0^2}} \]
Google Planilha
intervalo: intervalo para calcular a estatística de teste.prop: número que compõe as hipóteses.sucesso: categoria que indica o sucesso.Equação matemática
| \(H_1: p - p_0<0\) | \(H_1: p - p_0>0\) | \(H_1: p - p_0\neq 0\) | |
|---|---|---|---|
| Equação | \(P(Z<z_0 )\) | \(P(Z>z_0 )\) | \(2 \cdot (1 - P(Z < \lvert z_0 \rvert))\) |
| Tipo | “less” | “greater” | “two_sided” |
Google Planilha
intervalo: intervalo para calcular a estatística de teste.prop: número que compõe as hipóteses.sucesso: categoria que indica o sucesso.tipo: um dos valores: “less”, “greater”, e “two_sided”.Existe evidência que mais de 50% dos municípios brasileiros têm Plano de Cultura ao nível de significância 5%?
Resposta: 1,41
Resposta: 0,08
Não temos evidência para afirmar que mais de 50% dos munícipios brasileiros têm Plano de Cultura, ao nível de singificância 5%.
planos_setoriais) para as artes? Use \(\alpha=5\%\).linguagens_orgao___5 com sucesso igual a Checked)? Use \(\alpha=1\%\).Intervalo de Confiança para a diferença de médias.
intervalo1: células com os dados da população 1.intervalo2: células com os dados da população 2.conf: coeficiente de confiança.A1A2A3A diferença entre o montante médio dos editais das capitais das regiões Norte, Nordeste e Centro-Oeste e o montante médio dos editais das capitais das região Sul e Sudeste está entre -R$ 3.394.943,72 e -R$ 570.488,11, com coeficiente de confiança 95%.
n_page) dos editais próprios das capitais das regiões Norte, Norte e Centro-Oeste e montante médio dos PNAB das capitais das regiões Sul e Suldeste. Use \(\gamma=99\%\).v_1_7) dos editais próprios das capitais das regiões Norte, Norte e Centro-Oeste e número médio de propostas previstas dos PNAB das capitais das regiões Sul e Suldeste. Use \(\gamma=95\%\).Intervalo de Confiança para a diferença de proporções populacionais de sucesso.
intervalo1: células com os dados da população 1.intervalo2: células com os dados da população 2.sucesso: categoria que indica sucesso.conf: coeficiente de confiança.IC para a diferença entre a proporção de entes que apoiam Circo (linguagens_orgao__3) entre cidades de pequeno porte (menos de 100 mil habitantes) e cidades de grande porte (mais de 100 mil habitantes).
A1A2A3A diferença entre a porcentagem de cidades pequenas que apoiam o circo e a porcentagem de cidades grandes que apoiam circo está etnre -60,32% e -24,29%, com coeficiente de confiança 95%.
v_3_2__3) entre as capitais das regiões Norte, Nordeste e Centro-Oeste e as capitais das regiões Sul e Sudeste. Use \(\gamma=95\%\).linguagens_orgao__4) entre cidades de pequeno porte (menos de 100 mil habitantes) e grande porte (mais de 100 mil habitantes). Use \(\gamma=99\%\).Equação matemática
\[ t_0 = \frac{\bar{x}_1 - \bar{x_2}}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]
Google planilha
intervalo1: dados da população 1.intervalo2: dados da população 2.Equação matemática
| \(H_1: \mu_1 - \mu_2<0\) | \(H_1: \mu_1 - \mu_2\neq 0\) | |
|---|---|---|
| Equação | \(P(t_\nu<t_0 )\) | \(2 \cdot (1 - P(t_\nu < \lvert t_0 \rvert))\) |
| Cauda | Unilateral | Bilateral |
| Cauda - Google Planilha | 1 | 2 |
\(\mu_1\) é a média populacional da população 1, \(\mu_2\) é a média populacional da população 2, e \(\nu\) é grau de liberdade pela correção de Welch.
Google Planilha
intervalo1: células com dados da população 1.intervalo2: células com dados da população 2.cauda: 1 - cauda unilateral, 2 - cada bilateral·Existe diferença entre o valor complementado nos editais LAB e LPG para as cidades brasileiras? Use \(\alpha=5\%\).
\[ \begin{split} H_0 &: \mu_1 - \mu_2 = 0\\ H_1 &: \mu_1 - \mu_2 \neq 0 \end{split} \]
Respostas: -2,18
Respostas: 0,00
Em média, o montante dos editais próprios das capitais das regiões Norte, Nordeste e Centro-Oeste é menor que o montante dos editais próprios das capitais das regiões Sul e Sudeste, ao nível de significância 1%.
n_page) os chamamentos públicos com recursos próprios das capitais das regiões Sul e Sudeste é maior que o valor total dos editais das capitais das regiões Norte, Nordeste e Centro-Oeste?v_1_7) previsto no editais nas capitais das regiões Sul e Sudeste é menor que o total de propostas previstas nos chamamentos públicos das regiões Sul, Sudeste e Centro-Oeste?Equação matemática
\[ z_0 = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{ \frac{\hat{p}(1-\hat{p})}{n_1} + \frac{\hat{p}(1-\hat{p})}{n_2} }} \]
Equação matemática
| \(H_1: p_1 - p_2<0\) | \(H_1: p_1 - p_2>0\) | \(H_1: p_1 - p_2\neq 0\) | |
|---|---|---|---|
| Equação | \(P(Z<t_0 )\) | \(1-P(Z<t_0 )\) | \(2 \cdot (1 - P(Z < \lvert t_0 \rvert))\) |
| Tipo | “less” | “greater” | “two_sided” |
Google Planilha
intervalo1: células com dados da população 1.intervalo2: células com dados da população 2.sucesso: categoria que indica sucesso.tipo: “less”, “greater” ou “two_sided”.Ao nível de significância 5%, existe evidência que as cidades de grande porte (mais de 100 mil habitantes) apoiam, proporcionalmente, mais o circo (linguagens_orgao__3) do que cidade de pequeno porte (100 mil habitantes ou menos)?
\[ \begin{split} H_0 &: p_1 - p_2 \leq 0\\ H_1 &: p_1 - p_2 > 0 \end{split} \]
Respostas: 4,17
Resposta: 0,00
Ao nível de significância 5%, cidades de grande apoiam proporcionalmente mais o circo do que cidades de pequeno porte.
v_3_2__3) com recursos próprios do que as capitais das regiões Norte, Nordeste e Centro-Oeste? Use \(\alpha=5\%\) e utilize o conjunto de dados pnab-capitais.xlsx.linguagens_orgao__4) do que as cidades de pequeno porte. Use \(\alpha=1\%\) e utilize o conjunto de dados respostas.xlsx.IME/UFBA
OBEC