Estatística
Definição: é a ciência que se ocupa de coletar, organizar, analisar e interpretar dados a fim
de tomar decisões.
A estatística é dividia em dois ramos:
Estatística descritiva - ramos que trata da organização, do resumo e da apresentação dos dados.
Estatística inferencial - ramo que trata de tirar conclusões sobre uma população a partir de uma amostra. A ferramenta básica no estudo da estatística inferencial é a probabilidade.
Quanto ao conceito de população e amostra:
População: é um conjunto de elementos que detém uma característica comum sobre o qual se deseja obter informações para se desenvolver alguma análise.
Amostra: é um conjunto reduzido da população que mantém todas as características essenciais da mesma.
A amostragem deverá ser representativa e para isso utiliza-se as seguintes técnicas:
Técnicas de amostragem
1 - amostragem aleatória simples:
2 - amostragem aleatória estratificada
3 - amostragem sistemática
4 - amostragem por conglomerado: para trabalhar com regiões, um bloco de casas por exemplo;
Variável estatística é o que está sendo observado, divide-se em:
Qualitativas nominais
Qualitativas ordinais
Quantitativas discretas (só podem ter números inteiros)
Quantitativas contínuas (são todas as medidas: altura, peso, volume, etc)
Fases do método estatístico
-
Definição do problema
-
Planejamento da pesquisa
-
Coleta dos dados
-
Apuração dos dados
-
Exposição ou apresentação dos dados
-
Análise dos resultados (interpretação dos dados)
Tabelas estatísticas são também chamadas séries estatísticas:
Padrão: título, cabeçalhos, dados coletados e a fonte, não pode fechar as laterais
Gráfico:
-
Forme de apresentação dos dados coletados na pesquisa
-
Precisa ter clareza, simplicidade e veracidade
-
Pode ser representado por desenho ou figuras geométricas
Teoria da probabilidade
Experimento aleatório
Dados:
1 - estatísticos
2 - brutos
3 - rol
4 - contínuos
5 - discretos
6 - nominais
7 - por postos
Distribuição de frequência:
Medidas de tendência central e separatrizes:
1 - média aritmética simples
2 - média aritmética ponderada
3 - média geométrica
4 - média geométrica ponderada
5 - média harmônica
6 - média harmônica ponderada
7 - moda
8 - mediana
9 - quartis, decis e centis
Medidas de dispersão:
1 - amplitude total
2 - desvio médio absoluto (dma)
3 - amplitude semi-interquartílica
4 - desvio padrão
5 - variância
6 - dispersão relativa- coeficiente de variação
Números índices
Momentos
Assimetria
Curtose
Probabilidade
Variáveis aleatórias unidimensionais
Variáveis aleatórias bidimensionais
A distribuição normal
Estimativa e intervalo de confiança
Testes de hipóteses
A distribuição do qui-quadrado
Correlação
Regressão linear simples
Ajustamento de curvas (parábola mínimos quadrados, curva geométrica, curva exponencial, etc)
----------------------------------------------------
O que é o PNAD do IBGE?
O sistema de pesquisas domiciliares, implantado no Brasil com a criação da Pesquisa Nacional por Amostra de Domicílios - PNAD, tem como finalidade a produção de informações básicas para o estudo do desenvolvimento socioeconômico do País.
Inconsistência dos dados, ponderação dos dados, tabular os dados, analisar os resultados, interpretação dos dados.
Utilizar a tecnologia da informação.
Termos relacionados:
“Um outlier é uma observação que se diferencia tanto das demais observações que levanta suspeitas de que aquela observação foi gerada por um mecanismo distinto” (Hawkins, 1980), em outras palavras os outliers são dados que se distanciam radicalmente de todos os outros São pontos fora da curva normal, valores que fogem da normalidade e que podem causar desequilíbrio nos resultados obtidos. Um conjunto de dados pode apresentar um ou vários outliers.
Os outliers podem ser divididos em dois grupos os univariados e os multivariados. O primeiro caso é verificado ao se analisar a distribuição de uma variável simples: analisando apenas a distribuição de idades pode-se verificar a presença do outlier. O outlier multivariado pode ser detectado em espaço “n-dimensional”. É necessário recorrer a distribuições multidimensionais para poder observa-lo.
A inferência bayesiana consiste na avaliação de hipóteses pela máxima verossimilhança, uma decorrência imediata da fórmula de Bayes, e é fundamental para métodos computacionais relacionados à inteligência, mineração de dados, ou linguística, sejam eles métodos bayesianos de aprendizado de máquina ou não-bayesianos.
Em teoria das probabilidades e estatística, o teorema de Bayes (alternativamente, a lei de Bayes ou a regra de Bayes) descreve a probabilidade de um evento, baseado em um conhecimento a priori que pode estar relacionado ao evento. O teorema mostra como alterar as probabilidades a priori tendo em vista novas evidências para obter probabilidades a posteriori.