Friday, 21 July 2017

Multiple Lags In Stata Forex


Bem-vindo ao Instituto de Pesquisa e Educação Digital SAS Perguntas freqüentes: Como criar variáveis ​​de atraso e de chumbo em dados longitudinais Ao olhar os dados em unidades consistentes de tempo (anos, trimestres, meses), muitas vezes há interesse em criar variáveis ​​com base em como Dados para um dado período compara com os períodos antes e depois. Se você tem dados longitudinais, você deseja olhar através de unidades de tempo dentro de um único assunto. Quando seus dados estão em forma longa (uma observação por ponto de tempo por assunto), isso pode ser facilmente manipulado no Stata com etapas de criação de variáveis ​​padrão devido à maneira pela qual Stata processa conjuntos de dados: armazena todo o conjunto de dados e pode facilmente se referir a qualquer Ponto no conjunto de dados ao gerar variáveis. SAS funciona de forma diferente. As variáveis ​​SAS são tipicamente criadas através de uma etapa de dados em que o SAS se move através do conjunto de dados, observação por observação, realizando os cálculos para a observação dada e acessando apenas uma observação de cada vez. Esse sistema de armazenamento e acesso de dados possibilita que o SAS analise grandes conjuntos de dados, mas também muito difícil criar variáveis ​​de séries temporais no SAS usando um passo de dados. No entanto, proc expand fornece uma alternativa fácil de usar para a etapa de dados. Vamos começar com um conjunto de dados de exemplo contendo apenas um assunto. O conjunto de dados abaixo contém as taxas de desemprego dos EUA de setembro de 2006 a agosto de 2008. Para cada mês, queremos saber a diferença entre sua taxa ea taxa do mês anterior (r (i) - r (i-1)), (R (i1) - r (i)) - (r (i) - r (i-1), e sua taxa e a taxa do próximo mês ) Para isso, usaremos proc expand para gerar um novo conjunto de dados incluindo estas variáveis. Na linha de expansão proc, vamos nomear o novo dataset unemplaglead. Indicamos que não desejamos transformar os valores (usando um spline, Por exemplo), mas simplesmente para pegar os dados não transformados a partir do registro especificado. Nós indicamos que nossa série de tempo é definido por data na linha de id e nas três linhas de conversão, criamos os três valores que desejamos ter para cada ponto de tempo em Nossos dados: a taxa, a taxa anterior (ratelag1) e a próxima taxa (ratelead1). Em cada linha, dizemos ao SAS o nome da variável em nosso novo conjunto de dados, o tipo de transformação (lag. Lead) eo número De pontos de tempo para olhar para trás ou à frente para a transformação (1 neste exemplo). Podemos ver o conjunto de dados resultante. Baseado neste conjunto de dados, agora podemos calcular facilmente as três variáveis ​​de séries temporais descritas anteriormente. Mas se tivéssemos dados para vários países O conjunto de dados abaixo contém dados de desemprego de 2000-2005 para três países. Desejamos criar variáveis ​​de atraso e lead dentro de cada país. Para fazer isso, podemos usar proc expand com uma declaração by depois de classificar no país. Com proc expand. Você também pode gerar médias móveis, splines e valores interpolados. Para obter mais detalhes, consulte as páginas expandir proc da SAS Online Documentation. The resposta depende do que você quer fazer. Minimizar AIC ou BIC é um critério para selecionar um comprimento de atraso. Você tem várias variáveis ​​que você está tentando ajustar modelos separados para cada variável ou um vetor único autorregressão No caso posterior, você deve usar Statas varsoc comando com várias variáveis ​​e escolher o atraso dessa forma. Por exemplo, calculará um comprimento ótimo de atraso (de acordo com AIC, BIC, etc.) para uma autorregressão de vetor com variáveis ​​x. Y. E z. Suponha que a resposta é 3 defasagens de acordo com BIC (recomendado para VAR). Em seguida, o modelo pode ser ajustado usando: Se você precisar restringir certos retornos para zero para determinados coeficientes, use o comando constraint. Por exemplo, você precisa do terceiro atraso em x na equação para y ser zero (talvez haja razões teóricas para isso). O que se segue funcionará: respondido 22 de novembro às 16: 30Bem-vindo ao Instituto de Pesquisa e Educação Digital Regressão com Stata Capítulo 1 - Regressão Simples e Múltipla Esboço do Capítulo 1.0 Introdução 1.1 A Primeira Análise de Regressão 1.2 Exame de Dados 1.3 Regressão linear simples 1.4 Regressão múltipla 1.5 Transformando variáveis ​​1.6 Sumário 1.7 Auto-avaliação 1.8 Para mais informações Este livro é composto de quatro capítulos que cobrem uma variedade de tópicos sobre o uso de Stata para regressão. Devemos enfatizar que este livro é sobre análise de quotdata e que demonstra como Stata pode ser usado para análise de regressão, ao contrário de um livro que abrange a base estatística de regressão múltipla. Suponhamos que você tenha tido pelo menos um curso de estatística abrangendo análises de regressão e que você tenha um livro de regressão que possa usar como referência (consulte a página Regressão com Stata e nossa página de Livros de estatísticas para empréstimos para obter os livros de análise de regressão recomendados). Este livro é projetado para aplicar o seu conhecimento de regressão, combiná-lo com a instrução sobre Stata, para realizar, compreender e interpretar análises de regressão. Este primeiro capítulo abrangerá tópicos em regressão simples e múltipla, bem como as tarefas de suporte que são importantes na preparação para analisar seus dados, p. Verificar dados, familiarizar-se com o arquivo de dados e examinar a distribuição de suas variáveis. Vamos ilustrar os fundamentos da regressão simples e múltipla e demonstrar a importância de inspecionar, verificar e verificar seus dados antes de aceitar os resultados de sua análise. Em geral, esperamos mostrar que os resultados de sua análise de regressão podem ser enganosos sem mais sondagem de seus dados, o que poderia revelar relacionamentos que uma análise casual poderia ignorar. Neste capítulo, e em capítulos subseqüentes, estaremos usando um arquivo de dados que foi criado por amostragem aleatória de 400 escolas primárias do Departamento de Educação da Califórnia API 2000 dataset. Este arquivo de dados contém uma medida do desempenho acadêmico da escola, bem como outros atributos das escolas primárias, tais como, tamanho da turma, inscrição, pobreza, etc Você pode acessar este arquivo de dados na web a partir do Stata com o comando Stata use como mostrado abaixo. Nota: Não digite o ponto inicial no comando - o ponto é uma convenção para indicar que a instrução é um comando Stata. Depois de ter lido o arquivo, você provavelmente deseja armazenar uma cópia dele no seu computador (para que você não precisa de lê-lo na web cada vez). Vamos dizer que você está usando o Windows e deseja armazenar o arquivo em uma pasta chamada c: regstata (você pode escolher um nome diferente, se quiser). Primeiro, você pode fazer esta pasta dentro do Stata usando o comando mkdir. Podemos então mudar para esse diretório usando o comando cd. E, em seguida, se você salvar o arquivo será salvo na pasta c: regstata. Permite salvar o arquivo como elemapi. Agora o arquivo de dados é salvo como c: regstataelemapi. dta e você poderia sair Stata eo arquivo de dados ainda estaria lá. Quando você deseja usar o arquivo no futuro, basta usar o comando cd para mudar para o diretório c: regstata (ou o que você chamou) e, em seguida, usar o arquivo elemapi. 1.1 Uma primeira análise de regressão Permite mergulhar diretamente e realizar uma análise de regressão usando as variáveis ​​api00. Acsk3. Refeições e completo. Estas medem o desempenho acadêmico da escola (api00), o tamanho médio das aulas no pré-escolar até o 3º ano (acsk3), a percentagem de alunos que recebem refeições gratuitas - que é um indicador de pobreza ea percentagem de professores que têm Credenciais de ensino completo (completo). Esperamos que um melhor desempenho acadêmico seja associado ao menor número de alunos, menos estudantes recebendo refeições gratuitas e uma maior porcentagem de professores com credenciais de ensino completo. Abaixo, mostramos o comando Stata para testar este modelo de regressão seguido da saída Stata. Vamos focar nos três preditores, se eles são estatisticamente significativos e, em caso afirmativo, a direção da relação. O tamanho médio da classe (acsk3.b-2.68), não é estatisticamente significante no nível 0.05 (p0.055), mas apenas assim. O coeficiente é negativo, o que indicaria que o tamanho maior da turma está relacionado ao menor desempenho acadêmico - o que esperamos. Em seguida, o efeito das refeições (b-3,70, pág. 000) é significativo eo seu coeficiente é negativo, indicando que quanto maior a proporção de alunos recebendo refeições gratuitas, menor o desempenho acadêmico. Por favor, note que não estamos dizendo que refeições gratuitas estão causando menor desempenho acadêmico. A variável refeições está altamente relacionada ao nível de renda e funciona mais como um proxy para a pobreza. Assim, níveis mais elevados de pobreza estão associados a um menor desempenho acadêmico. Este resultado também faz sentido. Finalmente, a percentagem de professores com credenciais completas (full b0.11, p.232) parece não estar relacionada com o desempenho acadêmico. Isso parece indicar que a porcentagem de professores com credenciais completas não é um fator importante na previsão do desempenho acadêmico - este resultado foi um pouco inesperado. De acordo com esses resultados, concluímos que os tamanhos mais baixos das turmas estão relacionados ao maior desempenho, que menos alunos recebendo refeições gratuitas estão associados ao maior desempenho e que a porcentagem de professores com credenciais completas foi Não relacionados ao desempenho acadêmico nas escolas. Antes de escrever isso para publicação, devemos fazer uma série de verificações para se certificar de que podemos apoiar firmemente estes resultados. Começamos ficando mais familiarizados com o arquivo de dados, fazendo a verificação de dados preliminares, procurando erros nos dados. 1.2 Examinando dados Primeiro, vamos usar o comando describe para aprender mais sobre este arquivo de dados. Podemos verificar quantas observações tem e ver os nomes das variáveis ​​que contém. Para fazer isso, simplesmente digite Nós não entraremos em todos os detalhes desta saída. Observe que há 400 observações e 21 variáveis. Temos variáveis ​​sobre desempenho acadêmico em 2000 e 1999 ea mudança no desempenho, api00. Api99 e crescimento respectivamente. Temos também várias características das escolas, p. Tamanho da turma, educação dos pais, porcentagem de professores com credenciais completas e de emergência e número de alunos. Observe que quando fizemos nossa análise de regressão original, ele disse que havia 313 observações, mas o comando descrever indica que temos 400 observações no arquivo de dados. Se você quiser saber mais sobre o arquivo de dados, você pode listar todas ou algumas das observações. Por exemplo, abaixo listamos as primeiras cinco observações. Isso ocupa muito espaço na página, mas não nos dá muita informação. Listar nossos dados pode ser muito útil, mas é mais útil se listar apenas as variáveis ​​que você está interessado. Vamos listar as primeiras 10 observações para as variáveis ​​que analisamos em nossa primeira análise de regressão. Vemos que entre as primeiras 10 observações, temos quatro valores em falta para as refeições. É provável que os dados em falta para as refeições tenham algo a ver com o facto de o número de observações na nossa primeira análise de regressão ser 313 e não 400. Outra ferramenta útil para aprender sobre as suas variáveis ​​é o comando codebook. Vamos fazer codebook para as variáveis ​​que incluímos na análise de regressão, bem como a variável yrrnd. Nós intercalamos alguns comentários sobre esta saída entre colchetes e em negrito. O comando codebook descobriu uma série de peculiaridades dignas de exame mais aprofundado. Vamos usar o comando summary para aprender mais sobre essas variáveis. Como mostrado abaixo, o comando sumário também revela o grande número de valores faltantes para as refeições (400 - 315 85) e vemos o mínimo incomum para acsk3 de -21. Permite obter um resumo mais detalhado para acsk3. No Stata, a vírgula após a lista de variáveis ​​indica que as opções seguem, neste caso, a opção é detalhe. Como você pode ver abaixo, a opção detalhe dá-lhe os percentis, os quatro maiores e menores valores, medidas de tendência central e variância, etc Note que resumir. E outros comandos, podem ser abreviados: poderíamos ter digitado soma acsk3, d. Parece que alguns tamanhos de classe de alguma forma se tornaram negativos, como se um sinal negativo fosse digitado incorretamente na frente deles. Vamos fazer uma tabulação de tamanho de classe para ver se isso parece plausível. Na verdade, parece que alguns tamanhos de classe de alguma forma tem sinais negativos colocados na frente deles. Vejamos o número da escola e do distrito para essas observações para ver se eles vêm do mesmo distrito. Na verdade, todos eles vêm do distrito 140. Vejamos todas as observações para o distrito 140. Todas as observações do distrito 140 parecem ter esse problema. Quando você encontrar esse problema, você deseja voltar para a fonte original dos dados para verificar os valores. Temos de revelar que fabricamos este erro para fins ilustrativos, e que os dados reais não tinham tal problema. Vamos fingir que verificamos com o distrito 140 e houve um problema com os dados lá, um hífen foi acidentalmente colocado na frente dos tamanhos de classe tornando-os negativos. Vamos fazer uma nota para corrigir isso Vamos continuar a verificar os nossos dados. Vamos dar uma olhada em alguns métodos gráficos para inspecionar dados. Para cada variável, é útil para inspecioná-los usando um histograma, boxplot e parcela de caule e folha. Estes gráficos podem mostrar-lhe informações sobre a forma de suas variáveis ​​melhor do que estatísticas numéricas simples podem. Já sabemos sobre o problema com acsk3. Mas vamos ver como esses métodos gráficos teriam revelado o problema com essa variável. Primeiro, mostramos um histograma para acsk3. Isto mostra-nos as observações onde o tamanho médio das turmas é negativo. Da mesma forma, um boxplot teria chamado essas observações para a nossa atenção também. Você pode ver a maneira de observações negativas periféricas na parte inferior do boxplot. Finalmente, uma parcela de haste-e-folha também teria ajudado a identificar essas observações. Este gráfico mostra os valores exatos das observações, indicando que havia três -21s, dois -20s, e um -19. Recomendamos traçar todos esses gráficos para as variáveis ​​que você estará analisando. Vamos omitir, devido a considerações de espaço, mostrando esses gráficos para todas as variáveis. No entanto, ao examinar as variáveis, o enredo de haste-e-folha para cheio parecia bastante incomum. Até agora, não vimos nada de problemático com essa variável, mas olhe para o diagrama de haste e folha para completo abaixo. Mostra 104 observações onde a percentagem com uma credencial completa é inferior a um. Isso é mais de 25 das escolas, e parece muito incomum. Vamos olhar para a distribuição de freqüência de cheio para ver se podemos entender isso melhor. Os valores vão de 0,42 para 1,0, depois saltam para 37 e vão para cima a partir daí. Parece que algumas das percentagens são realmente introduzidas como proporções, e. 0,42 foi inserido em vez de 42 ou 0,96 que realmente deveria ter sido 96. Vamos ver de que distrito (s) esses dados vieram. Observamos que todas as 104 observações em que o total foi menor ou igual a um veio do distrito 401. Vamos contar quantas observações existem no distrito 401 usando o comando de contagem e vemos que o distrito 401 tem 104 observações. Todas as observações deste distrito parecem ser registradas como proporções em vez de percentagens. Novamente, vamos afirmar que este é um problema de fingimento que inserimos nos dados para fins ilustrativos. Se este fosse um problema da vida real, verificávamos a origem dos dados e verificávamos o problema. Faremos uma nota para corrigir esse problema nos dados também. Outra técnica gráfica útil para a triagem de seus dados é uma matriz de dispersão. Embora este seja provavelmente mais relevante como uma ferramenta de diagnóstico procurando por não-linearidades e outliers em seus dados, também pode ser uma ferramenta útil de triagem de dados, possivelmente revelando informações nas distribuições conjuntas de suas variáveis ​​que não seriam aparentes de examinar distribuições univariadas . Vamos olhar para a matriz scatterplot para as variáveis ​​em nosso modelo de regressão. Isto revela os problemas que já identificamos, isto é, os tamanhos de classe negativos e a percentagem de credencial completa foram introduzidos como proporções. Identificamos três problemas em nossos dados. Existem inúmeros valores em falta para as refeições. Havia negativos acidentalmente inseridos antes de alguns tamanhos de classe (acsk3) e mais de um quarto dos valores de full eram proporções em vez de porcentagens. A versão corrigida dos dados é chamada elemapi2. Vamos usar esse arquivo de dados e repetir nossa análise e ver se os resultados são os mesmos que a nossa análise original. Primeiro, vamos repetir a análise de regressão original abaixo. Agora, vamos usar o arquivo de dados corrigidos e repetir a análise de regressão. Na análise original (acima), acsk3 foi quase significativo, mas na análise corrigida (abaixo) os resultados mostram que esta variável não é significativa, talvez devido aos casos em que o tamanho da classe foi dado um Valor negativo. Da mesma forma, a porcentagem de professores com credenciais completas não foi significativa na análise original, mas é significativa na análise corrigida, talvez devido aos casos em que o valor foi dado como a proporção com credenciais completas em vez da porcentagem. Observe também que a análise corrigida é baseada em 398 observações em vez de 313 observações, devido à obtenção dos dados completos para a variável refeições, que tinha muitos valores faltantes. Deste ponto em diante, usaremos o corrigido, elemapi2. arquivo de dados. Você pode querer salvar isso em seu computador para que você possa usá-lo em futuras análises. Até agora, abordamos alguns tópicos de verificação / verificação de dados, mas não discutimos a análise de regressão propriamente dita. Vamos agora falar mais sobre como executar a análise de regressão no Stata. 1.3 Regressão linear simples Vamos começar mostrando alguns exemplos de regressão linear simples usando Stata. Neste tipo de regressão, temos apenas uma variável preditora. Esta variável pode ser contínua, o que significa que ela pode assumir todos os valores dentro de um intervalo, por exemplo, idade ou altura, ou pode ser dicotômica, significando que a variável pode assumir apenas um de dois valores, por exemplo, 0 ou 1. A O uso de variáveis ​​categóricas com mais de dois níveis será abordado no Capítulo 3. Há apenas uma resposta ou variável dependente, e é contínua. No Stata, a variável dependente é listada imediatamente após o comando regress seguido de uma ou mais variáveis ​​preditoras. Vamos examinar a relação entre o tamanho da escola eo desempenho acadêmico para ver se o tamanho da escola está relacionada ao desempenho acadêmico. Para este exemplo, api00 é a variável dependente e register é o preditor. Vamos rever esta saída um pouco mais cuidadosamente. Primeiro, vemos que o teste F é estatisticamente significativo, o que significa que o modelo é estatisticamente significativo. O R-quadrado de .1012 significa que aproximadamente 10 da variância de api00 é contabilizado pelo modelo, neste caso, inscrever. O teste t para inscrição é igual a -6,70 e é estatisticamente significativo, significando que o coeficiente de regressão para matrícula é significativamente diferente de zero. Observe que (-6,70) 2 44,89, que é o mesmo que a estatística F (com algum erro de arredondamento). O coeficiente de inscrição é de -1998674, ou seja, aproximadamente-2, significando que para um aumento de uma unidade de matrícula. Seria de esperar uma diminuição de 0,2 unidades em api00. Em outras palavras, uma escola com 1100 alunos seria esperado ter um api pontuação 20 unidades mais baixas do que uma escola com 1000 alunos. A constante é 744.2514, e este é o valor previsto quando a inscrição é igual a zero. Na maioria dos casos, a constante não é muito interessante. Preparamos uma saída anotada que mostra a saída dessa regressão juntamente com uma explicação de cada um dos itens nela contidos. Além de obter a tabela de regressão, pode ser útil ver um diagrama de dispersão das variáveis ​​preditas e de resultado com a linha de regressão traçada. Depois de executar uma regressão, você pode criar uma variável que contém os valores previstos usando o comando predict. Você pode obter esses valores em qualquer ponto depois de executar um comando de regressão, mas lembre-se de que, uma vez que você executar uma nova regressão, os valores previstos serão baseados na regressão mais recente. Para criar valores preditos basta digitar predizer eo nome de uma nova variável Stata lhe dará os valores ajustados. Para este exemplo, nosso novo nome de variável será fv. Então vamos digitar Se usarmos o comando list, veremos que um valor ajustado foi gerado para cada observação. Abaixo podemos mostrar um scatterplot da variável de resultado, api00 eo preditor, se inscrever. Podemos combinar scatter com lfit para mostrar um scatterplot com valores ajustados. Como você vê, alguns dos pontos parecem ser outliers. Se você usar a opção mlabel (snum) no comando scatter, você pode ver o número da escola para cada ponto. Isso nos permite ver, por exemplo, que um dos outliers é a escola 2910. Como vimos anteriormente, o comando predict pode ser usado para gerar valores preditos (ajustados) após a regressão em execução. Você também pode obter resíduos usando o comando predict seguido por um nome de variável, neste caso e. Com a opção residual. Este comando pode ser encurtado para prever e, resid ou mesmo prever e, r. A tabela abaixo mostra alguns dos outros valores que podem ser criados com a opção predict. 1.4 Regressão múltipla Agora, vamos olhar para um exemplo de regressão múltipla, na qual temos uma variável de resultado (dependente) e vários preditores. Antes de começar com nosso próximo exemplo, precisamos tomar uma decisão sobre as variáveis ​​que criamos, porque estaremos criando variáveis ​​semelhantes com nossa regressão múltipla e não queremos que as variáveis ​​sejam confusas. Por exemplo, na regressão simples criamos uma variável fv para os valores preditos (ajustados) ee para os resíduos. Se quisermos criar valores preditos para nosso próximo exemplo, poderíamos chamar o valor previsto algo mais, p. Fvmr. Mas isso poderia começar a ficar confuso. Poderíamos eliminar as variáveis ​​que criamos usando drop fv e. Em vez disso, vamos limpar os dados na memória e usar o arquivo de dados elemapi2 novamente. Quando começamos novos exemplos em capítulos futuros, limparemos o arquivo de dados existente e usaremos o arquivo novamente para começar de novo. Para este exemplo de regressão múltipla, vamos regredir a variável dependente, api00. Em todas as variáveis ​​preditoras no conjunto de dados. Vamos examinar o resultado dessa análise de regressão. Como com a regressão simples, nós olhamos para o p-valor do F-teste para ver se o modelo geral é significativo. Com um valor de p de zero a quatro casas decimais, o modelo é estatisticamente significativo. O R-quadrado é 0.8446, significando que aproximadamente 84 da variabilidade de api00 é explicado pelas variáveis ​​no modelo. Neste caso, o R-quadrado ajustado indica que cerca de 84 da variabilidade de api00 é contabilizada pelo modelo, mesmo tendo em conta o número de variáveis ​​de previsão no modelo. Os coeficientes para cada uma das variáveis ​​indicam a quantidade de mudança que se poderia esperar em api00 dada uma alteração de uma unidade no valor dessa variável, uma vez que todas as outras variáveis ​​no modelo são mantidas constantes. Por exemplo, considere a variável ell. Espera-se uma diminuição de 0,86 na pontuação api00 para cada aumento de unidade em ell. Assumindo que todas as outras variáveis ​​no modelo são mantidas constantes. A interpretação de grande parte da saída da regressão múltipla é a mesma que foi para a regressão simples. Preparamos uma saída anotada que explica mais detalhadamente o resultado dessa análise de regressão múltipla. Você pode estar se perguntando o que realmente significa uma mudança de 0.86 em ell, e como você pode comparar a força desse coeficiente com o coeficiente de outra variável, digamos refeições. Para resolver este problema, podemos adicionar uma opção ao comando regress chamado beta. O que nos dará os coeficientes de regressão padronizados. Os coeficientes beta são usados ​​por alguns pesquisadores para comparar a força relativa dos vários preditores dentro do modelo. Como os coeficientes beta são todos medidos em desvios-padrão, em vez das unidades das variáveis, eles podem ser comparados entre si. Em outras palavras, os coeficientes beta são os coeficientes que você obteria se as variáveis ​​de resultado e preditora fossem todas pontuações padrão transformadas, também chamadas pontuações z, antes de executar a regressão. Como os coeficientes na coluna Beta estão todos nas mesmas unidades padronizadas, você pode comparar esses coeficientes para avaliar a força relativa de cada um dos preditores. Neste exemplo, as refeições têm o maior coeficiente Beta, -0,66 (em valor absoluto), e acsk3 tem o menor Beta, 0,013. Assim, um aumento de um desvio padrão nas refeições leva a uma diminuição do desvio padrão de 0,66 na APi00 prevista. Com as outras variáveis ​​mantidas constantes. E, um aumento de um desvio padrão em acsk3. Por sua vez, leva a um aumento do desvio padrão de 0,013 na api00 prevista com as outras variáveis ​​no modelo mantidas constantes. Ao interpretar essa saída, lembre-se que a diferença entre os números listados no Coef. Coluna e a coluna Beta está nas unidades de medida. Por exemplo, para descrever o coeficiente bruto para ell você diria quotUma unidade de diminuição em ell resultaria em um aumento de 0,86 unidades na previsão api00. No entanto, para o coeficiente padronizado (Beta) você diria, quotA um padrão A diminuição de desvio em ell resultaria em um aumento de desvio padrão de .15 no predicado api00.quot O comando listcoef dá um output mais extenso em relação aos coeficientes padronizados. Não faz parte do Stata, mas você pode baixá-lo através da internet como este. E siga as instruções (consulte também Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar o findit). Agora que baixamos o listcoef. Podemos executá-lo assim. Vamos comparar a saída regress com a saída listcoef. Você notará que os valores listados no Coef. T, e os valores de Pgtt são os mesmos nas duas saídas. Os valores listados na coluna Beta da saída de regressão são os mesmos que os valores na coluna bStadXY do listcoef. A coluna bStdX dá a mudança de unidade em Y esperada com uma mudança de um desvio padrão em X. A coluna bStdY dá a mudança de desvio padrão em Y esperada com uma mudança de unidade em X. A coluna SDofX dá esse desvio padrão de cada variável preditora em O modelo. Por exemplo, o bStdX para ell é -21,3, significando que um aumento de um desvio padrão em ell levaria a uma diminuição esperada de 21,3 unidades em api00. O valor de bStdY para ell de -0.0060 significa que para um aumento de uma unidade, um por cento, em alunos de língua inglesa, seria de esperar uma diminuição de 0,006 desvio padrão em api00. Como os valores de bStdX estão em unidades padrão para as variáveis ​​de predictor, você pode usar esses coeficientes para comparar a força relativa dos preditores como você compararia os coeficientes Beta. A diferença é que os coeficientes BStdX são interpretados como mudanças nas unidades da variável de resultado em vez de em unidades padronizadas da variável de resultado. Por exemplo, o BStdX para refeições versus ell é -94 versus -21, ou cerca de 4 vezes maior, a mesma proporção que a razão dos coeficientes Beta. Criamos uma saída anotada que explica mais detalhadamente a saída do listcoef. Até agora, temos nos preocupado com o teste de uma única variável de cada vez, por exemplo, olhando para o coeficiente de ell e determinar se isso é significativo. Também podemos testar conjuntos de variáveis, usando o comando test, para ver se o conjunto de variáveis ​​é significativo. Primeiro, vamos começar testando uma única variável, ell. Usando o comando de teste. Se você compara esta saída com a saída da última regressão, você pode ver que o resultado do teste F, 16.67, é o mesmo que o quadrado do resultado do teste t na regressão (-4.0832 16.67). Observe que você poderia obter os mesmos resultados se você digitou o seguinte, já que Stata padroniza comparando o (s) termo (s) listado (s) a 0. Talvez um teste mais interessante seria ver se a contribuição do tamanho da turma é significativa. Uma vez que a informação sobre o tamanho da classe está contido em duas variáveis, acsk3 e acs46. Nós incluímos ambos com o comando de teste. O teste F significativo, 3,95, significa que a contribuição coletiva dessas duas variáveis ​​é significativa. Uma maneira de pensar nisso é que há uma diferença significativa entre um modelo com acsk3 e acs46 em comparação com um modelo sem eles, ou seja, há uma diferença significativa entre o modelo quotfullquot e os modelos quotreducedquot. Finalmente, como parte de uma análise de regressão múltipla, você pode estar interessado em ver as correlações entre as variáveis ​​no modelo de regressão. Você pode fazer isso com o comando correlate como mostrado abaixo. Se olharmos para as correlações com api00. Vemos refeições e ell têm as duas mais fortes correlações com api00. Essas correlações são negativas, o que significa que à medida que o valor de uma variável diminui, o valor da outra variável tende a subir. Sabendo que essas variáveis ​​estão fortemente associadas com api00. Podemos prever que seriam variáveis ​​preditoras estatisticamente significativas no modelo de regressão. Nós também podemos usar o comando pwcorr para fazer correlações pairwise. A diferença mais importante entre correlate e pwcorr é a forma como os dados faltantes são manipulados. Com correlação. Uma observação ou caso é descartado se alguma variável tem um valor ausente, em outras palavras, correlata usa listwise. Também chamada casewise, deleção. Pwcorr usa dupla eliminação, significando que a observação é descartada somente se houver um valor ausente para o par de variáveis ​​que estão sendo correlacionadas. Duas opções que você pode usar com pwcorr. Mas não com correlação. São a opção sig, que dará os níveis de significância para as correlações ea opção obs, que dará o número de observações utilizadas na correlação. Tal opção não é necessária com corr como Stata lista o número de observações no topo da saída. 1.5 Transformando Variáveis ​​Mais cedo nós nos concentramos no rastreamento de seus dados para possíveis erros. No próximo capítulo, iremos nos concentrar em diagnósticos de regressão para verificar se seus dados atendem aos pressupostos da regressão linear. Aqui, vamos nos concentrar na questão da normalidade. Alguns pesquisadores acreditam que a regressão linear requer que as variáveis ​​resultado (dependente) e preditora sejam normalmente distribuídas. Precisamos esclarecer esta questão. Na realidade, são os resíduos que precisam ser distribuídos normalmente. De fato, os resíduos precisam ser normais somente para que os testes t sejam válidos. A estimação dos coeficientes de regressão não requer resíduos normalmente distribuídos. Como estamos interessados ​​em ter t-testes válidos, vamos investigar questões relativas à normalidade. A common cause of non-normally distributed residuals is non-normally distributed outcome and/or predictor variables. So, let us explore the distribution of our variables and how we might transform them to a more normal shape. Lets start by making a histogram of the variable enroll . which we looked at earlier in the simple regression. We can use the normal option to superimpose a normal curve on this graph and the bin(20 ) option to use 20 bins. The distribution looks skewed to the right. You may also want to modify labels of the axes. For example, we use the xlabel() option for labeling the x-axis below, labeling it from 0 to 1600 incrementing by 100. Histograms are sensitive to the number of bins or columns that are used in the display. An alternative to histograms is the kernel density plot, which approximates the probability density of the variable. Kernel density plots have the advantage of being smooth and of being independent of the choice of origin, unlike histograms. Stata implements kernel density plots with the kdensity command. Not surprisingly, the kdensity plot also indicates that the variable enroll does not look normal. Now lets make a boxplot for enroll . using graph box command. Note the dots at the top of the boxplot which indicate possible outliers, that is, these data points are more than 1.5(interquartile range) above the 75th percentile. This boxplot also confirms that enroll is skewed to the right. There are three other types of graphs that are often used to examine the distribution of variables symmetry plots, normal quantile plots and normal probability plots. A symmetry plot graphs the distance above the median for the i-th value against the distance below the median for the i-th value. A variable that is symmetric would have points that lie on the diagonal line. As we would expect, this distribution is not symmetric. A normal quantile plot graphs the quantiles of a variable against the quantiles of a normal (Gaussian) distribution. qnorm is sensitive to non-normality near the tails, and indeed we see considerable deviations from normal, the diagonal line, in the tails. This plot is typical of variables that are strongly skewed to the right. Finally, the normal probability plot is also useful for examining the distribution of variables. pnorm is sensitive to deviations from normality nearer to the center of the distribution. Again, we see indications of non-normality in enroll . Having concluded that enroll is not normally distributed, how should we address this problem First, we may try entering the variable as-is into the regression, but if we see problems, which we likely would, then we may try to transform enroll to make it more normally distributed. Potential transformations include taking the log, the square root or raising the variable to a power. Selecting the appropriate transformation is somewhat of an art. Stata includes the ladder and gladder commands to help in the process. Ladder reports numeric results and gladder produces a graphic display. Lets start with ladder and look for the transformation with the smallest chi-square. The log transform has the smallest chi-square. Lets verify these results graphically using gladder . This also indicates that the log transformation would help to make enroll more normally distributed. Lets use the generate command with the log function to create the variable lenroll which will be the log of enroll. Note that log in Stata will give you the natural log, not log base 10. To get log base 10, type log10(var) . Now lets graph our new variable and see if we have normalized it. We can see that lenroll looks quite normal. We would then use the symplot . qnorm and pnorm commands to help us assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment