lunes, 15 de marzo de 2010

R y los intervalos de confianza I

El tema de intervalos de confianza siempre me pareció dificil de comprender. De hecho la estadística, lenguaje que considero "las matemáticas del mundo real", siempre me parecieron bastante enredadas.

En fín, el doctor Douglas Montgomery dice, mas o menos que

Una estimación por intervalos de un parámetro desconocido, es un intervalo en el que se puede encontrar dicho parámetro (l<x<u), donde los puntos l y u dependen del comportamiento estadístico de x. Por lo tanto, muestras diferentes de la misma población producirán valores distintos y puntos extremos diferentes (y dichos puntos serán valores de variables aleatorias, por ejemplo L y U).

Es posible determinar los valores de L y U de manera que la siguiente proposición sea verdadera:

P(L<x<U) = 1 - a

Como es dificil de entender el parrafo anterior, aquí va mi interpretación. El tema de los intervalos de confianza aparece por que un valor obtenido en una muestra no da mucha información sobre otras muestras, entonces el promedio de una muestra tiene muchas posibilidades de diferir con el promedio de otra muestra (aunque los valores podrían estar cercanos), el intervalo en el que pueden diferir es lo que interesa.

Para tomar decisiones es mejor decir a tu jefe que los costos del proyecto podrían estar alrededor de un valor estimado que decirle el costo exacto y esperar a que se cumpla.

Se llaman intervalos de confianza por que uno de los parámetros que se pueden definir es la "confianza" en la estimación. Por supuesto, un valor muy alto de confianza traerá intervalos muy "amplios", si consideramos que la amplitud del intervalo es una medida de su precisión, entonces tenemos una situación donde se debe intercambiar confianza en la estimación por precisión en los resultados.

No voy a explicar como se calcula (es decir, con las formulas) un intervalo de confianza. Este tema puede encontrarse en libros de estadística y hasta en wikipedia.

R, es un programa para hacer análisis estadístico. Como fue pensado para esto, era obvio que tenía que calcular los intervalos de confianza. El primer caso para hallar estos intervalos es el intervalo de confianza para la media con varianza conocida.

podemos definir la siguiente función:

> cimeanvarknown <- function(mmean,sd,n,alfa=0.05)
+ c(mmean-qnorm(1-alfa/2)*sd/sqrt(n),mmean+qnorm(1-alfa/2)*sd/sqrt(n))

(tomado del documento encontrado en la red con titulo "Estadística I. Análisis estadístico con R. 38")

de este modo podemos hacer estimaciones sobre el intervalo de confianza con varianza conocida.

Hay que hacer algunas aclaraciones que no estaban en el documento, en primer lugar note que el calculo del intervalo llama a la función qnorm(). (qnorm() con es una función que retorna el valor z en la distribución normal.)

Esto quiere decir que se está considerando que la distribución de muestreo es normal si la población es normal y aproximadamente normal si se cumplen las condiciones del teorema del límite central.

hasta la próxima!

No hay comentarios:

Publicar un comentario