lunes, 3 de junio de 2013

ANÁLISIS DE VARIANZA (ANOVA)

ANÁLISIS DE VARIANZA ANOVA


En estadística se denomina prueba F de Snedecor a cualquier prueba en la que el estadístico utilizado sigue una distribución F si la hipótesis nula no puede ser rechazada. El nombre fue acuñado en honor a Ronald Fisher.

En estadística aplicada se prueban muchas hipótesis mediante el test F, entre ellas:
La hipótesis de que las medidas de múltiples poblaciones normalmente distribuidas y con la misma desviación estándar son iguales. Esta es, quizás, la más conocida de las hipótesis verificada mediante el test F y el problema más simple del análisis de varianza.

La hipótesis de que las desviaciones estándar de dos poblaciones normalmente distribuidas son iguales, lo cual se cumple.


En muchos casos, el test F puede resolverse mediante un proceso directo. Se requieren dos modelos de regresión, uno de los cuales restringe uno o más de los coeficientes de regresión conforme a la hipótesis nula.

FORMULA:








n= numero de datos
v=grados de libertad
S2= varianza de la mestra
O2 =varianza del estudio

EJERCICIO:

Se toman 2 meses   de registros de temperatura de la cuidad de Bogotá en el año 2011; con una varianza de 0,585, cada muestra tienes 31 días:




































MUESTRA 1 DATOS
n 31
Media 14,825
Desv. típ. 0,943
Varianza 0,889
grado libertad             30
MUESTRA 2 DATOS
n 31
Media 15,485
Desv. típ. 1,027
Varianza 1,054
grado libertad 30

O2 = 0,585


F calculado = 0,9182

F teorico para grado de libertad 30/30

F(90%)= 1 ,606
F(95%)= 1,841



CONCLUSIONES:



  • La temática de probabilidad y estadística es muy necesaria para el analizáis de datos y problemáticas ambientales.

  • la temperatura media esta aumentando en 0,6°C en los últimos 10 años debido al calentamiento global y al efecto invernadero.

RECOMENDACIONES:
  • Disminuir la producción de gases de efecto invernadero.
  • utilizar energías renovables
  • reciclar y reutilizar
  • no contaminar el agua.
  • disminuir el uso de automóviles.






PRUEBA CHI CUADRADO

CHI CUADRADO



Es una distribución cuadrática de la probabilidad que utiliza básicamente variables aleatorias continuas. La Distribución Chi Cuadrado de la probabilidad se denota mediante la letra griega minúscula ji elevada al cuadrado (χ2), y consiste en establecer un espacio continuo delimitado por la suma de los cuadrados de n variables aleatorias que son independientes entre sí, espacio dentro del cual la variable X puede asumir cualquiera de los infinitos valores que lo conforman, y por tanto para establecer el valor aproximado de una variable X dentro de ese espacio se procede a incluir una estimación de sus posibles límites que están dados por los distintos «Grados de Libertad» que pueden existir entre las variables aleatorias analizadas que dan origen al referido espacio. En otras palabras, la Distribución Chi Cuadrado en un delimitado espacio conjuga un determinado número de variables aleatorias independientes entre sí, con unos valores de probabilidad ubicados entre 1 y 0 que son atribuibles a esas variables, y con unos límites de la probabilidad para el verdadero valor de X delimitados por los Grados de Libertad atribuibles a las variables aleatorias analizadas.



La Distribución Chi Cuadrado permite calcular la probabilidad existente para que una variable X, que tiene un determinado Grado de Libertad frente a otras variables del mismo conjunto, permanezca dentro de unos «límites ideales» previstos para X cuando tiene ese específico Grado de Libertad o independencia. En otras palabras, la Distribución Chi Cuadrado suministra un modelo ideal sobre los límites probables que deberían regir las fluctuaciones en la aparición de un determinado valor aleatorio X dependiendo del Grado de Libertad que tiene ese valor frente a otras variables similares dentro de un conjunto de datos analizados. La fórmula matemática para calcular la probabilidad de que una variable X permanezca dentro del límite ideal correspondiente al respectivo Grado de Libertad es la siguiente:

FORMULA


EJERCICIO:


Se sabe que la varianza de los registros del mes de octubre noviembre y diciembre del año 2011 es de 0,585 se toma un muestreo de 41 registros a partir de octubre de 2011 a diciembre de, y se encuentra una desviación típica de 0,658.

solución:

Datos:

desviación típica de la muestra s=  0,938
varianza de la muestra s2 =           0,88


desviación típica del estudio O =    0,7648
varianza del estudio O2 =              0,585


(n-1)grados de libertad = (41-1)=   40

 


X2 calculado=45,12



Xteórico 25%= 33, 7
Xteórico 50%= 39,3


jueves, 30 de mayo de 2013

PRUEBA O DISTRIBUCIÓN t DE STUDENT



PRUEBA O DISTRIBUCIÓN t DE STUDENT



En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra.

FORMULAS:

t calculado












EJERCICIO


El director del IDEAM asegura que la temperatura ambiente de la ciudad de Bogotá en el mes de octubre del año 2011 es de 14,8°C registrados en su estación meteorología.


Un estudiante de ingeniería ambiental de la universidad nacional de Colombia tomo un registro al azar de 19 días tomo y registro la temperatura ambiente y los resultados fueron los siguientes:

14,33
14,73
15,07
15,33
14,4
14,74
15,17
15,47
14,4
14,93
15,27
15,47
14,67
15
15,33
15,47



Encuentre la probabilidad de que la temperatura en el último trimestre del mes del año 2011,  
P (x < 15,185)

SOLUCIÓN:


Datos

n= 19 v= 18 µ= 15,3
X= 15,185 S2= 0,938 s= 0,88






t calculado = -0,57
t teórico = 0,688


  • La probabilidad de que la temperatura media de la ciudad de Bogotá en el último trimestre de año 2011  sea inferior a 15,185 es del 25%

TEORÍA DE MUESTREO

TEORÍA DE MUESTREO


La teoría de muestreo se refiere al estudio de las relaciones que existen entre un colectivo o población y las muestras que se extraen de las mismas. El estudio de las muestras permite hacer estimaciones de características desconocidas de la población (tales como media, desviación típica, proporciones, etc). Estas estimaciones se hacen a partir del conocimiento de las características de las muestras (media, desviación típica, proporción, etc).

Las características o medidas obtenidas de una muestra se llaman estadísticos; y las medidas correspondientes a la población parámetros. Cuando una medida muestral o estadístico es utilizada como representante de una característica poblacional o parámetro se denomina estimador.


Ventajas De La Utilización De Las Muestras

  1. El costo es menor y se puede obtener un mejor rendimiento del dinero invertido.
  2. Se obtiene una disminución notable del tiempo necesario para alcanzar la información

Cuando una muestra posee 30 o más datos se denomina grandes muestras y si la muestra tiene menos de 30 observaciones se denomina pequeñas muestras.

Al procedimiento utilizado para elegir una muestra se denomina Muestreo.

FORMULA





n: Tamaño de la muestra
Zα/2: Valor teórico en función del nivel de confianza, para 99 %
ε: error de muestreo
P: Número de veces que se produce un evento en %

Q: Es el porcentaje complementario de P


EJERCICIO


Se realizó un estudio de la temperatura en la ciudad de Bogotá de 170 datos de temperatura facilitados por la estación meteorológica de la Universidad Nacional de Colombia sede Bogotá, donde 80 se encuentran registrados favorablemente. Cuantos registros  de temperatura del último trimestre del  año 2011 es necesario realizar un estudio si se desea un nivel de confianza de 95% y un error de muestreo más o menos del 0,025

Solución:




p= 8 / 70 * 100= 10% 
q= 100% - 10% = 90%
Zα/2  (95%)=  1,96







n=14




  • Es necesario realizar 14 registros de temperatura de la ciudad de Bogotá, para alcanzar cierta confiabilidad en los registros.


miércoles, 22 de mayo de 2013

DISTRIBUCIÓN NORMAL

ESTADÍSTICA PARA INGENIEROS

 TEMPERATURA AMBIENTE ESTACIÓN METEROLÓGICA UNAL. BOGOTÁ

DISTRIBUCIÓN NORMAL

La distribución normal fu e introducida por el matemático francés Abraham De Moivre en 1733. De Moivre, quien uso esta distribución para aproximar las probabilidades conectadas con lanzar una moneda, la llamo curva exponencial con forma de campana.

Su utilidad, sin embargo, fue demostrada en 1809, cuando el famoso matemático alemán Karl Friedrich Gauss la uso como una parte integral de su aproximación para predecir la ubicación de objetos astronómicos. Como resultado, resulto común después de esto que la denominaran distribución Gaussiana. Durante la segunda mitad del siglo XIX, la mayoría de los estadistas comenzaron a creer que la mayoría de los conjuntos de datos tenían histogramas con la forma de campana de una distribución gaussiana, por lo que comenzó a ser aceptado que es normal para cualquier conjunto de datos con forma de campana estar descrito por esta curva. Como resultado de esto, y siguiendo el camino del estadista británico Karl Pearson, la gente comenzó  a referirse a la distribución gaussiana como la curva normal.

La función de probabilidad de la distribución normal sirve de modelo para una gran cantidad de variables continuas naturales, tales como la temperatura, la humedad, la precipitación, la altura, el peso, la concentración, el cociente de inteligencia, los errores instrumentales, etc. Igualmente, la distribución de muchos estadísticos tiende hacia la distribución normal, por lo cual esta distribución adquiere una gran importancia en el análisis de datos mediante la inferencia estadística.



EJERCICIO:


1.  CUAL ES LA PROBABILIDAD DE ENCONTRAR EN EL 4 TRIMESTRE DEL AÑO 2011 TEMPERATURAS DE:

A-  MENOR DE 15°c
B-  MAYOR DE 15,3°C
C-  entre 13,5 y 14,2°C

solución:


A- 
    Datos
Media =15,11
Mediana =15,19
Moda =14,33
Varianza =0,88
Desv. típ. =0,938

Xa       =          15





Za= -0,12
area = 0,0478 o 4,78%








La gráfica de distribución de frecuencia muestra que se tiene la probabilidad del 4,78% de tener temperaturas menores a 15°C 


B- 

Datos:
Media =15,11
Mediana =15,19
Moda =14,33
Varianza =0,88
Desv. típ. =0,938
Xb  =          15,3



Zb= 0,2
area = 0,0793 o 7,93%
La probabilidad de encontrar temperaturas mayores de 15,3°C es del 7,93%



C-

datos:
Media =15,11
Mediana =15,19
Moda =14,33
Varianza =0,88
Desv. típ. =0,938



X1  =          17,11

X2=            13,11

P(14,2<15,3)








Z1= -2,12

Z2=  2,13
área 1 = 0,483 o 48,3%
área 2 = 0,4834  o  48,34%
área total=  96,64%


La probabilidad de de tener temperaturas entre 13,11°C y 17,11°C es del 96,64%

DISTRIBUCIÓN POISSON

La distribución de Poisson se llama así en honor a su creador, el francés Simeón Dennis Poisson (1781-1840), Esta distribución de probabilidades fue uno de los múltiples trabajos matemáticos que Dennis completó en su productiva trayectoria.




  • La distribución de Poisson se utiliza en situaciones donde los sucesos son impredecibles o de ocurrencia aleatoria. En otras palabras no se sabe el total de posibles resultados. 
  • Permite determinar la probabilidad de ocurrencia de un suceso con resultado discreto. 
  • Es muy útil cuando la muestra o segmento n es grande y la probabilidad de éxitos p es pequeña.
  • Se utiliza cuando la probabilidad del evento que nos interesa se distribuye dentro de un segmento n dado como por ejemplo distancia, área, volumen o tiempo definido.
FORMULA






EJERCICIO


La probabilidad de que haya una temperatura de 13,5 °C en la ciudad de Bogotá es de 0.02 por cada 15 días de registro en la estación meteorológica de la Universidad Nacional de Colombia. Si se toma registros de 37 días del último trimestre del año 2011, ¿cuál es la probabilidad de tener 3 registros con esta temperatura? 


SOLUCIÓN:

n=15
p=0,07


Como la probabilidad p es menor que 0.1, y el producto  n * p  es menor que 10 (15 * 0.07 = 2,59), entonces, aplicamos el modelo de distribución de Poisson:





P(x=3)= 0,21723

Por lo tanto la probabilidad de tener 15 días con temperaturas de 15, en 37 días de registros es del 27,723% 

DISTRIBUCIÓN BINOMIAL



DISTRIBUCIÓN BINOMIAL

Es una de las distribuciones de probabilidad más útiles ( control de calidad, producción, investigación). Tiene que ver con el experimento aleatorio que produce en cada ensayo o prueba uno de dos resultados posibles mutuamente excluyentes: ocurrencia de un criterio o característica específico (llamado éxito) y no ocurrencia de éste (llamado fracaso). Los términos o calificativos de "éxito y fracaso" son solo etiquétas y su interpretación puede no corresponder con el resultado positivo o negativo de un experimento en la realidad.



Criterios o propiedades para definir la Distribución Binomial


Resumiendo, podemos definir estos criterios:

1- El experimento aleatorio consiste en n ensayos o pruebas repetidas, e idénticas y fijadas antes del experimento (pruebas de Bernoulli). Son pruebas con reemplazamiento o con reposición.

2- Cada uno de los n ensayos o pruebas arroja solo uno de dos resultados posibles resultados: éxito ó fracaso.

3- La probabilidad del llamado éxito (ocurrencia)=P, pemanece costante para cada ensayo o prueba.

4- Cada prueba o ensayo se repite en idénticas condiciones y es independiente de las demás.
Cuando estas propiedades se cumplen en el experimento aleatorio se dice que el constituye un proceso de Bernoulli y cada uno de los ensayos que lo conforman se llama experimento de Bernoulli.

5. El interés recae en hallar la probabilidad de obtener n número de éxitos al realizar n ensayos del mismo E.A.



formula:

binomial











EJERCICIO:


1- Se tiene que el 95% de los registros en el mes de noviembre de 2011 pertenece a 14,9°C; si se toma al azar 17 registros cual es la probabilidad de que:

A- al menos 5 registros tengan 14,9°C
B- 9 registros sean 14,9°C

SOLUCIÓN:

A-

n= 17
X= 0,1,2,3,4,5
P= 95%   9,5
q= 5%    0,05


P(x=0)+P(x=1)+P(x=2)+P(x=3)+P(x=4)+P(x=5)






P(x=>5)= 0,555 ó 55,5%


Es decir la probabilidad de obtener  al menos 5 registros con temperaturas de14,9°C  al tomar 7 datos al zar es del 55,5%