Buscar este blog

lunes, 27 de febrero de 2017

ANOVA para el diseño de un solo factor

La metodología utilizada para el análisis de experimentos se basa en probar hipótesis establecidas con anterioridad, esto hace parte de la pregunta de investigación de fenómeno a estudiar, para eso se utiliza el análisis de varianza o ANOVA, con el fin de estimar la significancia de los datos y detectar posibles fuentes de variación.

La construcción de la tabla ANOVA es de la siguiente forma:


En el diseño de 1 solo factor solo se tienen en cuenta dos posibles fuentes de variación para el experimento: los tratamientos y el error, las sumatorias de cuadrados se calculan como se muestra a continuación: 



Las medias cuadráticas y la prueba F (o Fisher) es calculada como se presento en la construcción de la tabla.

Para ampliar más sobre este tema de modo práctico visite: 
  • https://www.youtube.com/watch?v=_s0aX7TLg48
  • https://www.youtube.com/watch?v=pR0OAHPlmQs

Diseño de experimento con un solo factor

Los experimentos con un solo factor comprenden experimentos que se usan cuando el objetivo es comparar más de dos tratamientos, pero que corresponden a niveles de un mismo factor.
Vale la pena recordar que a los tratamientos también se les puede llamar niveles.
Algunos ejemplos podrían ser:

  • Comparar dos o tres máquinas.
  • Comparar varios procesos para la obtención de un producto o un resultado.
  • Comparar varios materiales.
  • Comparar dietas.
  • Etc.
Con el fin de tomar una decisión en la solución de un problema real.
Por lo general las comparaciones se hacen en términos de las medias poblacionales, aunque también es importante la comparación de varianzas y capacidad actual para cumplir con ciertas especificaciones.

El diseño de un solo factor es el mas simple de todos, pues contempla solo dos fuentes de variabilidad: los tratamientos (o niveles) y el error aleatorio. Se denominan en algunas ocasiones diseños completamente aleatorizados por que las corridas experimentales se realizan en orden aleatorio, dado en este caso que no tienen restricciones impuestas por factores como el bloqueo.

Habitualmente un diseño de un solo factor aleatorio se compone de las siguientes características:

  • Hipótesis y respectivas pruebas.
  • Configuración matricial para recolección de los datos.
Una aproximación es la presentada a continuación:


Donde la ecuación que modela dicho fenómeno es de la siguiente manera:

En el siguiente vídeo se puede encontrar una aplicación práctica con la herramienta de análisis de datos en EXCEL 2010 y la plataforma STATGRAPHICS.




Single factor experiments include experiments that are used when the objective is to compare more than two treatments, but that correspond to levels of the same factor.

It is worth remembering that treatments can also be called levels.

Some examples could be:
  • Compare two or three machines.
  • Compare several processes to obtain a product or result.
  • Compare various materials.
  • Compare diets.
  • Etc.
In order to make a decision in solving a real problem.
In general, comparisons are made in terms of population averages, although it is also important to compare variances and current capacity to meet certain specifications.

The design of a single factor is the simplest of all, as it contemplates only two sources of variability: treatments (or levels) and random error. They are sometimes called completely randomized designs because the experimental runs are done in random order, given in this case that they have no restrictions imposed by factors such as blocking.

Usually a single random factor design consists of the following characteristics:
  • Hypothesis and respective tests.
  • Matrix configuration for data collection.
An approximation is the one presented below:

lunes, 20 de febrero de 2017

Introducción al Diseño de Experimentos (DDE)

¿QUÉ ES UN DISEÑO DE EXPERIMENTOS?

Es un experimento diseñado que consiste en una prueba o varias de pruebas en las que se inducen cambios deliberadamente en las variables de entrada del Sistema (Proceso) de manera de posibilitar la identificación de las causas que originan los cambios en la respuesta. 
Es una disciplina desarrollada específicamente para el estudio, análisis y comprensión de la variabilidad de los procesos y de los datos.
Una de las situaciones en las que hay más aplicación de la metodología estadística es la que se refiere a la determinación de factores  que causan variación, y la cuantificación del efecto que cada uno de ellos tiene sobre esa variación.  El estudio de la forma en que se combinan los factores que afectan conjuntamente la variación. Es uno de los objetivos principales del diseño de Experimento.


Un experimento se realiza por alguno de los siguientes motivos:


1. Determinar las principales causas de variación en la respuesta.
2. Encontrar las condiciones experimentales con las que se consigue un valor extremo en la variable de interés o respuesta.
3. Comparar las respuestas en diferentes niveles de observación de variables controladas.
4. Obtener un modelo estadístico-matemático que permita hacer predicciones de respuestas futuras. 

ETAPAS DE LA EXPERIMENTACIÓN

1. Reconocimiento de un problema.
2. Formulación del problema.
3. Especificación de las variables a medir.
4. Acuerdo sobre los factores y niveles a usar en el experimento.
5. Definición del espacio de inferencia.
6. Selección de las unidades experimentales.
7. Layout del Diseño.
8. Desarrollo del modelo estadístico.
9. Evaluación preliminar del diseño.
10. Rediseño del experimento.
11. Recolección de datos.
12. Análisis de los datos.
13. Conclusiones.
14. Implantación.

DEFINICIONES

Experimento: Un estudio en el que el investigador tiene un alto grado de control sobre las fuentes de variación importantes, se denomina experimento. Si se tiene poco control sobre los factores, se habla de un estudio observacional.

Factores: Los fenómenos que potencialmente causan variación, y que son controlados por el experimentador, se denominan factores. También a veces se denominan tratamientos.

Niveles de un factor: Son los valores que toma un factor. En general toman valores que se miden en escala categórica, aunque a veces suelen ser medidos en escalas numéricas.

Combinación de tratamientos: Cada una de las combinaciones de niveles de todos los factores involucrados en el experimento.

Corrida experimental: Cada una de las fases en que se lleva a cabo el experimento. Cada corrida experimental corresponde a una realización del experimento, bajo una determinada combinación de tratamientos, y produce una observación.

Réplicas: Todas las corridas experimentales que corresponden a una misma combinación de tratamientos. Son repeticiones del experimento, bajo idénticas condiciones de los factores. Objetivos: Lograr mayor precisión en la estimación de los efectos de los factores y de sus interacciones, y estimar el error experimental.

Experimento balanceado: Es un experimento en que todos los niveles de cada factor aparece el mismo número de veces. Si no se da esta situación, el experimento es desbalanceado.

Diseño: La estructura constituida por los factores y los niveles que se les asignan, en la experimentación. El diseño es la parte que controla el experimentador.

Respuesta: La variable objetivo, que se pretende optimizar, y que depende potencialmente de los factores. La respuesta es lo que se mide como resultado de la experimentación, no es controlada por el experimentador. Es una variable medida en escala numérica. 

Efecto principal: Un efecto principal es la variación en la respuesta, atribuida al cambio en un factor determinado, a través de sus distintos niveles. 

Interacción: El efecto producido por la acción de un factor, influido por la presencia de otro. Es un efecto combinado de dos o más factores. Si no existe un efecto de interacción, se dice que los efectos de los factores son aditivos. 

Error experimental: La parte de la variabilidad que no está explicada por los factores involucrados en el experimento.


La siguiente figura muestra las generalidades del diseño experimental:





WHAT IS A DESIGN OF EXPERIMENTS?

It is an experiment designed that consists of a test or several tests in which changes are deliberately induced in the input variables of the System (Process) in order to enable the identification of the causes that cause the changes in the response.

It is a discipline developed specifically for the study, analysis and understanding of the variability of processes and data.

One of the situations in which there is more application of the statistical methodology is that which refers to the determination of factors that cause variation, and the quantification of the effect that each of them has on that variation. The study of how factors that jointly affect the variation are combined. It is one of the main objectives of the Experiment design.

An experiment is performed for any of the following reasons:



1. Determine the main causes of variation in the response.
2. Find the experimental conditions with which an extreme value is achieved in the variable of interest or response.
3. Compare the responses at different levels of observation of controlled variables.
4. Obtain a statistical-mathematical model that allows predictions of future responses.


STAGES OF EXPERIMENTATION


1. Recognition of a problem.
2. Formulation of the problem.
3. Specification of the variables to be measured.
4. Agreement on the factors and levels to be used in the experiment.
5. Definition of the inference space.
6. Selection of experimental units.
7. Layout of the Design.
8. Development of the statistical model.
9. Preliminary design evaluation.
10. Redesign of the experiment.
11. Data collection.
12. Data analysis.
13. Conclusions.
14. Implementation.



DEFINITIONS



Experiment: A study in which the researcher has a high degree of control over important sources of variation is called an experiment. If there is little control over the factors, there is talk of an observational study.


Factors: The phenomena that potentially cause variation, and that are controlled by the experimenter, are called factors. They are also sometimes called treatments.

Levels of a factor: These are the values ​​that a factor takes. In general they take values ​​that are measured on a categorical scale, although sometimes they are usually measured on numerical scales.

Combination of treatments: Each level combination of all the factors involved in the experiment.

Experimental run: Each of the phases in which the experiment is carried out. Each experimental run corresponds to one embodiment of the experiment, under a certain combination of treatments, and produces an observation.

Replicas: All experimental runs that correspond to the same combination of treatments. They are repetitions of the experiment, under identical conditions of the factors. Objectives: To achieve greater precision in the estimation of the effects of the factors and their interactions, and estimate the experimental error.

Balanced experiment: It is an experiment in which all levels of each factor appear the same number of times. If this situation does not occur, the experiment is unbalanced.

Design: The structure constituted by the factors and the levels assigned to them, in the experimentation. Design is the part that controls the experimenter.

Answer: The objective variable, which is intended to be optimized, and potentially depends on the factors. The answer is what is measured as a result of experimentation, it is not controlled by the experimenter. It is a variable measured in numerical scale.

Main effect: A main effect is the variation in the response, attributed to the change in a given factor, through its different levels.

Interaction: The effect produced by the action of one factor, influenced by the presence of another. It is a combined effect of two or more factors. If there is no interaction effect, the effects of the factors are said to be additive.


Experimental error: The part of the variability that is not explained by the factors involved in the experiment.

martes, 14 de febrero de 2017

Comprobación de la adecuación del modelo de regresión lineal

Las premisas de un modelo de regresión lineal son aspectos que este debe cumplir, principalmente están asociados a los errores que se encuentran en el modelo, son 5 aspectos principales:

-La relación entre la variable dependiente e independiente es lineal: son muchos los métodos tanto matemáticos como estadísticos para demostrar que la relación entre variables sigue una tendencia lineal, estos métodos se dejan a elección del investigador, usualmente se utiliza el coeficiente de determinación o el de correlación al probar esta premisa.

-Los errores se distribuyen normalmente: esto se puede probar construyendo los residuales estandarizados, estos siguen la siguiente ecuación característica:


Estos residuales estandarizados se grafican en un diagrama residuales estandarizados vs valores teóricos, y se espera que el comportamiento siga una linea recta, cualquier desviación de esta línea atentaría a esta segunda premisa como se muestra a continuación.



-Los errores tienen media cero: La media del calculo de los errores debe ser igual a cero para cumplir con esta premisa.

-Los errores tienen varianza constante o son homocedasticos: se espera que los errores tengan una variación constante, sin patrones o tendencias, esta premisa se puede comprobar mediante un diagrama de dispersión de residuales vs valores ajustados de y.
Este gráfico mostrara tendencias para decidir si los errores son homocedasticos o por el contrario son heterocedasticos.




-Los errores no están correlacionados: esta premisa se comprueba mediante un gráfico de residuales vs tiempo, por lo tanto, se debe tener la historia de los errores y el orden en que las observaciones fueron tomadas. El comportamiento esperado para verificar que los errores no estén correlacionados es el siguiente:



The premises of a linear regression model are aspects that must be met, mainly associated with the errors found in the model, are 5 main aspects:

1. The relationship between the dependent and independent variable is linear: there are many mathematical and statistical methods to demonstrate that the relationship between variables follows a linear trend, these methods are left to the researcher's choice, usually the coefficient of determination or of correlation when proving this premise.

2. The errors are normally distributed: this can be proven by constructing the standardized residuals, these follow the following characteristic equation:

These standardized residuals are plotted in a diagram of standardized residuals vs. theoretical values, and it is expected that the behavior follows a straight line, any deviation from this line would attend to this second premise as shown below.

3. The errors have zero mean: The average calculation of errors must be equal to zero to comply with this premise.

4. The errors have constant variance or are homocedastic: errors are expected to have a constant variation, without patterns or trends, this premise can be verified by a scatter plot of residuals vs adjusted values ​​of y.

This graph will show tendencies to decide if the errors are homocedastic or on the contrary they are heterocedastic.


5. The errors are not correlated: this premise is checked by a graph of residuals vs. time, therefore, the history of the errors and the order in which the observations were taken should be taken. The expected behavior to verify that the errors are not correlated is as follows:

jueves, 9 de febrero de 2017

Modelos de regresión lineal múltiple

Los modelos de regresión lineal múltiple (de ahora en adelante MRLM) son mucho más potentes a la hora de relacionar multiplicidad de variables, en la mayoría de problemas de ciencias e ingeniería estos modelos se tornan necesarios, sin embargo su tratamiento se torna tedioso con el calculo manual, es por esta razón que es necesario en muchos casos cuando se trabajan con multitud de variables y datos, utilizar software especifico para esta tarea.


Los vectores y la matriz que componen nuestro modelo de regresión lineal múltiple es el siguiente:

Una vez definido el modelo, las variables y los datos, es necesario hallar los estimadores de los coeficientes del modelo, esto se realiza mediante la multiplicación de matrices, como esta expuesto a continuación:


Una vez hallados los coeficientes y obtener el MRLM, se debe conocer la significancia del modelo de regresión y así saber si se ajusta a posibles y futuras predicciones.
Así como en la RLS existen formas de hacerlo:

1. La tabla ANOVA, que se construye de forma similar pero se debe hallar la significancia para todos los coeficientes y para cada uno de ellos mediante las pruebas de hipótesis.
La tabla ANOVA queda constituida de la siguiente manera:


Donde k es el número de variables, n es el numero de datos y en algunos casos se habla de p como el número de coeficientes del modelo y esta definido como k+1.

2. Coeficiente de determinación ajustado


El coeficiente es una proporción que varia entre 0 y 1, donde a medida que el coeficiente se acerca a 1 el modelo es más adecuado.

En el siguiente enlace se puede apreciar como se construye y analiza un MRLM utilizando la herramienta STATGRAPHICS https://youtu.be/Un4faTbUWTw


miércoles, 8 de febrero de 2017

Análisis de varianza (ANOVA) para la variable respuesta

El análisis de varianza (o de ahora en adelante ANOVA) para la variable respuesta descompone la variabilidad en: explicada y no explicada o residual.

El ANOVA permite comparar si el modelo es significativo o no, bajo la hipótesis de que existe una relación lineal entre la variable respuesta y la variable regresora. Por lo tanto una prueba de hipótesis valida para este caso sería la siguiente:

Hipótesis nula: La variable regresora no influye y no hay relación lineal entre ambas variables.
Hipótesis alterna: Existe una dependencia entre las variables, por lo tanto el modelo es significativo.



Por ortogonalidad vectorial, la última parte de la ecuación se convierte en 0.
A partir de esto se construye la tabla ANOVA para probar la hipótesis antes mencionada.

Su construcción es la siguiente:



La prueba F calculada a partir de la tabla deberá ser entonces comparada con la tabla F, y el criterio sera: Se rechaza la hipótesis nula si F calculada es mayor que el valor de la tabla F.

La tabla F se puede consultar en el siguiente enlace:
http://users.sussex.ac.uk/~grahamh/RM1web/F-ratio%20table%202005.pdf

Sigue el enlace para ver de manera aplicada este tema en: https://youtu.be/4dYZXE_8Rto

Coeficiente de correlación lineal

El coeficiente de correlación lineal dentro de la regresión lineal simple esta definido de la siguiente manera:


El coeficiente de correlación muestra la manera en la cual la variable Y y X tienen una relación reciproca, este coeficiente puede tomar valores entre -1 y 1, el significado de esta reciprocidad es la siguiente:

R = 1, fuerte reciprocidad o correlación, mientras que Y crece X crece.
R = -1, fuerte reciprocidad o correlación, sin embargo mientras que una variable crece, la otra decrece.
R tiende a 0, correlación negativa, no existe relación entre variables.

Algunos patrones de correlación son los siguientes:


The linear correlation coefficient within the simple linear regression is defined as follows:



The correlation coefficient shows the way in which the variable Y and X have a reciprocal relationship, this coefficient can take values ​​between -1 and 1, the meaning of this reciprocity is as follows:

R = 1, strong reciprocity or correlation, while Y grows X grows.
R = -1, strong reciprocity or correlation, however, while one variable grows, the other decreases.
R tends to 0, negative correlation, there is no relationship between variables.

Some correlation patterns are as follows:

lunes, 6 de febrero de 2017

Método de los mínimos cuadrados

El método de los mínimos cuadrados es una de las metodologías mas utilizadas para hallar los coeficientes de un MRLS, aquí se presenta la demostración de dicho procedimiento:



El modelo ajustado cuando se aplica el método de los mínimos cuadrados es el que se presenta a continuación:


Es importante anotar que a este modelo ajustado se le deben asociar pruebas de análisis residuales y de coeficiente de correlación lineal, esto con el fin de evaluar la idoneidad de dicho modelo ajustado.


Modelo de regresión lineal simple

Modelo de regresión lineal simple (MRLS)


El modelo de RLS tiene las siguientes características explicadas a continuación:

•𝛽0: intercepto
•𝛽1: coeficiente de 𝑥
•𝜎2: varianza de los errores

Notese que el modelo RLS al ser un modelo estadístico tiene asociado los errores dentro de su modelo, y es similar al modelo ya conocido Y = mX +b, siendo "m" la pendiente y "b" el intercepto con el eje Y.

Por lo tanto, es necesario estimar los parámetros del modelo, para hallar dentro de los casos presentados más adelante un modelo univariable que se ajuste a los datos.

Para esto se utilizan tipicamente dos métodos:
-Estimación por mínimos cuadrados
-Estimación por máxima verosimilitud




Introducción al análisis de regresión lineal

¿Que es el análisis de regresión lineal?

Es una técnica estadística que consiste en modelar la relación entre variables.

Por lo tanto esta técnica utiliza la relación entre dos tipos de variables:
-Respuesta o Dependiente
-Explicativas, Regresoras, Covariables o Independientes

La variable respuesta es comúnmente asociada con la Y, mientras que la variable independiente es la X (o en modelos de regresión múltiple son varias X)

¿Donde se aplica el análisis de regresión?

•Física
•Ingeniería
•Química
•Economía
•Administración
•Ciencias biológicas
•Ciencias de la salud
•Ciencias sociales
•Mercadeo

Así como en muchas otras múltiples áreas de investigación y ciencias.

¿Cuales son los modelos de tipos de regresión existentes?

Principalmente se pueden dividir en dos:
-Modelos lineales: que pueden ser a su vez: simples o múltiples
-Modelos no lineales

¿Que tipos de estudios se pueden llevar a cabo utilizando la regresión lineal?

Se pueden llevar a cabo estudios:
-Retrospectivos
-Observacionales
-Experimentales

¿Cuales son los usos encontrados para el análisis de regresión lineal?

Los usos pueden ser variados, aunque principalmente depende del foco de investigación, algunos usos encontrados pueden ser:
-Descripción de datos
-Estimación de parámetros
-Predicción
-Control
______________________________________________________________________________

INTRODUCTION TO LINEAR REGRESSION

What is linear regression analysis?

It is a statistical technique that consists of modeling the relationship between variables.
Therefore this technique uses the relationship between two types of variables:

-Reply or Dependent
-Explainers, Regressors, Covariates or Independent

The response variable is commonly associated with Y, while the independent variable is X (or in multiple regression models there are several X)

Where is the regression analysis applied?

•Physical
•Engineering
•Chemistry
•Economy
•Administration
•Biological Sciences
•Health Sciences
•Social Sciences
•Marketing

As in many other multiple areas of research and science.

What are the models of existing regression types?

Mainly they can be divided in two:
-Linear models: which can be in turn: single or multiple
-Nonlinear models

What types of studies can be carried out using linear regression?
Studies can be carried out:

-Retrospective
-Observational
-Experimental

What are the uses found for linear regression analysis?

The uses can be varied, although mainly it depends on the research focus, some uses found can be:

-Data description
-Parameter estimation
-Prediction
-Control