Buscar este blog

miércoles, 18 de marzo de 2020

Transformaciones para corregir modelos de regresión

Para corregir inadecuaciones de los modelos, es importante primero aclarar las siguientes preguntas:

1. ¿Qué es una transformación?
2. ¿Cuando se necesita una transformación?
3. ¿Qué se puede transformar?
4. ¿Cómo se elige la transformación?

El modelo lineal es Y=Bo+B1X.

Una función o modelo que relacione Y con X es intrínsecamente lineal si por medio de una transformación X y/o Y, la función se puede expresar o reducir como Y'=Bo+B1X', donde Y' es la variable transformada y X' es la variable transformada.

Se debe demostrar gráficamente que los datos no son lineales sino que siguen cualquier otra tendencia o patrón no lineal, como por ejemplo exponencial, potencial, logarítmica, recíproca, etc. Se requiere entonces hallar un mejor modelo de pronóstico para los datos, suponga que el modelo y los datos se comportan de la siguiente manera:

5.4a,b Función Potencia
5.4c,d Función Exponencial
5.4e,f Función Logarítmica
5.4g,h Función Recíproca


En el siguiente vídeo se explica como realizar una transformación en EXCEL.


viernes, 13 de marzo de 2020

7. Carta de control R

Este gráfico controla la amplitud o el rango de variación de la característica de calidad medida para las muestras. El rango R, es definido como la diferencia ente el valor máximo menos el valor mínimo de la característica de calidad X.

Este gráfico esta diseñado para detectar cambios en la variabilidad de los procesos a partir del calculo de los rangos de las muestras.

Los limites de control para este tipo de gráficos son los siguientes:
  • Límite Central (LC): Se estima como el promedio de los rangos de las muestras, es decir R barra.
  • Los límites inferior y superior de control son calculados de esta manera:

Para el cálculo de los factores D3 y D4 se utiliza la tabla de factores constantes, es de aclarar que dependen del número de muestras.


El siguiente vídeo ejemplifica el uso de este gráfico de variables en EXCEL:


6. Carta de control X barra

Los gráficos o la carta de control X barra controlan el valor promedio de una característica de calidad del proceso, a partir de valores promedios obtenidos de las muestras.
Para la construcción de este tipo de gráficos se requiere del calculo de tres elementos:

  • Linea central (LC): La línea central es el valor del promedio de la media de las n-muestras del  proceso, en este caso es conocida como X doble barra.
  • Límite Superior de Control (LSC): Es la línea extrema superior del proceso.
  • Límite Inferior de Control (LIC): Es la línea extrema inferior del proceso.

El gráfico X barra utiliza el valor constante A2 medido mediante el número de muestras del proceso n. La siguiente tabla presenta los valores constantes utilizados en las cartas de variables y atributos.


El siguiente vídeo ejemplifica el uso de la carta de control X barra en EXCEL: 

miércoles, 5 de febrero de 2020

5. Decisiones sobre el control estadístico de procesos


Al analizar un proceso pueden suceder dos eventos:

El proceso está bajo control:  Si el proceso está influenciado solo por causas aleatorias o no asignables.
El proceso está fuera de  control : Si el proceso está influenciado por causas especiales de variación o causas especiales.

¿Que se debe hacer si la carta de control  indica proceso fuera de control?

Se puede tomar la decisión de detener el proceso, el dueño del proceso o la autoridad del mismo genera esta decisión.
Se debe buscar y listar las posibles causas (variables) asignables que afectaron el proceso, entre las cuales pueden ser las siguientes, según el tipo de proceso:

  • Materias primas.
  • Operario.
  • Temperatura del proceso.
  • Desgaste de una herramienta de la máquina.
  • Dureza del material.
  • Calibración  del  instrumento de medición.
  • Expansión o contracción del material.
  • Humedad, presión ,voltaje, etc.
  • Operario o inspector  nuevos y/o mal entrenados o capacitados.
  • Fatiga del Operario  o  inspector.
  • Falta de uniformidad del material. 
  • Deficiente  Programa de mantenimiento.
  • Mezcla de diferentes lotes. 
__________________________________________________________________


When analyzing a process two events can happen:

The process is under control: If the process is influenced only by random or non-assignable causes.
The process is out of control: If the process is influenced by special causes of variation or special causes.

What should be done if the control letter indicates out of control process?
The decision can be made to stop the process, the owner of the process or the authority of the process generates this decision.
The possible assignable causes (variables) that affected the process must be searched and listed, among which may be the following, depending on the type of process:
  • Raw Materials.
  • Operator.
  • Process temperature
  • Wear of a machine tool.
  • Hardness of the material.
  • Calibration of the measuring instrument.
  • Expansion or contraction of the material.
  • Humidity, pressure, voltage, etc.
  • Operator or inspector new and / or poorly trained or trained.
  • Operator or inspector fatigue.
  • Lack of uniformity of the material.
  • Poor maintenance schedule.
  • Mix of different batches.


4. Cartas de control o gráficos de control estadístico de procesos

Definición: Las cartas de control son aquellos gráficos que permiten identificar las variaciones debidas a causas asignables de aquellas que son debidas al azar.

Las causas de variación son dos:

Debidas al azar: las cuales son inevitables en el proceso.
Asignables: las que incluyen factores significativos que pueden ser investigados.

Las cartas de control son desarrolladas bajo la siguiente metodología que ayuda a su construcción:

  • Existen varias clases de cartas de control, según su propósito que puede ser: cartas para variables o cartas para atributos.
  • En cualquier tipo de gráfico, por regla general los límites superior de control (LSC), limite inferior de control (LIC) y el límite central (LC) se calculan como: 
  • (valor promedio)+/-3(desviación estándar)

  • Definir la variable a controlar X. tomando varios grupos de muestras de tamaño de 4 o 5.
  • Definir los límites de control para la carta los cuales se denominan: límite superior y Límite inferior.
  • Es recomendable que la carta cuente entre 20 y 25 subgrupos.
¿Cómo saber si una carta está fuera de control o en control?

Existen varios factores a considerar, los cuales son: puntos por fuera, tendencias, ciclos, estratificaciones y rachas, sus características son:

Por normal general, en un proceso normal los puntos deben fluctuar aleatoriamente entre ambos lados de la LC.

  • Ningún punto debe estar por fuera de los límites de control superior e inferior.
  • Verificar si 6 ó más puntos están formando tendencias ascendentes o descendentes.

  • Verificar si los puntos forman una curva ascendente o descendente, entonces se dice que hay una tendencia.
  • Los puntos no deben formar ciclos.

  • Cuando la curva muestra repetidamente una tendencia ascendente y descendente para casi el mismo intervalo.
  • Los puntos no deben formar estratificaciones o la tendencia de los puntos a ubicarse en la misma área o franjas estrechas de la carta. 

  • 15 puntos consecutivos, concentrados a una distancia menor o igual a una desviación estándar de la LC se considera una estratificación, lo que se concluye como un proceso fuera de control.
  • 8 puntos consecutivos alejados entre una y dos desviaciones estándar con respecto a la LC, es una estratificación
  • Cuando la mayoría de los puntos están dentro de las líneas de 1.5 sigma, se considera anormal.
  • Los puntos no deben formar rachas o la tendencia de los puntos de ubicarse a un mismo lado de la línea central.

  • 8 puntos consecutivos a un mismo lado de LC es un ejemplo de racha.
  • De 14 a 12 puntos consecutivos por lo menos ubicados a un mismo lado de LC, es una racha y se considera un proceso fuera de control.

_______________________________________________________________________


Definition: The control charts are those graphics that allow to identify the variations due to assignable causes of those that are due to chance.

The causes of variation are two:
  • Due to chance: which are inevitable in the process.
  • Assignable: those that include specific factors that can be investigated.

The control charts are developed under the following methodology that helps their construction:
There are several kinds of control charts, depending on their purpose, which can be: chart for variables or chart for attributes.
  • In any type of chart, as a rule, the limits are calculated as:
  • (average value) +/- 3 (standard deviation)
  • Define the variable to control X. take several groups of samples of size 4 or 5.
  • Define the control limits for the chart which are called: upper limit and lower limit.
  • It is recommended that the card count between 20 and 25 subgroups.

How to know if a card is out of control or in control?

There are several factors to consider, which are: points outside, trends, cycles, stratifications and streaks, their characteristics are:

  • No point should be outside the upper and lower control limits.
  • Points should fluctuate randomly between both sides of the LC.
  • Check if 6 or more points are forming upward or downward trends.
  • Check if the points form an upward or downward curve, then it is said that there is a trend.
  • The points should not form cycles.
  • When the curve repeatedly shows an upward and downward trend for almost the same interval.
  • The points should not form stratifications or the tendency of the points to be located in the same area or narrow stripes of the card.
  • 15 consecutive points, concentrated at a distance less than or equal to a standard deviation of the LC is considered a stratification, which is concluded as a process out of control.
  • 8 consecutive points away between one and two standard deviations from the LC, is a stratification
  • When most of the points are within the 1.5 sigma lines, it is considered abnormal.
  • The points should not form streaks or the tendency of the points to be located on the same side of the center line.
  • 8 consecutive points on the same side of LC is an example of a streak.
  • From 14 to 12 consecutive points for less or less on the same side of LC, it is a streak and is considered an out-of-control process.



martes, 28 de enero de 2020

3. Diagramas de dispersión

Esta entrada sobre diagramas de dispersión se puede complementar con los siguientes enlaces en este mismo blog:

https://doestatistics.blogspot.com/2017/02/introduccion-al-analisis-de-regresion.html
https://doestatistics.blogspot.com/2017/02/modelo-de-regresion-lineal-simple.html
https://doestatistics.blogspot.com/2017/02/metodo-de-los-minimos-cuadrados-el.html
https://doestatistics.blogspot.com/2017/02/coeficiente-de-correlacion-lineal.html

Diagrama de dispersión: es usado para estudiar la posible relación entre dos variables (causa y efecto).

Casos típicos de diagramas de dispersión

1. Correlación positiva
  • Un incremento en “y” depende de un incremento en “x”.
  • Si se controla “x” se controla “y”.
  • entrenamiento vs. desempeño.

2. Posible correlación positiva
  • Si “x” aumenta, “y” incrementa un poco.
  • “y” parece tener otras causas diferentes a “x”.

3. No correlación
  • No hay correlación, “y” puede depender de otra variable.
  • Rendimiento vs lugar de nacimiento.

4. Posible correlación negativa
  • Un aumento en “x” causará  una tendencia negativa en “y”.
  • calidad vs. quejas.

5. Correlación negativa
  • Un aumento en “x” causará una disminución en “y”.
  • Si se controla “x” se controla “y”


Para saber como elaborar un gráfico sencillo en Excel para estudiar la relación entre variables, puedes ver el siguiente vídeo:



Utiliza la herramienta de análisis de datos en Excel para ver las estadísticas y el análisis de regresión en el siguiente vídeo:




______________________________________________________________________

Dispersion diagram: it is used to study the possible relationship between two variables (cause and effect).

Typical cases of scatter diagrams

1. Positive correlation


  • An increase in "y" depends on an increase in "x".
  • If "x" is controlled, "y" is controlled.
  • training vs. performance.


2. Possible positive correlation


  • If "x" increases, "y" increases slightly.
  • "Y" seems to have causes other than "x".


3. No correlation


  • There is no correlation, "y" may depend on another variable.
  • Performance vs. place of birth.


4. Possible negative correlation


  • An increase in "x" will cause a negative trend in "y".
  • quality vs. complaints


5. Negative correlation


  • An increase in "x" will cause a decrease in "y".
  • If "x" is controlled, "y" is controlled



2. Medidas Estadísticas de resumen

El objetivo fundamental de las medidas estadísticas de resumen es calcular valores que recojan la información de todos los datos y que, proporcionen un acercamiento al comportamiento de las variables.

 Se clasifican en:

1.MEDIDAS DE TENDENCIA CENTRAL: Dan información acerca del comportamiento de los valores medios o centrales de la serie de datos. La medida de tendencia central principal es la media aritmética o promedio.

Media aritmética o promedio: Es la suma de todos los valores que asume la variable dividida por el total de estos.

Ventajas:
  •  Facilidad de comprensión y cálculo.
  •  Necesitan todos los valores de la variable, lo que la hace más confiable.
Desventajas:
Su validez puede ser afectada por valores extremos perdiendo representatividad, en este caso no debe utilizarse. 

2. MEDIDAS DE POSICIÓN: Determinan la posición que ocupa un determinado valor de la variable con respecto a las puntuaciones menores o iguales que ésta. Las cuales son: Moda, Mediana, Cuartiles, Deciles y Percentiles.

Moda: Es el dato que tiene la frecuencia mayor. Es la medida más descriptiva de los datos.

Ventajas:
  • Se puede calcular a todo tipo de variables.
  • No es influencia por valores extremos.
  • Puede ser bimodal, trimodal o polimodal, según el caso.
Desventajas:
  • Es inestable de muestra a muestra.
  • Puede no existir, si los valores de la variable tienen igual frecuencia.
Mediana: Es el valor medio o valor que divide los datos ordenados en dos partes iguales.  

Características:
  • Es fácil de calcular.
  • No la deforman los valores extremos.
  • Es útil cuando los valores se alejan demasiado del promedio.
  • Puede ser un valor que no coincida con ningún dato.
3. MEDIDAS DE DISPERSIÓN: Dan un valor de la diferencia o variabilidad de los datos tomando como referencia un valor particular, que es generalmente la media aritmética. Las cuales son: Rango, Varianza, Desviación estándar y Coeficiente de Variación.

Rango: Representa la diferencia entre el valor máximo y el valor mínimo de los datos. Se le denomina también Recorrido. 

Ventajas:
 Es una medida de dispersión absoluta.

Desventajas:
  • Sólo toma en cuenta los valores extremos de los datos.
  • Es sensible al tamaño de la muestra.
Varianza: Es aquel valor absoluto positivo, que acumula la variación promedio de los valores de la variable con respecto a la media en forma cuadrática. 

Ventajas:
  • Es de gran utilidad en los procedimientos de inferencia estadística.
  • Es una de las medidas estadísticas más importantes y de ella  se calcula la desviación estándar o desviación típica.
Desventajas:
No tiene una interpretación clara.

Desviación estándar: Describe la variabilidad de los datos alrededor de la media aritmética, elegida como medida de tendencia central.  Se calcula como la raíz cuadrada positiva de la varianza.

Ventajas:
  • Es la medida más conocida y comúnmente usada de la dispersión de una serie de datos.
  • Es recomendable usarla cuando la media aritmética es buena medida de tendencia central.
Desventajas:
 Es sensible a la variación de los datos.

Coeficiente de variación: Es una medida relativa de la variación de un conjunto de datos.

Características:
  • Es adecuado cuando se desea comparar la variabilidad en dos o más grupos.
  • Si el CV es inferior al 20%, se asume que los datos tienen una distribución homogénea.
4. MEDIDAS DE FORMA: Hacen referencia a la forma geométrica de la distribución de los datos. Estas son: Coeficiente de curtosis y coeficiente de asimetría.

_________________________________________________________________

The fundamental objective of the statistical summary measures is to calculate values ​​that collect the information of all the data and that provide an approach to the behavior of the variables.
 They are classified in:

1. MEASURES OF CENTRAL TREND: Give information about the behavior of the middle or core values ​​of the data series. The main central tendency measure is the arithmetic mean or average.


Arithmetic mean or average: It is the sum of all the values ​​assumed by the variable divided by the total of these.

Advantage:
 Ease of understanding and calculation.
 They need all the values ​​of the variable, which makes it more reliable.
Disadvantages:
Its validity can be affected by extreme values ​​losing representativeness, in this case it should not be used.

2. POSITION MEASURES: Determine the position that a certain value of the variable occupies with respect to scores less than or equal to it. Which are: Fashion, Medium, Quartiles, Deciles and Percentiles.

Mode: It is the data that has the highest frequency. It is the most descriptive measure of the data.

Advantage:
You can calculate all kinds of variables.
It is not influenced by extreme values.
It can be bimodal, trimodal or polymodal, depending on the case.

Disadvantages:
It is unstable from sample to sample.
It may not exist, if the values ​​of the variable have the same frequency.

Mediam: It is the average value or value that divides the ordered data into two equal parts.

Characteristics:
It is easy to calculate.
It is not deformed by extreme values.
It is useful when values ​​are too far from average.
It can be a value that does not match any data.

3. DISPERSION MEASURES: They give a value of the difference or variability of the data taking as reference a particular value, which is generally the arithmetic mean. Which are: Range, Variance, Standard deviation and Variation Coefficient.

Range: Represents the difference between the maximum value and the minimum value of the data. It is also called Tour.

Advantage:
 It is a measure of absolute dispersion.

Disadvantages:
Only take into account the extreme values ​​of the data.
It is sensitive to the sample size.

Variance: It is that positive absolute value, which accumulates the average variation of the values ​​of the variable with respect to the average in quadratic form.

Advantage:
It is very useful in statistical inference procedures.
It is one of the most important statistical measures and it calculates the standard deviation or standard deviation.

Disadvantages:
It does not have a clear interpretation.


Standard deviation: Describes the variability of the data around the arithmetic mean, chosen as a measure of central tendency. It is calculated as the positive square root of the variance.

Advantage:
It is the most known and commonly used measure of the dispersion of a series of data.
It is advisable to use it when the arithmetic mean is a good measure of central tendency.
Disadvantages:
 It is sensitive to the variation of the data.

Variation coefficient: It is a relative measure of the variation of a data set.

Characteristics:
It is appropriate when you want to compare the variability in two or more groups.
If the CV is less than 20%, it is assumed that the data have a homogeneous distribution.

4. FORM MEASURES: They refer to the geometric shape of the data distribution. These are: Curtosis coefficient and asymmetry coefficient.