Buscar este blog

martes, 28 de enero de 2020

3. Diagramas de dispersión

Esta entrada sobre diagramas de dispersión se puede complementar con los siguientes enlaces en este mismo blog:

https://doestatistics.blogspot.com/2017/02/introduccion-al-analisis-de-regresion.html
https://doestatistics.blogspot.com/2017/02/modelo-de-regresion-lineal-simple.html
https://doestatistics.blogspot.com/2017/02/metodo-de-los-minimos-cuadrados-el.html
https://doestatistics.blogspot.com/2017/02/coeficiente-de-correlacion-lineal.html

Diagrama de dispersión: es usado para estudiar la posible relación entre dos variables (causa y efecto).

Casos típicos de diagramas de dispersión

1. Correlación positiva
  • Un incremento en “y” depende de un incremento en “x”.
  • Si se controla “x” se controla “y”.
  • entrenamiento vs. desempeño.

2. Posible correlación positiva
  • Si “x” aumenta, “y” incrementa un poco.
  • “y” parece tener otras causas diferentes a “x”.

3. No correlación
  • No hay correlación, “y” puede depender de otra variable.
  • Rendimiento vs lugar de nacimiento.

4. Posible correlación negativa
  • Un aumento en “x” causará  una tendencia negativa en “y”.
  • calidad vs. quejas.

5. Correlación negativa
  • Un aumento en “x” causará una disminución en “y”.
  • Si se controla “x” se controla “y”


Para saber como elaborar un gráfico sencillo en Excel para estudiar la relación entre variables, puedes ver el siguiente vídeo:



Utiliza la herramienta de análisis de datos en Excel para ver las estadísticas y el análisis de regresión en el siguiente vídeo:




______________________________________________________________________

Dispersion diagram: it is used to study the possible relationship between two variables (cause and effect).

Typical cases of scatter diagrams

1. Positive correlation


  • An increase in "y" depends on an increase in "x".
  • If "x" is controlled, "y" is controlled.
  • training vs. performance.


2. Possible positive correlation


  • If "x" increases, "y" increases slightly.
  • "Y" seems to have causes other than "x".


3. No correlation


  • There is no correlation, "y" may depend on another variable.
  • Performance vs. place of birth.


4. Possible negative correlation


  • An increase in "x" will cause a negative trend in "y".
  • quality vs. complaints


5. Negative correlation


  • An increase in "x" will cause a decrease in "y".
  • If "x" is controlled, "y" is controlled



2. Medidas Estadísticas de resumen

El objetivo fundamental de las medidas estadísticas de resumen es calcular valores que recojan la información de todos los datos y que, proporcionen un acercamiento al comportamiento de las variables.

 Se clasifican en:

1.MEDIDAS DE TENDENCIA CENTRAL: Dan información acerca del comportamiento de los valores medios o centrales de la serie de datos. La medida de tendencia central principal es la media aritmética o promedio.

Media aritmética o promedio: Es la suma de todos los valores que asume la variable dividida por el total de estos.

Ventajas:
  •  Facilidad de comprensión y cálculo.
  •  Necesitan todos los valores de la variable, lo que la hace más confiable.
Desventajas:
Su validez puede ser afectada por valores extremos perdiendo representatividad, en este caso no debe utilizarse. 

2. MEDIDAS DE POSICIÓN: Determinan la posición que ocupa un determinado valor de la variable con respecto a las puntuaciones menores o iguales que ésta. Las cuales son: Moda, Mediana, Cuartiles, Deciles y Percentiles.

Moda: Es el dato que tiene la frecuencia mayor. Es la medida más descriptiva de los datos.

Ventajas:
  • Se puede calcular a todo tipo de variables.
  • No es influencia por valores extremos.
  • Puede ser bimodal, trimodal o polimodal, según el caso.
Desventajas:
  • Es inestable de muestra a muestra.
  • Puede no existir, si los valores de la variable tienen igual frecuencia.
Mediana: Es el valor medio o valor que divide los datos ordenados en dos partes iguales.  

Características:
  • Es fácil de calcular.
  • No la deforman los valores extremos.
  • Es útil cuando los valores se alejan demasiado del promedio.
  • Puede ser un valor que no coincida con ningún dato.
3. MEDIDAS DE DISPERSIÓN: Dan un valor de la diferencia o variabilidad de los datos tomando como referencia un valor particular, que es generalmente la media aritmética. Las cuales son: Rango, Varianza, Desviación estándar y Coeficiente de Variación.

Rango: Representa la diferencia entre el valor máximo y el valor mínimo de los datos. Se le denomina también Recorrido. 

Ventajas:
 Es una medida de dispersión absoluta.

Desventajas:
  • Sólo toma en cuenta los valores extremos de los datos.
  • Es sensible al tamaño de la muestra.
Varianza: Es aquel valor absoluto positivo, que acumula la variación promedio de los valores de la variable con respecto a la media en forma cuadrática. 

Ventajas:
  • Es de gran utilidad en los procedimientos de inferencia estadística.
  • Es una de las medidas estadísticas más importantes y de ella  se calcula la desviación estándar o desviación típica.
Desventajas:
No tiene una interpretación clara.

Desviación estándar: Describe la variabilidad de los datos alrededor de la media aritmética, elegida como medida de tendencia central.  Se calcula como la raíz cuadrada positiva de la varianza.

Ventajas:
  • Es la medida más conocida y comúnmente usada de la dispersión de una serie de datos.
  • Es recomendable usarla cuando la media aritmética es buena medida de tendencia central.
Desventajas:
 Es sensible a la variación de los datos.

Coeficiente de variación: Es una medida relativa de la variación de un conjunto de datos.

Características:
  • Es adecuado cuando se desea comparar la variabilidad en dos o más grupos.
  • Si el CV es inferior al 20%, se asume que los datos tienen una distribución homogénea.
4. MEDIDAS DE FORMA: Hacen referencia a la forma geométrica de la distribución de los datos. Estas son: Coeficiente de curtosis y coeficiente de asimetría.

_________________________________________________________________

The fundamental objective of the statistical summary measures is to calculate values ​​that collect the information of all the data and that provide an approach to the behavior of the variables.
 They are classified in:

1. MEASURES OF CENTRAL TREND: Give information about the behavior of the middle or core values ​​of the data series. The main central tendency measure is the arithmetic mean or average.


Arithmetic mean or average: It is the sum of all the values ​​assumed by the variable divided by the total of these.

Advantage:
 Ease of understanding and calculation.
 They need all the values ​​of the variable, which makes it more reliable.
Disadvantages:
Its validity can be affected by extreme values ​​losing representativeness, in this case it should not be used.

2. POSITION MEASURES: Determine the position that a certain value of the variable occupies with respect to scores less than or equal to it. Which are: Fashion, Medium, Quartiles, Deciles and Percentiles.

Mode: It is the data that has the highest frequency. It is the most descriptive measure of the data.

Advantage:
You can calculate all kinds of variables.
It is not influenced by extreme values.
It can be bimodal, trimodal or polymodal, depending on the case.

Disadvantages:
It is unstable from sample to sample.
It may not exist, if the values ​​of the variable have the same frequency.

Mediam: It is the average value or value that divides the ordered data into two equal parts.

Characteristics:
It is easy to calculate.
It is not deformed by extreme values.
It is useful when values ​​are too far from average.
It can be a value that does not match any data.

3. DISPERSION MEASURES: They give a value of the difference or variability of the data taking as reference a particular value, which is generally the arithmetic mean. Which are: Range, Variance, Standard deviation and Variation Coefficient.

Range: Represents the difference between the maximum value and the minimum value of the data. It is also called Tour.

Advantage:
 It is a measure of absolute dispersion.

Disadvantages:
Only take into account the extreme values ​​of the data.
It is sensitive to the sample size.

Variance: It is that positive absolute value, which accumulates the average variation of the values ​​of the variable with respect to the average in quadratic form.

Advantage:
It is very useful in statistical inference procedures.
It is one of the most important statistical measures and it calculates the standard deviation or standard deviation.

Disadvantages:
It does not have a clear interpretation.


Standard deviation: Describes the variability of the data around the arithmetic mean, chosen as a measure of central tendency. It is calculated as the positive square root of the variance.

Advantage:
It is the most known and commonly used measure of the dispersion of a series of data.
It is advisable to use it when the arithmetic mean is a good measure of central tendency.
Disadvantages:
 It is sensitive to the variation of the data.

Variation coefficient: It is a relative measure of the variation of a data set.

Characteristics:
It is appropriate when you want to compare the variability in two or more groups.
If the CV is less than 20%, it is assumed that the data have a homogeneous distribution.

4. FORM MEASURES: They refer to the geometric shape of the data distribution. These are: Curtosis coefficient and asymmetry coefficient.





1. Control Estadístico de Procesos y Mejoramiento


Frecuentemente se intenta reducir los defectos encontrados en un proceso remontándose directamente a la causa del problema. El primer paso para encontrar la verdadera causa es una observación cuidadosa del fenómeno del defecto.



Definiciones

Calidad: Grado mediante el cual el producto o servicio satisface las necesidades o expectativas del cliente. Grado de cumplimiento del producto o servicio con respecto a las especificaciones.

Control: Es un ciclo planeado de actividades mediante las cuales se logra una meta, objetivo o calidad deseada.

Especificación: Informaciones ordenadas que describen todas las características de un producto ideal.

Inspección: Programa de actividades que determinan el grado en el que un producto o servicio cumple con las especificaciones.

Estadística: Herramienta matemática que facilita la recolección, organización, análisis, interpretación y presentación de los resultados.

Población: Colección de elementos que poseen características en común y sobre los cuales se desea hacer alguna inferencia.

Marco muestral: Conjunto de elementos de la población de donde se extrae la muestra.

Muestra: Colección de elementos seleccionados de un marco muestral. Su análisis permite realizar conclusiones acerca del universo.

¿Qué causa los defectuosos?

Si la calidad fuera idéntica y regular en las entradas de un proceso, como lo son:
  • Materiales
  • Maquinarias
  • Mano de obra
  • Métodos de trabajo
  • Medio ambiente
  • Herramientas
  • Materia prima
  • Instalaciones físicas
La calidad de los productos o servicios que ofrecemos sería idéntica y regular, donde se cumpliría o no los requisitos.

Diagnóstico de procesos

De las causas innumerables que se encuentran, no todas afectan la calidad del producto o servicio en el mismo grado.

A cualquier perturbación en estas causas, se le conoce como variabilidad o variación.

¿Como se aplica e interpreta el control estadístico de procesos?

El cliente permanentemente está enviando señales a través de la cadena de suministros, con el fin de demandar productos que lo satisfagan. La forma como el cliente expresa sus necesidades al proveedor muchas veces es genérica y subjetiva.
Ejemplo: Quiero un producto X que sea Bueno, Bonito y Barato.

Ejemplo: Un cliente le dice a un proveedor que le fabrique un eje, que sea resistente y que soporte altas temperaturas. ¿Qué debe hacer el proveedor? Convertir la señal o expectativa del cliente en características de Calidad

  • Funcionales: Debe tener un diámetro y una longitud
  • Físicas: Tenacidad, resistencia a la fricción
  • Material: Acero

Clasificación de las características de calidad
Variables: son características de calidad que pueden ser medidas con instrumentos. Ejemplo: dimensiones, peso, volumen.
Atributos: solo son apreciables a través de los sentidos y en general no son medibles, por lo cual se recurre a patrones. Ejemplo: color, textura, brillo

Principio de variabilidad de los procesos
Los  procesos  están  afectados  permanentemente  por  diferentes  causas que generan problemas. Las causas pueden ser:
1. Aleatorias o no asignables
Son producto de la aleatoriedad de la naturaleza, afectan por igual y en forma permanente los procesos y provienen de:

  • Características de las materias primas
  • Condiciones ambientales (humedad, temperatura)
  • Experiencia de los operarios.

2. Especiales o asignables
Son las que causan productos fuera de especificación y no siempre están presentes (aparecen y desaparecen), en general “se pueden señalar como las culpables”.

Ejemplos:

  • Cambio de proveedor de materia prima
  • Cambio de método de trabajo
  • RPM o velocidad de la máquina
  • Rotación de personal (falta experiencia)
  • Deficiente mantenimiento de máquinas
¿Cómo reducir las causas de variación en los procesos?

Empleando herramientas amigables y sencillas como:
  • Grupos de mejoramiento o grupos focales, rondas Delphi.
  • Diagramas de causa y efecto, modelos de regresión, modelos de dispersión.
  • Gráficos o cartas de control de procesos.


En general, en el control estadístico de procesos se utilizan los gráficos de control o cartas de control, las cuales actúan como semáforos que alertan sobre problemas (también llamadas  desviaciones) en los procesos.

En siguientes entradas de este blog se explicaran los usos de dichas herramientas.

______________________________________________________________

Definitions

Quality: Degree by which the product or service meets the needs or expectations of the customer. Degree of compliance of the product or service with respect to the specifications.

Control: It is a planned cycle of activities through which a desired goal, objective or quality is achieved.

Specification: Ordered information that describes all the characteristics of an ideal product.

Inspection: Program of activities that determine the degree to which a product or service meets the specifications.

Statistics: Mathematical tool that facilitates the collection, organization, analysis, interpretation and presentation of the results.

Population: collection of elements that have characteristics in common and on which it is desired to make some inference.

Sample frame: Set of elements of the population from which the sample is extracted.

Sample: Collection of selected elements of a sample frame. His analysis allows conclusions about the universe.

1. What causes the defective?

If the quality were identical and regular in the inputs of a process, as they are:

  • Materials
  • Machinery
  • Workforce
  • Work methods
  • Environment
  • Tools
  • Raw material
  • Physical facilities

The quality of the products or services we offer would be identical and regular, where the requirements would be met or not.

2. Process diagnosis

Of the innumerable causes found, not all affect the quality of the product or service in the same degree.

Any disturbance in these causes is known as variability or variation.

How is statistical process control applied and interpreted?

The customer is permanently sending signals through the supply chain, in order to demand products that satisfy it. The way in which the client expresses his needs to the supplier is often generic and subjective.

Example: I want an X product that is Good, Beautiful and Cheap.

Example: A customer tells a supplier to manufacture an axle, to be resistant and to withstand high temperatures. What should the provider do? Convert the customer's signal or expectation into Quality features

Functional: Must have a diameter and length
Physical: Tenacity, friction resistance
Material: Steel

Classification of quality characteristics

Variables: they are quality characteristics that can be measured with instruments. Example: dimensions, weight, volume.

Attributes: they are only appreciable through the senses and in general they are not measurable, so patterns are used. Example: color, texture, brightness

Principle of process variability

The processes are permanently affected by different causes that generate problems. The causes can be:

1. Random or non-assignable

They are the product of the randomness of nature, they affect the processes equally and permanently and come from:

Characteristics of raw materials
Environmental conditions (humidity, temperature)
Operators experience.

2. Special or assignable

They are the ones that cause products outside the specification and are not always present (they appear and disappear), in general "they can be identified as the culprits."

Examples:

Change of raw material supplier
Change of work method
RPM or machine speed
Staff turnover (lack of experience)
Poor machine maintenance