¿Cuál es la suma de cuadrados?
La suma de cuadrados es una técnica estadística utilizada en el análisis de regresión para determinar la dispersión de puntos de datos. En el análisis de regresión, el objetivo es determinar qué tan bien se puede ajustar un conjunto de datos a una función que pueda ayudar a explicar cómo se generó el conjunto de datos. La suma de los cuadrados se utiliza como una forma matemática de obtener la función de mejor ajuste (al menos variable) de los datos.
La fórmula para la suma es cuadrada
Para un juego X. Delaware norte artículos:La suma de los cuadrados=REyo=0norte(X.yo-X.‾)2dónde:X.yo=El es yoth artículo en el conjuntoX.‾=Promedio de cada elemento del conjunto(X.yo-X.‾)=Desviación de cada ítem de la media begin {align} & text {Para el conjunto} X text {de} n text {elementos:} \ & text {Suma de cuadrados} = sum_ {i = 0} ^ {n} ar izquierda (X_i- overline {X} right) ^ 2 \ & textbf {lugar:} \ & X_i = text {El} i ^ {th} text {elemento del conjunto} \ & overline { X} = text {Media de cada elemento del conjunto} \ & left (X_i- overline {X} right) = text {Desviación de cada elemento del promedio} \ end {alineado}
Para un juego X. Delaware norte artículos:La suma de los cuadrados=yo=0REnorte(X.yo–X.)2dónde:X.yo=El es yoth artículo en el conjuntoX.=Promedio de cada elemento del conjunto(X.yo–X.)=Desviación de cada ítem de la media
El tamaño de los cuadrados también varía.
¿Qué le dice el interés de los cuadrados?
La suma de los cuadrados es una medida de desviación de la media. En estadística, la media es la media de un conjunto de números y es la medida de sesgo central más utilizada. La media aritmética se calcula solo resumiendo y dividiendo los valores en el conjunto de datos por el número de valores.
Supongamos que los precios de cierre de Microsoft (MSFT) durante los últimos cinco días han sido 74,01, 74,77, 73,94, 73,61 y 73,40 en dólares estadounidenses. Los precios totales son $ 369.73, por lo que el precio promedio o promedio de un libro de texto sería $ 369.73 / 5 = $ 73,95.
Pero conocer el promedio de un conjunto de medidas no siempre es suficiente. A veces, valdría la pena averiguar cuánta variación hay en un conjunto de medidas. Una idea de la idoneidad de los valores individuales de la media puede reflejar el ajuste de las observaciones o valores para el modelo de regresión creado.
Por ejemplo, si un analista quisiera saber si el precio de las acciones de MSFT se mueve al mismo tiempo que el precio de Apple (AAPL), puede enumerar el conjunto de observaciones para el proceso de ambas acciones durante un período determinado, digamos 1, 2 o 10 años y Cree un modelo lineal con cada una de las observaciones o mediciones registradas. Si la relación entre las dos variables no es una línea recta (es decir, precio AAPL y precio MSFT), entonces hay variaciones en el conjunto de datos que deben examinarse.
Las estadísticas hablan, si la línea en el modelo lineal creado no pasa por todas las mediciones de valor, entonces parte de la variabilidad observada en los precios de las acciones no se explica. La suma de los cuadrados se usa para calcular si existe una relación lineal entre dos variables, y cualquier variabilidad inexplicada se llama suma residual de los cuadrados.
La suma de los cuadrados es la suma de los cuadrados de cambio, donde la varianza se define como el margen entre cada valor individual y la media. Para determinar la suma de los cuadrados, se eleva al cuadrado la distancia entre cada punto de datos y la línea más adecuada y luego se resume. La línea de mejor ajuste minimizará este valor.
Cómo calcular la suma de cuadrados
Ahora ves por qué la suma se llama la suma de las desviaciones de los cuadrados, o la suma de los cuadrados para abreviar. Usando nuestro ejemplo de MSFT anterior, la suma de los cuadrados se puede calcular como:
- SS = (74,01 – 73,95)2 + (74,77 – 73,95)2 + (73,94 – 73,95)2 + (73,61 – 73,95)2 + (73,40 – 73,95)2
- SS = (0.06) 2 + (0,82)2 + (-0,01)2 + (-0,34)2 + (-0,55)2
- SS = 1.0942
Si se suma la suma de las desviaciones sola sin aplastar, habrá un número igual o cercano a cero ya que las desviaciones negativas compensarán perfectamente las desviaciones positivas. Para obtener un número más realista, la suma de las desviaciones debe elevarse al cuadrado. La suma de los cuadrados siempre será un número positivo porque cualquier cuadrado numérico, ya sea positivo o negativo, siempre es positivo.
Ejemplo de cómo utilizar la suma de cuadrados
Según los resultados del cálculo de MSFT, la suma alta de cuadrados indica que la mayoría de los valores están más lejos de la media y, por lo tanto, existe una variabilidad considerable en los datos. La suma baja de cuadrados se refiere a una baja variabilidad en el conjunto de observaciones.
En el ejemplo anterior, 1.0942 muestra que la volatilidad del precio de las acciones de MSFT durante los últimos cinco días es muy baja y los inversores que quieran invertir en acciones caracterizadas por la estabilidad de precios y baja volatilidad de MSFT pueden elegir.
Conclusiones clave
- La suma de los cuadrados mide la desviación de los puntos de datos del valor medio.
- La suma de la suma de los cuadrados más altos indica un alto grado de variabilidad dentro del conjunto de datos, mientras que un rendimiento más bajo indica que hay poca diferencia entre los datos y el valor medio.
Límites de uso de la suma de cuadrados
Se requiere una observación mucho más amplia que las enumeradas aquí para tomar una decisión de inversión sobre las acciones que se comprarán. Es posible que los analistas deban trabajar durante años de datos para averiguar con mayor certeza qué tan alta o baja es la volatilidad de los activos. A medida que se agregan más puntos de datos al conjunto, la suma de los cuadrados aumenta a medida que los valores se extienden más.
Las medidas de cambio más utilizadas son la desviación estándar y la varianza. Sin embargo, para calcular cualquiera de las dos métricas, primero se debe calcular la suma de los cuadrados. La varianza promedio es la suma de los cuadrados (es decir, la suma de los cuadrados dividida por el número de vistas). La desviación estándar es la raíz cuadrada de la varianza.
Hay dos métodos de análisis de regresión que utilizan la suma de cuadrados: el método de los cuadrados lineales más pequeños y el método de los cuadrados no lineales más pequeños. El método de mínimos cuadrados se refiere al hecho de que la función de regresión minimiza la suma de cuadrados de la varianza de los puntos de datos reales. De esta forma, es posible dibujar una función que proporcione la situación que mejor se adapta estadísticamente a los datos. Tenga en cuenta que una función regresiva puede ser lineal (línea recta) o no lineal (línea curva).