martes, 12 de enero de 2016

Econ 101: Análisis de regresión

Un repaso sobre el análisis de regresión
Amy Gallo - Harvard Business Review




Usted probablemente ya sabe que siempre que sea posible usted debe hacer decisiones basadas en datos en el trabajo. Pero ¿sabe usted cómo analizar todos los datos disponibles para usted? La buena noticia es que usted probablemente no tiene que hacer el cálculo de números por usted mismo (¡aleluya!) Pero sí es necesario para comprender e interpretar correctamente el análisis creado por sus colegas. Uno de los tipos más importantes de análisis de datos es de regresión.

Para entender mejor este método y cómo las empresas utilizan, hablé con Tom Redman, autor de Data Driven: Beneficiándose de su activo más importante de negocios. También asesora a las organizaciones en sus datos y programas de calidad de datos.

¿Qué es el análisis de regresión?

Redman ofrece este escenario de ejemplo: Supongamos que usted es un gerente de ventas de tratar de predecir los números del mes que viene. Ustedes saben que decenas, tal vez incluso cientos de factores desde el clima a la promoción de la competencia a los rumores de un modelo nuevo y mejorado pueden afectar el número. Tal vez la gente en su organización, incluso tienen una teoría sobre lo que va a tener el mayor efecto en las ventas. "Créeme. El más lluvia que tenemos, más nos venden. "" Seis semanas después de la promoción de la competencia, salto de ventas. "

El análisis de regresión es una forma de clasificar matemáticamente cuál de estas variables tiene de hecho un impacto. Responde a las preguntas: ¿Qué factores son más importantes? ¿Qué podemos ignorar? ¿Cómo interactúan los factores entre sí? Y, quizás lo más importante, cómo ciertas somos acerca de todos estos factores?

En el análisis de regresión, estos factores se denominan variables. Usted tiene su variable dependiente - el principal factor que usted está tratando de comprender o predecir. En el ejemplo de Redman anterior, la variable dependiente es ventas mensuales. Y entonces usted tiene sus variables independientes - los factores de sospecha tiene un impacto sobre la variable dependiente.


¿Como funciona?

Con el fin de llevar a cabo un análisis de regresión, que se reúnen los datos sobre las variables en cuestión. (Recordatorio: es probable que no tiene que hacerlo usted mismo, pero es útil para que usted entienda el proceso utiliza su colega analista de datos.) Usted toma todas sus cifras de ventas mensuales para, por ejemplo, los últimos tres años y todos los datos de las variables independientes que están interesados ​​en. Así que, en este caso, digamos que usted descubre la precipitación mensual promedio de los últimos tres años también. Luego se trazan toda esa información en un gráfico que tiene este aspecto:


El eje y es la cantidad de ventas (la variable dependiente, lo que le interesa, es siempre en el eje y) y el eje x es la precipitación total. Cada punto azul representa datos-how de un mes de mucho llovió ese mes y el número de ventas que hizo ese mismo mes.



Echando un vistazo a estos datos, es probable que note que las ventas son mayores en los días cuando llueve mucho. Eso es interesante saber, pero por cuánto? Si llueve 3 pulgadas, ¿sabe cuánto va a vender? ¿Qué pasa si llueve 4 pulgadas?

Ahora imagine trazar una línea a través de la tabla de arriba, uno que corre más o menos por la mitad de todos los puntos de datos. Esta línea le ayudará a responder, con cierto grado de certeza, la cantidad normalmente usted vende cuando llueve una cierta cantidad.





Esto se llama la línea de regresión y se dibuja (utilizando un programa estadístico como SPSS o STATA o Excel) para mostrar la línea que mejor se ajusta a los datos. En otras palabras, explica Redman, "La línea roja es la mejor explicación de la relación entre la variable independiente y la variable dependiente."

Además de trazar la línea, su programa de estadísticas también da salida a una fórmula que explica la pendiente de la línea y se ve algo como esto:


Ignorar el término de error, por ahora. Se refiere al hecho de que la regresión no es perfectamente preciso. Sólo se centran en el modelo:


Lo que esta fórmula le está diciendo es que si no hay una "x", entonces Y = 200. Por lo tanto, históricamente, cuando no llovió en absoluto, usted hizo un promedio de 200 ventas y usted puede esperar para hacer lo mismo en el futuro suponiendo que otras variables permanecen igual. Y en el pasado, por cada pulgada adicional de lluvia, que hizo un promedio de cinco ventas más. "Por cada incremento que x sube uno, y sube por cinco", dice Redman.

Ahora volvamos al término de error. Usted puede tener la tentación de decir que la lluvia tiene un gran impacto en las ventas si por cada pulgada usted consigue cinco más ventas, pero si esta variable es digno de su atención dependerá del término de error. Una línea de regresión siempre tiene un término de error, ya que, en la vida real, las variables independientes no son predictores perfectas de las variables dependientes. En lugar de la línea es una estimación basada en los datos disponibles. Así que el término de error le indica cómo seguro de que puede ser de la fórmula. Cuanto más grande es, menos seguro de que la línea de regresión.

El ejemplo anterior utiliza una única variable para predecir el factor de interés - en este caso de lluvia para predecir las ventas. Normalmente se inicia un análisis de regresión con ganas de entender el impacto de varias variables independientes. Así que se podría incluir no sólo la lluvia, sino también datos sobre la promoción de la competencia. "Sigue haciendo esto hasta que el término de error es muy pequeño", dice Redman. "Estás tratando de obtener la línea que mejor se adapte a tus datos." Si bien puede haber peligros de tratar de incluir demasiadas variables en un análisis de regresión, los analistas expertos pueden minimizar esos riesgos. Y teniendo en cuenta el impacto de varias variables a la vez es una de las mayores ventajas de regresión.

¿Cómo las empresas lo utilizan?

El análisis de regresión es el "go-to método en el análisis", dice Redman. Y las compañías inteligentes usan para tomar decisiones acerca de todo tipo de temas de negocios. "Como administradores, queremos averiguar cómo podemos impactar las ventas o retención de los empleados o la contratación de la mejor gente. Nos ayuda a averiguar qué podemos hacer ".

La mayoría de las empresas utilizan el análisis de regresión para explicar un fenómeno que quieren entender (por ejemplo, ¿por qué las llamadas de servicio al cliente caer el mes pasado?); predecir las cosas en el futuro (por ejemplo, lo que se verá como las ventas en los próximos seis meses?); o para decidir qué hacer (por ejemplo, debemos ir con esta promoción o uno diferente?).

Una nota sobre "correlación no es causalidad"

Cuando se trabaja con el análisis de regresión o cualquier otro análisis que trata de explicar el impacto de un factor sobre otro, es necesario recordar el adagio importante: La correlación no es causalidad. Esto es crítica y he aquí por qué: Es fácil decir que hay una correlación entre la lluvia y las ventas mensuales. La regresión muestra que efectivamente están relacionados. Pero es una cosa totalmente diferente que decir que la lluvia hizo que las ventas. A menos que usted está vendiendo paraguas, podría ser difícil probar que existe una causa y efecto.

A veces factores están correlacionados que son tan obviamente no conectado por causa y efecto, pero más a menudo en los negocios, que no es tan obvio. Cuando usted ve una correlación de un análisis de regresión, no se puede hacer suposiciones, dice Redman. En cambio, "Tienes que salir y ver lo que está sucediendo en el mundo real. ¿Cuál es el mecanismo físico que está causando la relación? "Salir un observar los consumidores la compra de su producto en la lluvia, hablar con ellos, y saber, lo que realmente está causando ellos para hacer la compra. "Mucha gente salte este paso y creo que es porque son perezosos. El objetivo no es averiguar lo que está pasando en los datos, sino que averiguar es lo que está pasando en el mundo. Tienes que salir y golpear el pavimento ", dice.

Redman escribió sobre su propio experimento y análisis para tratar de bajar de peso y la conexión entre su viaje y el aumento de peso. Se dio cuenta de que cuando viajó, comía más y ejerce menos. Así fue su aumento de peso causado por los viajes? No necesariamente. "Fue agradable para cuantificar lo que estaba pasando pero el viaje no es la causa. Puede estar relacionado ", dice, pero no es como si su ser en la carretera poner esas libras de más adelante. Tenía que entender más acerca de lo que estaba sucediendo durante sus viajes. "A menudo estoy en nuevos entornos así que tal vez me estoy comiendo más porque estoy nervioso?" Tenía que mirar más de cerca la correlación. Y este es su consejo para los administradores. Utilice los datos para guiar más experimentos, no hacer conclusiones acerca de causa y efecto.

¿Qué errores personas hacen cuando se trabaja con el análisis de regresión?

Como consumidor de análisis de regresión, hay varias cosas que hay que tener en cuenta.

En primer lugar, no le digas a tu analista de datos para salir y averiguar lo que está afectando a las ventas. "La forma en la mayoría de los análisis se descontrolan es el gerente no se ha reducido el foco en lo que él o ella está buscando", dice Redman. Es su trabajo para identificar los factores que usted sospecha que está teniendo un impacto y pregúntele a su analista que mirar esos. "Si le dices a un científico de datos para ir en una expedición de pesca, o para decirle algo que no sabes, entonces te mereces lo que te dan, que es malo análisis", dice. En otras palabras, no pedir a sus analistas a mirar todas las variables que posiblemente puede tener en sus manos a la vez. Si lo haces, es probable encontrar relaciones que en realidad no existen. Es el mismo principio que lanzar una moneda: lo hacen suficientes veces, que finalmente va a pensar que se ve algo interesante, como un montón de cabezas de todos en una fila.

También hay que tener en cuenta si está o no se puede hacer nada acerca de la variable independiente que está considerando. No se puede cambiar la cantidad de lluvia así que ¿cómo de importante es entender eso? "No podemos hacer nada sobre el tiempo o la promoción de nuestro competidor pero podemos afectar nuestras propias promociones o agregar características, por ejemplo", dice Redman. Siempre pregúntese qué va a hacer con los datos. ¿Qué medidas va a tomar? ¿Qué decisiones va a hacer?

En segundo lugar, "los análisis son muy sensibles a los malos datos" así que tenga cuidado acerca de los datos que recopila y cómo se recoge, y saber si se puede confiar en ella. "Todos los datos no tiene que ser correcta o perfecta", explica Redman pero tenga en cuenta lo que va a hacer con el análisis. Si las decisiones que va a hacer como resultado no tienen un enorme impacto en su negocio, entonces está bien si los datos son "tipo de fugas." Sin embargo, "si usted está tratando de decidir si se debe construir 8 o 10 de algo y cada uno cuesta $ 1 millón para construir, entonces es un asunto muy grande ", dice. La tabla a continuación explica cómo pensar sobre si se debe actuar sobre los datos.



Redman dice que algunos gerentes que son nuevos en el análisis de regresión comprensión cometen el error de ignorar el término de error. Esto es peligroso porque están haciendo la relación entre algo más seguro de lo que es. "A menudo los resultados escupir de un ordenador y gerentes piensan, 'Eso está muy bien, vamos a utilizar esta en el futuro.'" Pero recuerde que los resultados son siempre incierto. Como Redman señala: "Si la regresión explica el 90% de la relación, eso es genial. Pero si se explica el 10%, y actuar como si fuera del 90%, eso no es bueno. "El punto de análisis es cuantificar la certeza de que algo va a suceder. "No te está diciendo cómo la lluvia influirá en sus ventas, sino que le está diciendo la probabilidad de que la lluvia puede influir en sus ventas."

El último error que Redman advierte contra está dejando de datos sustituyen a su intuición.

"Siempre tienes que poner tu intuición en la parte superior de los datos", explica. Pregúntate a ti mismo si los resultados encajan con su comprensión de la situación. Y si ves algo que no tiene sentido preguntarse si los datos estaba en lo cierto o si de hecho existe un término de error grande. Redman sugiere usted mira a los gerentes con más experiencia o otros análisis si usted está recibiendo algo que no tiene sentido. Y, dice, no te olvides de mirar más allá de los números a lo que está sucediendo fuera de su oficina: "Hay que emparejar cualquier análisis con el estudio del mundo real. Los mejores científicos - y gerentes - miran tanto ".

No hay comentarios:

Publicar un comentario en la entrada