Idioma: Español
Fecha: Subida: 2020-05-04T00:00:00+02:00
Duración: 26m 28s
Lugar: OnLine - Online
Lugar: Curso
Visitas: 1.568 visitas

Tema 8 - Parte I

Introducción al análisis de regresión lineal simple

Descripción

En este video se hace una introducción, través de ejemplos, del modelo estadístico que se utiliza en el análisis de regresión lineal simple.

Transcripción (generada automáticamente)

Hola, alumnas y alumnos de la asignatura de Estadística del grado de Ciencias Ambientales. Empezamos con este vídeo la serie de vídeos correspondientes al último tema de la asignatura, en el que abordaremos el estudio de relaciones entre variantes en este estudio. Distinguir dos casos principalmente. Vamos a distinguir, primero el caso de relaciones entre variables cuantitativas y después veremos el caso de relaciones entre variables cualitativa cada día; por tanto, la mezcla entre las relaciones entre variables cualitativas y cuantitativas. Esto último, se puede hacer en dos direcciones. Por un lado, podremos ver cómo afecta a una variable cualitativa, a una cuantitativa, o al revés, podríamos ver cómo afectó una variable cuantitativa a una variable cualitativa. El primer caso en realidad ya lo hemos estudiado y se trataría de la de la nota. Del análisis de la danza que vimos en el tema anterior esto lo revisaremos más tarde. Veremos que efectivamente se trata de ver cómo afecta una variable cualitativa y cuantitativa y en el segundo caso el estudio de una de una relación entre una variable cuantitativa y una variable; cualitativa en lo que se conoce como regresión, logística por cuestiones de tiempo. Este tema este estudio de la redes logística no lo podemos abordar en este tema, pero ese día digamos el tópico correspondiente a ese tipo de relación, bien. Por tanto los apartados que vamos a ver demás lo siguiente. Haremos una breve introducción al tema que se corresponde con la sección uno de los apuntes y después en una segunda sección veremos lo que se llama análisis como análisis de regresión lineal que se corresponde con la lectura de relaciones entre variables cuantitativa. Esta sección la divide en tres secciones. Por un lado tendremos en la sección dos uno el estudio del modelo estadístico que moviliza esa relación entre variables cuantitativa y cómo se puede hacer inferencias sobre ese modelo, la sección de su posición de linealidad, normalidad independencia, inferencia y por otro lado tendremos a dos secciones adicionales, que son la verificación de las suposiciones iniciales del modelo de regresión lineal, que lo haremos a través de lo que se conoce como análisis de los residuos, y lo abordaremos en la sección y por último veremos cómo se utiliza este modelo para la estimación en prevención por un nuevo valor de que se corresponde con la sección El tema se cierra con la sección tercera, donde veremos con el contacto de independencia, cómo se analiza la relación entre dos variables cualitativas. Bien, en este vídeo lo que vamos a hacer va a ser presentada esa introducción breve a estudiar relaciones entre variable y comenzaremos con el estudio de relaciones entre variables cuantitativas a través de lo que se conoce como análisis de regresión lineal. En concreto lo que veremos es el modelo estadístico que se utiliza para describir la relación entre variable y cuantitativas bajo lo que se conoce. Como suposición de linealidad, normalidad e independencia en un segundo vídeo. Veremos cómo se hace inferencia para este modelo y en un tercer vídeo veremos cómo se verifican las posiciones iniciales y cómo se utiliza el modelo para predecir nuevos valores de modelo a partir de un nuevo valor de la variable. Bien, pues vamos a pasar a la introducción como he dicho en este tema iniciamos uno de los tópicos considerado uno de los más interesantes de la estadística, que es el estudio de relaciones entre variable y como he dicho anteriormente distingue la relación entre variables cuantitativa que comenzaremos a abordar con el análisis de reducción lineal simple, y la relación entre cualitativa, que abordaremos con lo que se conoce como le contrate; si cuadrado de independencia bien pues vamos a pasar al análisis de Regresión bien. Un problema usual en la estadística es el estudio de relaciones funcionales entre varias variables. El ajuste de esas relaciones funcionales. Con el propósito de predecir una variable, a partir de otras es lo que se conoce con el nombre de análisis de regresión, qué quiere decir esto? Del estudio de relaciones funcionales entre varias variables, bien fundamentalmente lo que se trata de intentar ajustar una función de tal forma que yo pueda obtener una variable vamos a llamarle y a partir de otra variable equis a través de esa función Efe, que me permite estudiar esa relación. Daros cuenta que si yo puedo establecer esta relación funcional entre y yo conociendo el valor de que puedo predecir el valor de ley, esto no es un problema nuevo, puesto que la asignatura de Física habéis visto mucho modelo matemático que describen relaciones entre variable. Lo que ocurre es que este es tu. Este planteamiento general donde yo quiero estudiar una relación entre una variable y que en nuestro caso será continua frente a una variable que será una variable numérica, puede ser discreta, puede ser continuo en esta forma, o sea intentar encontrar quiénes. Esa funciones es un problema muy complicado en general, por lo cual. Por lo cual, en este tema lo que vamos a hacer va a ser abordar un caso más sencillo, que es el caso en que la variable y se relaciona con la variable que a través de una relación lineal es decir, a través de una recta y ese estudio de relaciones lineales entre dos variable en lo que se conoce como análisis de regresión, línea simple bien, entonces, siendo más concreto la idea sería estudiar una relación entre la variable y la variable que tenga esta expresión, con lo cual lo único que nos queda por determinar son los valores de A y b. Una vez que yo tenga los valores de ahí deben puede obtener el valor de conociendo el valor de la equis. Básicamente lo que puedo hacer es predecir el valor de ahí conociendo el valor de la crisis. Este modelo es relativamente sencillo y en un principio podría parecer que no tenía mucho sentido estudiar este modelo, tan simple simple, la razón por la cual se intuye que hemos sido tan simples porque en muchas situaciones hay relaciones lineales entre variable, con lo cual tiene una gran organización y la segunda razón es que aunque hay modelos que no son lineales, se pueden hacer cambios de variable y convertirse esas relaciones a través del cambio variable en relación a la línea, con lo cual podemos aplicar todo lo que veamos en este tema y estudiar esas relaciones no lineales. Nosotros no vamos a abordar el tema de relaciones no lineales, pero simplemente saber que con cambio de variable el problema en algunos casos no lineales, se produce, se reduce a un problema de modelo lineales. Bien, pues entonces por para ir fijando anotación, se va a entender por análisis de regresión lineal simple. El estudio de una relación lineal que nos da el valor de una variable que llamaremos variable, dependiente en términos de una variable equis, que es lo que llamaremos variable independiente y claro, haremos estudio de esa relación. En el caso de que exista esa relación. En general para proceder al estudio de las relaciones entre dos variables, lo que se hace usualmente es obtener una serie de observaciones que no notaremos, porque subí y subí de esa variable bidimensional. La forma sencilla de abordar ese problema es muy, muy fácil. Sí existiese de verdad una relación lineal exacta entre ambas variable, ésta quedaría de manifiesto simplemente dibujando en el plano lo subí y sui, puesto que eso parece estaría aliñado sobre esa recta y, como sabe, para conocer el valor de una recta lo único que necesitó de dos puntos de esa recta recuerdo, con lo cual, si existiese esa relación en un principio exacta entre la y la equis, yo cojo los pares de puntos del plan y puedo sacar cual la red, como ya he visto en el tema; segundo de Estadística, descriptiva de mi variante con tres pares de puntos; el la gráfica que se construye pintando esos puntos en el plano, en lo que se conoce como diagrama de dispersión o nube de puntos. Así que dado una serie de puntos, si yo tengo una relación lineal exacta, entrando variable simplemente con el diagrama de expresión o nube de puntos, podría obtener cuál es la recta que hay y que describe la relación entre la variable y la variable, pues para ilustrar esto vamos a utilizar el siguiente. En este ejemplo se trata de un problema de tipo medioambiental en el cual hay una zona que recibe el vertido de aguas residuales de una empresa como saber las empresas como parte de su proceso. Utilizan agua para enfriar el parte del proceso industrial, que al final ese agua se suele verter en algún sitio, ocurre que en estos vertidos hay un alto contenido en lo que se quiere estudiar, qué relación hay entre la cantidad de plomo que lleva el agua residual que se vierte y la cantidad de plomo residual que queda después de un tiempo. En ese terreno, y para ello, pues lleva a cabo un experimento. Se cogen distintas áreas, se cogen en total 25 áreas y en las cuales se vierte agua con distintas concentraciones de plomo concentraciones de plomo que están fijadas de antemano y posteriormente se analiza la cantidad de plomo residual que cada una de ellas pasaba un cierto tiempo bien, los resultados que se obtuvieron en este experimento son los que aparecen aquí tenemos por pareja la cantidad de plomo residual que llevaba el agua y después, la cantidad de plomo residual que quedan en el terreno de un cierto tiempo. Aquí en estos cinco primeros pared de puntos. La cantidad de plomo en el agua, cero en estos cinco siguientes es 1, 25 en los siguientes cinco dos con cinco así con valores de cinco 10 días bien. Sin necesidad de hacer el diagrama de impresiona nueve puntos, en este ejemplo ya se va viendo que esa relación lineal exacta no puede existir. Por qué? Porque nos encontramos con que para mí los mismos valores de equis o tenemos distintos valores de ahí. Y, sin embargo, si la relación lineal fuera exacta para el mismo valor de o tendríamos siempre el mismo valor entonces aquí donde empieza a entrar en función la aleatoriedad, porque estamos viendo que, aunque yo fije el valor de que el valor de ahí se comporta de manera aleatoria y donde tenemos que hacer uso de la inferencia estadística para poder analizar este tipo de situaciones, bien si hacemos el diagrama de punto o le impresiona nueve puntos en este caso fijado, que la gráfica que tenemos en la que aparece aquí para un mismo valor de la ceoe, distintos colores de valor de igual a uno o creo que era una 25 cosa es distinto, y así sucesivamente para cada una de las situaciones. Luego ejemplo poner en evidencia que el estudio relaciones lineales exacta es complicado, en general no se suele dar, hay que hacer una variación en ese modelo que relaciona la y con la equipara para que pueda abarcar situaciones que son las que se dan en la práctica. La forma de obtener esta gráfica ya lo habéis visto ante quemado yo lo voy a recuperar aquí para hacer el análisis. Entonces vamos a tener nuestro lector de que nuestro vector de ahí fijará que es muy importante, que identifiquen quién es la variable. Por lo tanto, no independiente y quienes la variable y por qué la variable dependiente. Puesto que la idea al final el objetivo último que nosotros vamos a pretender con el análisis de regresión lineal simple es intentar saber cuánto vale la a partir de un valor de Laiki. Es cierto que ya sabemos de ejemplo que aún con la misma valor de que puedo obtener distintos, balones de todo, al final lo que pretendemos era dar un intervalo de posible palo desde cada vez que fije un valor. Pero esto es una cuestión que abordaremos más adelante al final de esta tanda. De momento simplemente tenemos dos vectores y con esta instrucción podemos generar el diagrama de inversión a nueve puntos que hemos considerado anteriormente, donde efectivamente se ve que no hay una relación lineal. Entonces, qué modelo podemos utilizar para intentar predecir los valores de la y, en función de qué? Bueno, pues para eso voy a hacer uso de un ejemplo ficticio, al que ve la idea que hay dentro del modelo alternativo que se propone. La idea que hay detrás de todo esto es que cuando yo fijó un valor de por ejemplo equis igual a cinco en realidad al valor que se obtiene a través de la recta en ese punto cinco es decir al valor a b por cinco se les sumó una cantidad que es aleatoria, que puede ser tanto positiva como negativa y que estropea la linealidad. Cuando yo tengo el valor a más de cinco a ese panorama de cinco se le suma una cantidad de la historia, y esa cantidad aleatoria que yo no puedo controlar puede ser positiva o negativa, con lo cual el punto se desplaza o por encima de la recta o por debajo de la red y por tanto se estropea la relación y vamos a ver esa idea con el ejemplo de ficticio que dicho vamos a considerar. Esta situación, en la cual yo tengo una serie de punto de acuerdo y va a considerar que yo tuviera una relación lineal exacta entre una variable que y una variable es decir, para cada valor de la equis a través de la recta y obtendría los correspondientes punto, la idea en la siguiente. La idea es que en vez de obtener en la práctica ese valor exacto sobre la recta lo que va ocurriendo en lo siguiente, y es que cada punto se eleva sumando o restando una cantidad que a veces es positiva y a veces negativa que les place el punto o por debajo compone encima de la recta, con lo cual la situación que yo observo excepto aquí y por lo tanto no se ve una relación lineal exacta entre la pareja. Volviendo a nuestro transparencia, resumiendo lo que hemos dicho hasta ahora, el primer punto es observar que los puntos no se hallan perfectamente alineadas con una recta aunque sí que presentan una tendencia aproximadamente lineal. Guardo como ejemplo no hay una relación lineal, exacta pero no puntos al estar alrededor de la recta presentar una cierta tendencia línea. La siguiente cuestión es que esa falta de linealidad se produce por la presencia de errores de medición, factores experimentales, etc, etc. Que son aleatorio y que producen, que la relación lineal no sea exacta, luego aquí entra la aleatoriedad y por lo tanto hemos de proponer otro modelo que no sea la relación lineal exacta que describa mejor esta situación. Entonces la idea es proponer un modelo para esa variable, esos valores observados de ley, de acuerdo que describa mejor que lo que estamos viendo en la práctica, y una vez que tengamos ese modelo propuesto lo que haremos será hacer inferencias sobre ese modelo, porque el modelo estará caracterizado por unos parámetros que en un principio son desconocidos y eso lo cuales nosotros pretendemos obtener información a partir de las parejas de padres de puntos equis, uvi y su entonces volviendo al ejemplo. La idea es que cuando yo tengo un valor de equis a ese valor de equis se le asocie un balón en la recta por ejemplo en igual a la sociedad muestra el valor por tres ya se valoraba Deportes, se les sumó una cantidad que por ejemplo en este caso es positiva. De carácter aleatorio que desplaza el punto o por encima o por debajo de la red. En concreto, y procediendo a formalizar esa idea, el modelo que se propone es el siguiente, y este modelo que se propone constituyen la suposición de linealidad normalidad e independencia de un problema de análisis de reversión lineal, si entonces las suposiciones que se hacen son la siguiente. Los valores son aleatorio, de acuerdo son observaciones de una variable velatorio que verifica la siguiente relación. Con los valores equis subí la variable y subí de la forma hamás ve, es decir una relación línea con la variable más un término que es el término aleatorio, que se suma y se recta según sea positivo o negativo. Entonces en esta relación entre la variable y la variable equis tienen primero que los valores de Ipswich son valores fijo. Recordar que el experimento fijamos valores de igual a 0, igual a un 25, dos con cinco creo que era cinco 10 de acuerdo. Entonces aquí hay unos valores que fija el experimentado Bale a esa relación lineal, se suma un término Epsilon. Subí y ese término Epsilon Subi que estropea la línea. La linealidad, lo que hacemos considerar, que es una maniobra dilatoria que tiene para empezar distribución normal. Además esos términos que se van sumando se generan de manera independiente, no hay ninguna relación entre los Epsilon su pie para un equipo y para otro distinto y además esa distribución normal que la media y danza constante sin más cuadra. Este conjunto de hipótesis es lo que se llama la hipótesis de normalidad, independencia emocional, actividad. Este domingo le he obviado el inicio del de la transparencia para no hacerlo mucho más largo, pero esta hipótesis de voces que hiciera, es decir que todos los valores de Epsilon tiene la misma es algo que ya apareció en el tema de Anova y por otro lado que la relación entre la isla y que esta relación lineal lo que se llama la hipótesis de lo que tenemos una relación lineal más un término Epsilon Subi, que es un término aleatorio, con distribución normal de medio hacer y constante. Sin en realidad esta hipótesis se puede reescribir de manera mucho más sencilla, de acuerdo antes de proceder a la reescritura más sencilla y resumiendo lo que hemos dicho anteriormente. Lo que entendemos que es la variable y se compone como una relación lineal a través de los episodios y un factor que hace que la relación lineal no sea exacta, y eso terminó que hacen y que estropean esa relación lineal exacta en lo que se conoce como residuo o error. Posteriormente recuperaremos el residuo en una sección posterior. Entonces, como decía, toda estas suposiciones que aparecen aquí se puede reescribir de manera más sencilla, como parece, y es que en realidad lo anterior es equivalente a decir que la variable, y sui son su emocionante variable y su mayor cola, que tienen distribución normal, que son independientes y que verifican que la esperanza de la variable, de la forma de subir y la danza de Sui que cuadrado. Vamos a ver gráficamente esta idea. Entonces, para ver gráficamente esa idea, la cuestión más en la siguiente, y es que para cada valor de equis yo observo una población de valores y que sigue una distribución norma, es decir, que es igual a 1. Por ejemplo, yo tengo asociada una distribución norma como variable y ahora lo que hago es observar uno o varios valores. Como ejemplo de esa variable, con distribución anual, por ejemplo, en este caso este es el balón que observó para igualados observó ahora la ley, y lo que ocurre es que la variable y tiene una distribución normal observó un valor de esa variable normal. Lo mismo ocurre para que es igual a tres equis, igual a cuando yo quise a 5. Ya la característica que tienen estas variables normales es que la media de la variable se corresponde con el valor; por ejemplo, se correspondería con ama de por allí; se correspondería con Hamás de por dos a más de 3, cuatro 5. La apariencia, como observan en estos 5, caso, son iguales y, por otro lado, tenemos que las observaciones que aparecen aquí son independientes. No tiene ninguna relación. La observación en este caso con la observación en este caso y para cualquier posible pareja y conjunto de observaciones que queréis. Considera entonces la idea fundamental que tiene que quedar gravemente esta relación de la variable y respecto de la variable ha fijado que la variable que está fijada por el experimentado y lo que es aleatorio es el valor y que yo observo a partir de esa variable y lo que decimos en este modelo de linealidad y independencia y linealidad, es que la variable y tiene esta forma tiene distribución normal. La media va variando de una recta en relación con la equis y la apariencia son costa. Qué es lo que ocurre ahora? En nuestro caso lo que ocurre ahora es que nosotros no sabemos cómo se comportan esas variables normales ni tampoco sabemos quiénes la recta y lo que pretendemos es recuperar toda la información de esta estructura que describe el conjunto de datos a partir de este conjunto de observación y eso es lo que pretendemos desarrollar en la parte diferencia. Por lo tanto y volviendo a la transparencia. Fijamos que en este modelo no se hace ninguna suposición sobre la naturaleza aleatoria de los datos que soy y se consideran valores que están fijados previamente por el investigador. Es cierto que en algunos estudios el valor de la variable se genera de manera aleatoria, pero lo importante es que ese valor se genere previamente a la observación del valor de la variable, por ejemplo, y recuperando el primer estudio de análisis de regresión realizado en la historia por el científico, hizo un estudio donde analizó la relación entre la altura de los hijos con la altura de los padres. Consideró como variable aleatoria dependiente, altura del hijo y como variable independiente. La altura del padre lo que pretendía era predecir la altura de un hijo, a partir de la altura del padre, cogió una serie de familia de acuerdo donde anotó la altura del padre, y después pudo apuntar cuáles eran las alturas de los hijos. Evidentemente, en esa lección de familia aleatoria él no podía fijar cuál era la altura del padre, pero desde el punto de vista del experimento el valor de la altura del padre estaba prefijado, antes de observarse la altura de los hijos. En el tiempo, el valor de la Ekhi precede al valor de ley. Luego en esa situación es donde podamos considerar una un estudio de ese tipo donde la variable que precede al valor de ley podremos aplicar este modelo; consideraremos que el valor de aquí está fijado antes del de la variable, y y la idea es simplemente cómo podemos obtener información del parámetro del parámetro b e implícitamente también de Sigma Cuadra, fijaron que esos son los cuatro elementos que determinan los cuatro elementos que determinan el los tres elementos que determinan el en nuestro. Nuestro estudio vale. Lo que ocurre es que eso parámetros no nos conocemos, lo que queremos hacer es recuperarlo. Bien. Eso es lo que abordaremos en el siguiente vídeo, que sea el vídeo correspondiente a la influencia en el modelo de regresión lineal. Si un saludo cerramos aquí y continuamos en el siguiente vídeo.

Intervienen

Felix Luis Belzunce Torregrosa

Propietarios

Felix Luis Belzunce Torregrosa

Comentarios

Nuevo comentario

Serie: Estadística (Grado CC. Ambientales) (+información)

Asignatura (1797)

Canal

Tema 7 - Parte II

Verificación de las suposiciones iniciales del ANOVA y comparaciones múltiples de medias