Parte de una serie de artículos sobre |
Cálculo |
---|
En cálculo , la regla de la cadena es una fórmula que expresa la derivada de la composición de dos funciones diferenciables f y g en términos de las derivadas de f y g . Más precisamente, si es la función tal que para cada x , entonces la regla de la cadena es, en la notación de Lagrange , o, equivalentemente,
La regla de la cadena también puede expresarse en la notación de Leibniz . Si una variable z depende de la variable y , que a su vez depende de la variable x (es decir, y y z son variables dependientes ), entonces z depende también de x , a través de la variable intermedia y . En este caso, la regla de la cadena se expresa como y para indicar en qué puntos deben evaluarse las derivadas.
En integración , la contraparte de la regla de la cadena es la regla de sustitución .
Intuitivamente, la regla de la cadena establece que conocer la tasa instantánea de cambio de z con respecto a y y la de y con respecto a x permite calcular la tasa instantánea de cambio de z con respecto a x como el producto de las dos tasas de cambio.
Como lo expresó George F. Simmons : "Si un automóvil viaja dos veces más rápido que una bicicleta y la bicicleta es cuatro veces más rápida que un hombre que camina, entonces el automóvil viaja 2 × 4 = 8 veces más rápido que el hombre". [1]
La relación entre este ejemplo y la regla de la cadena es la siguiente. Sean z , y y x las posiciones (variables) del automóvil, la bicicleta y el hombre que camina, respectivamente. La tasa de cambio de las posiciones relativas del automóvil y la bicicleta es De manera similar, Por lo tanto, la tasa de cambio de las posiciones relativas del automóvil y el hombre que camina es
La tasa de cambio de posiciones es la relación de las velocidades, y la velocidad es la derivada de la posición con respecto al tiempo; es decir, o, equivalentemente, que también es una aplicación de la regla de la cadena.
La regla de la cadena parece haber sido utilizada por primera vez por Gottfried Wilhelm Leibniz . La utilizó para calcular la derivada de como la compuesta de la función raíz cuadrada y la función . La mencionó por primera vez en una memoria de 1676 (con un error de signo en el cálculo). [2] La notación común de la regla de la cadena se debe a Leibniz. [3] Guillaume de l'Hôpital utilizó la regla de la cadena implícitamente en su Analyse des infiniment petits . La regla de la cadena no aparece en ninguno de los libros de análisis de Leonhard Euler , a pesar de que fueron escritos más de cien años después del descubrimiento de Leibniz. [ cita requerida ] . Se cree que la primera versión "moderna" de la regla de la cadena aparece en Théorie des fonctions analytiques de Lagrange de 1797 ; también aparece en el Résumé des Leçons données a L'École Royale Polytechnique sur Le Calcul Infinitesimal de Cauchy de 1823 . [3]
La forma más simple de la regla de la cadena es para funciones de valor real de una variable real . Establece que si g es una función que es diferenciable en un punto c (es decir, la derivada g ′( c ) existe) y f es una función que es diferenciable en g ( c ) , entonces la función compuesta es diferenciable en c , y la derivada es [4] La regla a veces se abrevia como
Si y = f ( u ) y u = g ( x ) , entonces esta forma abreviada se escribe en notación de Leibniz como:
Los puntos en los que se evalúan las derivadas también pueden indicarse explícitamente:
Llevando el mismo razonamiento más allá, dadas n funciones con la función compuesta , si cada función es diferenciable en su entrada inmediata, entonces la función compuesta también es diferenciable por la aplicación repetida de la regla de la cadena, donde la derivada es (en la notación de Leibniz):
La regla de la cadena se puede aplicar a las funciones compuestas de más de dos. Para obtener la derivada de una función compuesta de más de dos funciones, observe que la función compuesta de f , g y h (en ese orden) es la función compuesta de f con g ∘ h . La regla de la cadena establece que para calcular la derivada de f ∘ g ∘ h , es suficiente calcular la derivada de f y la derivada de g ∘ h . La derivada de f se puede calcular directamente, y la derivada de g ∘ h se puede calcular aplicando nuevamente la regla de la cadena. [ cita requerida ]
Para ser más concretos, considere la función Esta puede descomponerse como la composición de tres funciones: De modo que .
Sus derivados son:
La regla de la cadena establece que la derivada de su compuesto en el punto x = a es:
En la notación de Leibniz , esto es: o para abreviar, La función derivada es por lo tanto:
Otra forma de calcular esta derivada es considerar la función compuesta f ∘ g ∘ h como la función compuesta de f ∘ g y h . Al aplicar la regla de la cadena de esta manera obtendríamos:
Esto es lo mismo que se calculó anteriormente. Esto era de esperarse porque ( f ∘ g ) ∘ h = f ∘ ( g ∘ h ) .
A veces, es necesario diferenciar una composición arbitrariamente larga de la forma . En este caso, defina dónde y cuándo . Entonces la regla de la cadena toma la forma o, en la notación de Lagrange,
La regla de la cadena se puede utilizar para derivar algunas reglas de diferenciación bien conocidas. Por ejemplo, la regla del cociente es una consecuencia de la regla de la cadena y de la regla del producto . Para comprobarlo, escriba la función f ( x )/ g ( x ) como el producto f ( x ) · 1/ g ( x ) . Aplique primero la regla del producto:
Para calcular la derivada de 1/ g ( x ) , observe que es la compuesta de g con la función recíproca, es decir, la función que envía x a 1/ x . La derivada de la función recíproca es . Al aplicar la regla de la cadena, la última expresión se convierte en: que es la fórmula habitual para la regla del cociente.
Supongamos que y = g ( x ) tiene una función inversa . Llamemos a su función inversa f de modo que tengamos x = f ( y ) . Existe una fórmula para la derivada de f en términos de la derivada de g . Para ver esto, observe que f y g satisfacen la fórmula
Y como las funciones y x son iguales, sus derivadas deben ser iguales. La derivada de x es la función constante con valor 1, y la derivada de está determinada por la regla de la cadena. Por lo tanto, tenemos que:
Para expresar f' como función de una variable independiente y , sustituimos x dondequiera que aparezca. Luego podemos hallar f ' .
Por ejemplo, considere la función g ( x ) = e x . Tiene una inversa f ( y ) = ln y . Como g ′( x ) = e x , la fórmula anterior dice que
Esta fórmula es verdadera siempre que g sea diferenciable y su inversa f también lo sea. Esta fórmula puede fallar cuando una de estas condiciones no es verdadera. Por ejemplo, considere g ( x ) = x 3 . Su inversa es f ( y ) = y 1/3 , que no es diferenciable en cero. Si intentamos usar la fórmula anterior para calcular la derivada de f en cero, entonces debemos evaluar 1/ g ′( f (0)) . Dado que f (0) = 0 y g ′(0) = 0 , debemos evaluar 1/0, que no está definido. Por lo tanto, la fórmula falla en este caso. Esto no es sorprendente porque f no es diferenciable en cero.
La regla de la cadena constituye la base del algoritmo de retropropagación , que se utiliza en el descenso de gradiente de redes neuronales en el aprendizaje profundo ( inteligencia artificial ). [5]
La fórmula de Faà di Bruno generaliza la regla de la cadena a derivadas superiores. Suponiendo que y = f ( u ) y u = g ( x ) , las primeras derivadas son:
Una prueba de la regla de la cadena comienza definiendo la derivada de la función compuesta f ∘ g , donde tomamos el límite del cociente de diferencias para f ∘ g cuando x tiende a a :
Supongamos por el momento que no es igual para ningún . Entonces la expresión anterior es igual al producto de dos factores:
Si oscila cerca de a , entonces podría suceder que sin importar cuán cerca uno esté de a , siempre haya una x aún más cercana tal que g ( x ) = g ( a ) . Por ejemplo, esto sucede cerca de a = 0 para la función continua g definida por g ( x ) = 0 para x = 0 y g ( x ) = x 2 sen(1/ x ) en caso contrario. Siempre que esto sucede, la expresión anterior no está definida porque implica una división por cero . Para solucionar esto, introduzca una función de la siguiente manera: Demostraremos que el cociente de diferencias para f ∘ g es siempre igual a:
Siempre que g ( x ) no sea igual a g ( a ) , esto es claro porque los factores de g ( x ) − g ( a ) se cancelan. Cuando g ( x ) es igual a g ( a ) , entonces el cociente de diferencias para f ∘ g es cero porque f ( g ( x )) es igual a f ( g ( a )) , y el producto anterior es cero porque es igual a f ′( g ( a )) por cero. Por lo tanto, el producto anterior siempre es igual al cociente de diferencias, y para mostrar que la derivada de f ∘ g en a existe y determinar su valor, solo necesitamos mostrar que el límite cuando x tiende a a del producto anterior existe y determinar su valor.
Para ello, recordemos que el límite de un producto existe si existen los límites de sus factores. Cuando esto sucede, el límite del producto de estos dos factores será igual al producto de los límites de los factores. Los dos factores son Q ( g ( x )) y ( g ( x ) − g ( a )) / ( x − a ) . Este último es el cociente de diferencias para g en a , y como g es diferenciable en a por suposición, su límite cuando x tiende a a existe y es igual a g ′( a ) .
En cuanto a Q ( g ( x )) , observe que Q se define dondequiera que sea f . Además, f es diferenciable en g ( a ) por suposición, por lo que Q es continua en g ( a ) , por definición de la derivada. La función g es continua en a porque es diferenciable en a , y por lo tanto Q ∘ g es continua en a . Por lo tanto, su límite cuando x tiende a a existe y es igual a Q ( g ( a )) , que es f ′( g ( a )) .
Esto demuestra que los límites de ambos factores existen y que son iguales a f ′( g ( a )) y g ′( a ) , respectivamente. Por lo tanto, la derivada de f ∘ g en a existe y es igual a f ′( g ( a )) g ′( a ) .
Otra forma de demostrar la regla de la cadena es medir el error en la aproximación lineal determinada por la derivada. Esta demostración tiene la ventaja de que se generaliza a varias variables. Se basa en la siguiente definición equivalente de diferenciabilidad en un punto: Una función g es diferenciable en a si existe un número real g ′( a ) y una función ε ( h ) que tiende a cero cuando h tiende a cero, y además Aquí el lado izquierdo representa la verdadera diferencia entre el valor de g en a y en a + h , mientras que el lado derecho representa la aproximación determinada por la derivada más un término de error.
En la situación de la regla de la cadena, existe una función de este tipo ε porque se supone que g es diferenciable en a . Nuevamente, por suposición, también existe una función similar para f en g ( a ). Llamando a esta función η , tenemos La definición anterior no impone restricciones a η (0), aunque se supone que η ( k ) tiende a cero cuando k tiende a cero. Si establecemos η (0) = 0 , entonces η es continua en 0.
Para demostrar el teorema es necesario estudiar la diferencia f ( g ( a + h )) − f ( g ( a )) cuando h tiende a cero. El primer paso es sustituir g ( a + h ) utilizando la definición de diferenciabilidad de g en a : El siguiente paso es utilizar la definición de diferenciabilidad de f en g ( a ). Esto requiere un término de la forma f ( g ( a ) + k ) para algún k . En la ecuación anterior, la k correcta varía con h . Sea k h = g ′( a ) h + ε ( h ) h y el lado derecho se convierte en f ( g ( a ) + k h ) − f ( g ( a )) . Aplicando la definición de la derivada se obtiene: Para estudiar el comportamiento de esta expresión cuando h tiende a cero, desarrolle k h . Después de reagrupar los términos, el lado derecho se convierte en: Debido a que ε ( h ) y η ( k h ) tienden a cero cuando h tiende a cero, los primeros dos términos entre corchetes tienden a cero cuando h tiende a cero. Aplicando el mismo teorema sobre productos de límites que en la primera prueba, el tercer término entre corchetes también tiende a cero. Debido a que la expresión anterior es igual a la diferencia f ( g ( a + h )) − f ( g ( a )) , por la definición de la derivada f ∘ g es diferenciable en a y su derivada es f ′( g ( a )) g ′( a ).
El papel de Q en la primera demostración lo desempeña η en esta demostración. Están relacionados por la ecuación: La necesidad de definir Q en g ( a ) es análoga a la necesidad de definir η en cero.
La definición alternativa de Constantin Carathéodory de la diferenciabilidad de una función se puede utilizar para dar una prueba elegante de la regla de la cadena. [6]
Según esta definición, una función f es diferenciable en un punto a si y solo si existe una función q , continua en a y tal que f ( x ) − f ( a ) = q ( x )( x − a ) . Existe como máximo una de esas funciones, y si f es diferenciable en a entonces f ′( a ) = q ( a ) .
Dados los supuestos de la regla de la cadena y el hecho de que las funciones diferenciables y las composiciones de funciones continuas son continuas, tenemos que existen funciones q , continua en g ( a ) , y r , continua en a , y tales que, y Por lo tanto, pero la función dada por h ( x ) = q ( g ( x )) r ( x ) es continua en a , y obtenemos, para esto a Un enfoque similar funciona para funciones (vectoriales) continuamente diferenciables de muchas variables. Este método de factorización también permite un enfoque unificado para formas más fuertes de diferenciabilidad, cuando se requiere que la derivada sea Lipschitz continua , Hölder continua , etc. La diferenciación en sí misma puede verse como el teorema del resto polinomial (el pequeño teorema de Bézout , o teorema del factor), generalizado a una clase apropiada de funciones. [ cita requerida ]
Si y entonces eligiendo infinitesimal calculamos el correspondiente y luego el correspondiente , de modo que y aplicando la parte estándar obtenemos que es la regla de la cadena.
La generalización completa de la regla de la cadena a funciones de múltiples variables (como ) es bastante técnica. Sin embargo, es más simple escribirla en el caso de funciones de la forma donde , y para cada
Como este caso ocurre a menudo en el estudio de funciones de una sola variable, vale la pena describirlo por separado.
Sea , y para cada Para escribir la regla de la cadena para la composición de funciones se necesitan las derivadas parciales de f con respecto a sus k argumentos. Las notaciones usuales para derivadas parciales involucran nombres para los argumentos de la función. Como estos argumentos no son nombrados en la fórmula anterior, es más simple y claro usar D -Notación , y denotar por la derivada parcial de f con respecto a su i ésimo argumento, y por el valor de esta derivada en z .
Con esta notación, la regla de la cadena es
Si la función f es suma, es decir, si entonces y . Por lo tanto, la regla de la cadena da
Para la multiplicación los parciales son y . Por lo tanto,
El caso de la exponenciación es ligeramente más complicado, ya que y, como se deduce que
La forma más sencilla de escribir la regla de la cadena en el caso general es utilizar la derivada total , que es una transformación lineal que captura todas las derivadas direccionales en una única fórmula. Considérense las funciones diferenciables f : R m → R k y g : R n → R m , y un punto a en R n . Sea D a g la derivada total de g en a y D g ( a ) f la derivada total de f en g ( a ) . Estas dos derivadas son transformaciones lineales R n → R m y R m → R k , respectivamente, por lo que pueden ser compuestas. La regla de la cadena para las derivadas totales es que su compuesto es la derivada total de f ∘ g en a : o para abreviar, La regla de la cadena de dimensiones superiores se puede demostrar utilizando una técnica similar a la segunda prueba dada anteriormente. [7]
Como la derivada total es una transformación lineal, las funciones que aparecen en la fórmula se pueden reescribir como matrices. La matriz correspondiente a una derivada total se denomina matriz jacobiana y la matriz compuesta de dos derivadas corresponde al producto de sus matrices jacobianas. Desde esta perspectiva, la regla de la cadena dice: o, para abreviar,
Es decir, el jacobiano de una función compuesta es el producto de los jacobianos de las funciones compuestas (evaluadas en los puntos apropiados).
La regla de la cadena de dimensiones superiores es una generalización de la regla de la cadena unidimensional. Si k , m y n son 1, de modo que f : R → R y g : R → R , entonces las matrices jacobianas de f y g son 1 × 1 . Específicamente, son: El jacobiano de f ∘ g es el producto de estas matrices 1 × 1 , por lo que es f ′( g ( a ))⋅ g ′( a ) , como se esperaba de la regla de la cadena unidimensional. En el lenguaje de las transformaciones lineales, D a ( g ) es la función que escala un vector por un factor de g ′( a ) y D g ( a ) ( f ) es la función que escala un vector por un factor de f ′( g ( a )) . La regla de la cadena dice que la composición de estas dos transformaciones lineales es la transformación lineal D a ( f ∘ g ) , y por lo tanto es la función que escala un vector por f ′( g ( a ))⋅ g ′( a ) .
Otra forma de escribir la regla de la cadena se utiliza cuando f y g se expresan en términos de sus componentes como y = f ( u ) = ( f 1 ( u ), …, f k ( u )) y u = g ( x ) = ( g 1 ( x ), …, g m ( x )) . En este caso, la regla anterior para matrices jacobianas se escribe generalmente como:
La regla de la cadena para derivadas totales implica una regla de la cadena para derivadas parciales. Recordemos que cuando existe la derivada total, la derivada parcial en la dirección de coordenadas i -ésima se encuentra multiplicando la matriz jacobiana por el vector base i -ésimo. Al hacer esto con la fórmula anterior, encontramos: Dado que las entradas de la matriz jacobiana son derivadas parciales, podemos simplificar la fórmula anterior para obtener: De manera más conceptual, esta regla expresa el hecho de que un cambio en la dirección x i puede cambiar todo g 1 a g m , y cualquiera de estos cambios puede afectar a f .
En el caso especial en el que k = 1 , de modo que f es una función de valor real, entonces esta fórmula se simplifica aún más: Esto se puede reescribir como un producto escalar . Recordando que u = ( g 1 , …, g m ) , la derivada parcial ∂ u / ∂ x i también es un vector, y la regla de la cadena dice que:
Dado u ( x , y ) = x 2 + 2 y donde x ( r , t ) = r sin ( t ) e y ( r , t ) = sin 2 ( t ) , determine el valor de ∂ u / ∂ r y ∂ u / ∂ t usando la regla de la cadena. [ cita requerida ] y
La fórmula de Faà di Bruno para derivadas de orden superior de funciones de una variable se generaliza al caso de funciones multivariables. Si y = f ( u ) es una función de u = g ( x ) como se indicó anteriormente, entonces la segunda derivada de f ∘ g es:
Todas las extensiones del cálculo tienen una regla de la cadena. En la mayoría de ellas, la fórmula sigue siendo la misma, aunque el significado de esa fórmula puede ser muy diferente.
Una generalización es para variedades . En esta situación, la regla de la cadena representa el hecho de que la derivada de f ∘ g es la combinación de la derivada de f y la derivada de g . Este teorema es una consecuencia inmediata de la regla de la cadena de dimensiones superiores dada anteriormente, y tiene exactamente la misma fórmula.
La regla de la cadena también es válida para derivadas de Fréchet en espacios de Banach . Se cumple la misma fórmula que antes. [8] Este caso y el anterior admiten una generalización simultánea a variedades de Banach .
En álgebra diferencial , la derivada se interpreta como un morfismo de módulos de diferenciales de Kähler . Un homomorfismo de anillos conmutativos f : R → S determina un morfismo de diferenciales de Kähler Df : Ω R → Ω S que envía un elemento dr a d ( f ( r )) , la diferencial exterior de f ( r ) . La fórmula D ( f ∘ g ) = Df ∘ Dg se cumple también en este contexto.
La característica común de estos ejemplos es que son expresiones de la idea de que la derivada es parte de un funtor . Un funtor es una operación sobre espacios y funciones entre ellos. Asocia a cada espacio un nuevo espacio y a cada función entre dos espacios una nueva función entre los nuevos espacios correspondientes. En cada uno de los casos anteriores, el funtor envía cada espacio a su fibrado tangente y envía cada función a su derivada. Por ejemplo, en el caso de la variedad, la derivada envía una C r -variedad a una C r −1 -variedad (su fibrado tangente) y una C r -función a su derivada total. Hay un requisito para que esto sea un funtor, a saber, que la derivada de un compuesto debe ser el compuesto de las derivadas. Esta es exactamente la fórmula D ( f ∘ g ) = Df ∘ Dg .
También existen reglas de la cadena en el cálculo estocástico . Una de ellas, el lema de Itō , expresa la composición de un proceso de Itō (o más generalmente una semimartingala ) dX t con una función dos veces diferenciable f . En el lema de Itō, la derivada de la función compuesta depende no solo de dX t y la derivada de f sino también de la segunda derivada de f . La dependencia de la segunda derivada es una consecuencia de la variación cuadrática no nula del proceso estocástico, lo que, en términos generales, significa que el proceso puede moverse hacia arriba y hacia abajo de una manera muy aproximada. Esta variante de la regla de la cadena no es un ejemplo de funtor porque las dos funciones que se componen son de tipos diferentes.