Al permitir restricciones de desigualdad, el enfoque KKT para la programación no lineal generaliza el método de multiplicadores de Lagrange , que solo permite restricciones de igualdad. De manera similar al enfoque de Lagrange, el problema de maximización (minimización) restringida se reescribe como una función de Lagrange cuyo punto óptimo es un máximo o mínimo global sobre el dominio de las variables de elección y un mínimo (máximo) global sobre los multiplicadores. El teorema de Karush-Kuhn-Tucker a veces se conoce como el teorema del punto de silla. [1]
Las condiciones KKT recibieron originalmente su nombre en honor a Harold W. Kuhn y Albert W. Tucker , quienes publicaron las condiciones por primera vez en 1951. [2] Estudiosos posteriores descubrieron que las condiciones necesarias para este problema habían sido enunciadas por William Karush en su tesis de maestría en 1939. [3] [4]
Problema de optimización no lineal
Consideremos el siguiente problema de optimización no lineal en forma estándar :
minimizar
sujeto a
donde es la variable de optimización elegida de un subconjunto convexo de , es la función objetivo o de utilidad , son las funciones de restricción de desigualdad y son las funciones de restricción de igualdad . Los números de desigualdades e igualdades se denotan por y respectivamente. Correspondiente al problema de optimización restringida se puede formar la función lagrangiana
dónde
El teorema de Karush-Kuhn-Tucker establece lo siguiente:
Teorema — (suficiencia) Si es un punto de silla de en , , entonces es un vector óptimo para el problema de optimización anterior.
(necesidad) Supóngase que y , , son convexos en y que existe tal que (es decir, se cumple la condición de Slater ). Entonces, con un vector óptimo para el problema de optimización anterior, hay asociado un vector que satisface tal que es un punto de silla de . [5]
El sistema de ecuaciones e inecuaciones correspondiente a las condiciones KKT no suele resolverse directamente, excepto en los pocos casos especiales en los que se puede derivar analíticamente una solución en forma cerrada . En general, muchos algoritmos de optimización pueden interpretarse como métodos para resolver numéricamente el sistema de ecuaciones e inecuaciones KKT. [7]
Condiciones necesarias
Supóngase que la función objetivo y las funciones de restricción y tienen subderivadas en un punto . Si es un óptimo local y el problema de optimización satisface algunas condiciones de regularidad (ver más abajo), entonces existen constantes y , llamadas multiplicadores KKT, tales que se cumplen los siguientes cuatro grupos de condiciones: [8]
Estacionariedad
Para minimizar :
Para maximizar :
Viabilidad primaria
Doble viabilidad
Holgura complementaria
La última condición a veces se escribe en la forma equivalente:
En el caso particular , es decir, cuando no hay restricciones de desigualdad, las condiciones KKT se convierten en condiciones de Lagrange y los multiplicadores KKT se denominan multiplicadores de Lagrange .
Prueba
Teorema — (suficiencia) Si existe una solución al problema primal, una solución al problema dual, tales que juntas satisfacen las condiciones KKT, entonces el par de problemas tiene dualidad fuerte y es un par de soluciones a los problemas primal y dual.
(necesidad) Si el par de problemas tiene una dualidad fuerte, entonces, para cualquier solución al problema primal y cualquier solución al problema dual, el par debe satisfacer las condiciones KKT. [9]
Prueba
En primer lugar, que se satisfagan las condiciones KKT es equivalente a que sean un equilibrio de Nash .
Fijar y variar : el equilibrio es equivalente a la estacionariedad primaria.
Fijar y variar : el equilibrio es equivalente a la viabilidad primaria y a la holgura complementaria.
Suficiencia: el par de soluciones satisface las condiciones KKT, por lo tanto es un equilibrio de Nash y, por lo tanto, cierra la brecha de dualidad.
Necesidad: cualquier par de soluciones debe cerrar la brecha de dualidad, por lo tanto deben constituir un equilibrio de Nash (ya que ninguno de los lados podría hacerlo mejor), por lo que satisfacen las condiciones KKT.
Interpretación: Las condiciones KKT como fuerzas restrictivas de equilibrio en el espacio de estados
El problema primal puede interpretarse como mover una partícula en el espacio de y someterla a tres tipos de campos de fuerza:
es un campo potencial que la partícula está minimizando. La fuerza generada por es .
son superficies de restricción unilaterales. Se permite que la partícula se mueva dentro de , pero siempre que toca , es empujada hacia adentro.
Son superficies de restricción de dos lados. La partícula solo puede moverse sobre la superficie .
La estacionariedad primordial establece que la "fuerza" de está exactamente equilibrada por una suma lineal de fuerzas y .
La viabilidad dual establece además que todas las fuerzas deben ser unilaterales, apuntando hacia adentro del conjunto factible para .
La holgura complementaria establece que si , entonces la fuerza que proviene de debe ser cero, es decir , dado que la partícula no está en el límite, la fuerza de restricción unilateral no puede activarse.
Representación matricial
Las condiciones necesarias se pueden escribir con matrices jacobianas de las funciones de restricción. Sea θ y θ definidas como . Sea θ y θ . Entonces las condiciones necesarias se pueden escribir como:
Estacionariedad
Para maximizar :
Para minimizar :
Viabilidad primaria
Doble viabilidad
Holgura complementaria
Condiciones de regularidad (o calificaciones de restricción)
Se puede preguntar si un punto minimizador del problema de optimización original, restringido (suponiendo que exista uno) tiene que satisfacer las condiciones KKT anteriores. Esto es similar a preguntar bajo qué condiciones el minimizador de una función en un problema sin restricciones tiene que satisfacer la condición . Para el caso restringido, la situación es más complicada, y se pueden establecer una variedad de condiciones de "regularidad" (cada vez más complicadas) bajo las cuales un minimizador restringido también satisface las condiciones KKT. A continuación se presentan algunos ejemplos comunes de condiciones que garantizan esto, siendo el LICQ el más utilizado:
Restricción
Acrónimo
Declaración
Calificación de restricción de linealidad
LCQ
Si y son funciones afines , entonces no se necesita ninguna otra condición.
Calificación de restricción de independencia lineal
LICQ
Los gradientes de las restricciones de desigualdad activa y los gradientes de las restricciones de igualdad son linealmente independientes en .
Calificación de restricción de Mangasarian-Fromovitz
MFCQ
Los gradientes de las restricciones de igualdad son linealmente independientes en y existe un vector tal que para todas las restricciones de desigualdad activas y para todas las restricciones de igualdad. [10]
Para cada subconjunto de los gradientes de las restricciones de desigualdad activas y los gradientes de las restricciones de igualdad, el rango en las proximidades de es constante.
Calificación de restricción de dependencia lineal positiva constante
CPLD
Para cada subconjunto de gradientes de restricciones de desigualdad activas y gradientes de restricciones de igualdad, si el subconjunto de vectores es linealmente dependiente en con escalares no negativos asociados con las restricciones de desigualdad, entonces permanece linealmente dependiente en un entorno de .
Calificación de restricción de cuasicondición normal
QNCQ
Si los gradientes de las restricciones de desigualdad activas y los gradientes de las restricciones de igualdad son linealmente dependientes en con multiplicadores asociados para igualdades y para desigualdades, entonces no existe ninguna secuencia tal que y
Para un problema convexo (es decir, suponiendo minimización, son convexos y son afines), existe un punto tal que y
Las implicaciones estrictas se pueden demostrar
LICQ ⇒ MFCQ ⇒ CPLD ⇒ QNCQ
y
LICQ ⇒ CRCQ ⇒ CPLD ⇒ QNCQ
En la práctica, se prefieren calificaciones de restricciones más débiles porque se aplican a una selección más amplia de problemas.
Condiciones suficientes
En algunos casos, las condiciones necesarias también son suficientes para la optimalidad. En general, las condiciones necesarias no son suficientes para la optimalidad y se requiere información adicional, como las Condiciones Suficientes de Segundo Orden (SOSC). Para funciones suaves, las SOSC involucran las derivadas segundas, lo que explica su nombre.
Las condiciones necesarias son suficientes para la optimalidad si la función objetivo de un problema de maximización es una función cóncava diferenciable , las restricciones de desigualdad son funciones convexas diferenciables , las restricciones de igualdad son funciones afines y se cumple la condición de Slater . [11] De manera similar, si la función objetivo de un problema de minimización es una función convexa diferenciable , las condiciones necesarias también son suficientes para la optimalidad.
Martin demostró en 1985 que la clase más amplia de funciones en las que las condiciones KKT garantizan la optimalidad global son las denominadas funciones invex de tipo 1. [ 12 ] [13]
La solución encontrada en la sección anterior es un mínimo local restringido si para el Lagrangiano,
entonces,
donde es un vector que satisface lo siguiente,
donde solo se aplican las restricciones de desigualdad activas correspondientes a complementariedad estricta (es decir, donde ). La solución es un mínimo local restringido estricto en el caso de que la desigualdad también sea estricta.
Si , se debe utilizar la expansión de Taylor de tercer orden del lagrangiano para verificar si es un mínimo local. La minimización de es un buen contraejemplo, véase también la superficie de Peano .
Ciencias económicas
En economía matemática, el enfoque KKT se utiliza a menudo en modelos teóricos para obtener resultados cualitativos. Por ejemplo, [14] considere una empresa que maximiza sus ingresos por ventas sujeta a una restricción de beneficio mínimo. Si se considera que es la cantidad de producción producida (a elegir), los ingresos por ventas con una primera derivada positiva y con un valor cero con una producción cero, los costes de producción con una primera derivada positiva y con un valor no negativo con una producción cero, y el nivel mínimo aceptable positivo de beneficio , entonces el problema tiene sentido si la función de ingresos se estabiliza de modo que, en última instancia, es menos empinada que la función de costes. El problema expresado en la forma de minimización dada anteriormente es
Minimizar
sujeto a
y las condiciones del KKT son
Dado que violaría la restricción de ganancia mínima, tenemos y, por lo tanto, la tercera condición implica que la primera condición se cumple con igualdad. Resolviendo esa igualdad obtenemos
Debido a que se dio que y son estrictamente positivos, esta desigualdad junto con la condición de no negatividad en garantiza que es positiva y, por lo tanto, la empresa que maximiza los ingresos opera en un nivel de producción en el que el ingreso marginal es menor que el costo marginal , un resultado que es de interés porque contrasta con el comportamiento de una empresa que maximiza las ganancias , que opera en un nivel en el que son iguales.
Función de valor
Si reconsideramos el problema de optimización como un problema de maximización con restricciones de desigualdad constantes:
La función de valor se define como
Entonces el dominio de es
Dada esta definición, cada coeficiente es la tasa a la que la función de valor aumenta a medida que aumenta . Por lo tanto, si cada uno se interpreta como una restricción de recursos, los coeficientes indican cuánto aumentará el valor óptimo de nuestra función al aumentar un recurso . Esta interpretación es especialmente importante en economía y se utiliza, por ejemplo, en problemas de maximización de la utilidad .
Generalizaciones
Con un multiplicador adicional , que puede ser cero (siempre que ), frente a las condiciones de estacionariedad KKT se convierten en
que se denominan condiciones de Fritz John . Estas condiciones de optimalidad se cumplen sin restricciones y son equivalentes a la condición de optimalidad KKT o (no-MFCQ) .
Las condiciones KKT pertenecen a una clase más amplia de condiciones necesarias de primer orden (FONC), que permiten funciones no suaves utilizando subderivadas .
^ Tabak, Daniel; Kuo, Benjamin C. (1971). Control óptimo mediante programación matemática . Englewood Cliffs, Nueva Jersey: Prentice-Hall. pp. 19-20. ISBN0-13-638106-5.
^ Kuhn, HW ; Tucker, AW (1951). "Programación no lineal". Actas del 2º Simposio de Berkeley . Berkeley: University of California Press. págs. 481–492. MR 0047303.
^ W. Karush (1939). Mínimos de funciones de varias variables con desigualdades como restricciones laterales (tesis de maestría). Departamento de Matemáticas, Universidad de Chicago, Chicago, Illinois.
^ Kjeldsen, Tinne Hoff (2000). "Un análisis histórico contextualizado del teorema de Kuhn-Tucker en programación no lineal: el impacto de la Segunda Guerra Mundial". Historia Math . 27 (4): 331–361. doi : 10.1006/hmat.2000.2289 . MR 1800317.
^ Walsh, GR (1975). "Propiedad del punto de silla de la función lagrangiana". Métodos de optimización . Nueva York: John Wiley & Sons. págs. 39–44. ISBN0-471-91922-5.
^ Kemp, Murray C.; Kimura, Yoshio (1978). Introducción a la economía matemática. Nueva York: Springer. pp. 38–44. ISBN0-387-90304-6.
^ Geoff Gordon y Ryan Tibshirani. "Condiciones de Karush-Kuhn-Tucker, optimización 10-725 / 36-725" (PDF) . Archivado desde el original (PDF) el 17 de junio de 2022.
^ Martin, DH (1985). "La esencia de la invexidad". J. Optim. Theory Appl . 47 (1): 65–76. doi :10.1007/BF00941316. S2CID 122906371.
^ Hanson, MA (1999). "Invexidad y el teorema de Kuhn-Tucker". J. Math. Anal. Appl . 236 (2): 594–604. doi : 10.1006/jmaa.1999.6484 .
^ Chiang, Alpha C. Métodos fundamentales de economía matemática , 3.ª edición, 1984, págs. 750–752.
Lectura adicional
Andreani, R.; Martínez, JM; Schuverdt, ML (2005). "Sobre la relación entre la condición de dependencia lineal positiva constante y la calificación de restricción de cuasinormalidad". Journal of Optimization Theory and Applications . 125 (2): 473–485. doi :10.1007/s10957-004-1861-9. S2CID 122212394.
Avriel, Mordecai (2003). Programación no lineal: análisis y métodos . Dover. ISBN0-486-43227-0.
Boltyanski, V.; Martini, H.; Soltan, V. (1998). "El teorema de Kuhn-Tucker". Métodos geométricos y problemas de optimización . Nueva York: Springer. págs. 78–92. ISBN0-7923-5454-0.
Boyd, S.; Vandenberghe, L. (2004). "Condiciones de optimalidad" (PDF) . Optimización convexa . Cambridge University Press. págs. 241–249. ISBN0-521-83378-7.
Kemp, Murray C.; Kimura, Yoshio (1978). Introducción a la economía matemática. Nueva York: Springer. pp. 38–73. ISBN0-387-90304-6.
Rau, Nicholas (1981). "Multiplicadores de Lagrange". Matrices y programación matemática . Londres: Macmillan. pp. 156–174. ISBN.0-333-27768-6.
Sundaram, Rangarajan K. (1996). "Restricciones de desigualdad y el teorema de Kuhn y Tucker". Un primer curso de teoría de optimización . Nueva York: Cambridge University Press. págs. 145–171. ISBN0-521-49770-1.
Enlaces externos
Condiciones de Karush-Kuhn-Tucker con derivación y ejemplos