Función convexa

Función convexa en un intervalo .
Función real con línea secante entre puntos por encima del gráfico mismo
Una función (en negro) es convexa si y solo si la región encima de su gráfico (en verde) es un conjunto convexo .
Una gráfica de la función convexa bivariada x 2 + xy + y 2 .
Convexo vs. No convexo

En matemáticas , una función de valor real se denomina convexa si el segmento de línea entre dos puntos distintos en el gráfico de la función se encuentra por encima o sobre el gráfico entre los dos puntos. De manera equivalente, una función es convexa si su epígrafe (el conjunto de puntos sobre o por encima del gráfico de la función) es un conjunto convexo . En términos simples, el gráfico de una función convexa tiene forma de taza (o de línea recta como una función lineal), mientras que el gráfico de una función cóncava tiene forma de tapa . {\displaystyle \taza} {\displaystyle \cap}

Una función dos veces diferenciable de una sola variable es convexa si y solo si su segunda derivada es no negativa en todo su dominio . [1] Ejemplos conocidos de funciones convexas de una sola variable incluyen una función lineal (donde es un número real ), una función cuadrática ( como un número real no negativo) y una función exponencial ( como un número real no negativo). F ( incógnita ) = do incógnita {\displaystyle f(x)=cx} do {\estilo de visualización c} do incógnita 2 Estilo de visualización cx^{2}} do {\estilo de visualización c} do mi incógnita {\displaystyle ce^{x}} do {\estilo de visualización c}

Las funciones convexas desempeñan un papel importante en muchas áreas de las matemáticas. Son especialmente importantes en el estudio de problemas de optimización donde se distinguen por una serie de propiedades convenientes. Por ejemplo, una función estrictamente convexa en un conjunto abierto no tiene más de un mínimo . Incluso en espacios de dimensión infinita, bajo hipótesis adicionales adecuadas, las funciones convexas continúan satisfaciendo tales propiedades y, como resultado, son las funcionales mejor entendidas en el cálculo de variaciones . En la teoría de la probabilidad , una función convexa aplicada al valor esperado de una variable aleatoria siempre está acotada por encima del valor esperado de la función convexa de la variable aleatoria. Este resultado, conocido como desigualdad de Jensen , se puede utilizar para deducir desigualdades como la desigualdad de la media aritmético-geométrica y la desigualdad de Hölder .

Definición

Visualización de una función convexa y la desigualdad de Jensen

Sea un subconjunto convexo de un espacio vectorial real y sea una función. incógnita {\estilo de visualización X} F : incógnita R {\displaystyle f:X\to \mathbb {R}}

Entonces se llama convexo si y sólo si se cumple alguna de las siguientes condiciones equivalentes: F {\estilo de visualización f}

  1. Para todos y todas : El lado derecho representa la línea recta entre y en el gráfico de como una función de aumentar de a o decrecer de a barre esta línea. De manera similar, el argumento de la función en el lado izquierdo representa la línea recta entre y en o el eje - del gráfico de Por lo tanto, esta condición requiere que la línea recta entre cualquier par de puntos en la curva de esté por encima o justo se encuentre con el gráfico. [2] 0 a 1 {\displaystyle 0\leq t\leq 1} incógnita 1 , incógnita 2 incógnita {\displaystyle x_{1},x_{2}\en X} F ( a incógnita 1 + ( 1 a ) incógnita 2 ) a F ( incógnita 1 ) + ( 1 a ) F ( incógnita 2 ) {\displaystyle f(tx_{1}+(1-t)x_{2}\right)\leq tf\left(x_{1}\right)+(1-t)f\left(x_{2}\right)} ( incógnita 1 , F ( incógnita 1 ) ) {\displaystyle \left(x_{1},f\left(x_{1}\right)\right)} ( incógnita 2 , F ( incógnita 2 ) ) {\displaystyle \left(x_{2},f\left(x_{2}\right)\right)} F {\estilo de visualización f} a ; {\estilo de visualización t;} a {\estilo de visualización t} 0 {\estilo de visualización 0} 1 {\estilo de visualización 1} a {\estilo de visualización t} 1 {\estilo de visualización 1} 0 {\estilo de visualización 0} F {\estilo de visualización f} incógnita 1 estilo de visualización x_{1}} incógnita 2 estilo de visualización x_{2}} incógnita {\estilo de visualización X} incógnita {\estilo de visualización x} F . {\estilo de visualización f.} F {\estilo de visualización f}
  2. Para todos y todas tales que : La diferencia de esta segunda condición con respecto a la primera condición anterior es que esta condición no incluye los puntos de intersección (por ejemplo, y ) entre la línea recta que pasa por un par de puntos en la curva de (la línea recta está representada por el lado derecho de esta condición) y la curva de la primera condición incluye los puntos de intersección como se convierte en o en o o De hecho, los puntos de intersección no necesitan ser considerados en una condición de convexo usando porque y siempre son verdaderos (por lo que no es útil ser parte de una condición). 0 < a < 1 {\estilo de visualización 0<t<1} incógnita 1 , incógnita 2 incógnita {\displaystyle x_{1},x_{2}\en X} incógnita 1 incógnita 2 Estilo de visualización x_{1}\neq x_{2}} F ( a incógnita 1 + ( 1 a ) incógnita 2 ) a F ( incógnita 1 ) + ( 1 a ) F ( incógnita 2 ) {\displaystyle f(tx_{1}+(1-t)x_{2}\right)\leq tf\left(x_{1}\right)+(1-t)f\left(x_{2}\right)} ( incógnita 1 , F ( incógnita 1 ) ) {\displaystyle \left(x_{1},f\left(x_{1}\right)\right)} ( incógnita 2 , F ( incógnita 2 ) ) {\displaystyle \left(x_{2},f\left(x_{2}\right)\right)} F {\estilo de visualización f} F ; {\estilo de visualización f;} F ( incógnita 1 ) F ( incógnita 1 ) {\displaystyle f\left(x_{1}\right)\leq f\left(x_{1}\right)} F ( incógnita 2 ) F ( incógnita 2 ) {\displaystyle f\left(x_{2}\right)\leq f\left(x_{2}\right)} a = 0 {\estilo de visualización t=0} 1 , {\estilo de visualización 1,} incógnita 1 = incógnita 2 . {\displaystyle x_{1}=x_{2}.} F ( a incógnita 1 + ( 1 a ) incógnita 2 ) a F ( incógnita 1 ) + ( 1 a ) F ( incógnita 2 ) {\displaystyle f(tx_{1}+(1-t)x_{2}\right)\leq tf\left(x_{1}\right)+(1-t)f\left(x_{2}\right)} F ( incógnita 1 ) F ( incógnita 1 ) {\displaystyle f\left(x_{1}\right)\leq f\left(x_{1}\right)} F ( incógnita 2 ) F ( incógnita 2 ) {\displaystyle f\left(x_{2}\right)\leq f\left(x_{2}\right)}

La segunda afirmación que caracteriza a las funciones convexas que se valoran en la recta real es también la afirmación que se utiliza para definir las funciones convexas que se valoran en la recta de números reales extendida , donde se permite que dicha función tome como valor. La primera afirmación no se utiliza porque permite tomar o como valor, en cuyo caso, si o respectivamente, entonces no estaría definido (porque las multiplicaciones y no están definidas). La suma tampoco está definida, por lo que una función convexa extendida de valor real normalmente solo puede tomar exactamente uno de y como valor. R {\displaystyle \mathbb {R}} [ , ] = R { ± } , {\displaystyle [-\infty ,\infty ]=\mathbb {R} \cup \{\pm \infty \},} F {\estilo de visualización f} ± {\displaystyle \pm \infty} a {\estilo de visualización t} 0 {\estilo de visualización 0} 1 {\estilo de visualización 1} F ( incógnita 1 ) = ± {\displaystyle f\left(x_{1}\right)=\pm \infty } F ( incógnita 2 ) = ± , {\displaystyle f\left(x_{2}\right)=\pm \infty ,} a F ( incógnita 1 ) + ( 1 a ) F ( incógnita 2 ) {\displaystyle tf(x_{1}\right)+(1-t)f(x_{2}\right)} 0 {\displaystyle 0\cdot \infty } 0 ( ) {\displaystyle 0\cdot (-\infty)} + {\displaystyle -\infty +\infty } {\estilo de visualización -\infty} + {\estilo de visualización +\infty}

La segunda afirmación también se puede modificar para obtener la definición de convexidad estricta , donde esta última se obtiene reemplazando con la desigualdad estricta. Explícitamente, el mapa se llama estrictamente convexo si y solo si para todos los reales y todos tales que : {\estilo de visualización \,\leq \,} < . {\estilo de visualización \,<.} F {\estilo de visualización f} 0 < a < 1 {\estilo de visualización 0<t<1} incógnita 1 , incógnita 2 incógnita {\displaystyle x_{1},x_{2}\en X} incógnita 1 incógnita 2 Estilo de visualización x_{1}\neq x_{2}} F ( a incógnita 1 + ( 1 a ) incógnita 2 ) < a F ( incógnita 1 ) + ( 1 a ) F ( incógnita 2 ) {\displaystyle f(tx_{1}+(1-t)x_{2}\right)<tf\left(x_{1}\right)+(1-t)f\left(x_{2}\right)}

Una función estrictamente convexa es una función en la que la línea recta entre cualquier par de puntos de la curva está por encima de la curva, excepto en los puntos de intersección entre la línea recta y la curva. Un ejemplo de una función que es convexa pero no estrictamente convexa es . Esta función no es estrictamente convexa porque dos puntos cualesquiera que compartan una coordenada x tendrán una línea recta entre ellos, mientras que dos puntos cualesquiera que NO compartan una coordenada x tendrán un valor mayor de la función que los puntos entre ellos. F {\estilo de visualización f} F {\estilo de visualización f} F {\estilo de visualización f} F ( incógnita , y ) = incógnita 2 + y {\displaystyle f(x,y)=x^{2}+y}

Se dice que la función es cóncava (resp. estrictamente cóncava ) si ( multiplicado por −1) es convexa (resp. estrictamente convexa). F {\estilo de visualización f} F {\estilo de visualización -f} F {\estilo de visualización f}

Nombre alternativo

El término convexo se suele denominar convexo hacia abajo o cóncavo hacia arriba , y el término cóncavo se suele denominar cóncavo hacia abajo o convexo hacia arriba . [3] [4] [5] Si el término "convexo" se utiliza sin la palabra clave "arriba" o "abajo", entonces se refiere estrictamente a un gráfico en forma de copa . Como ejemplo, la desigualdad de Jensen se refiere a una desigualdad que involucra una función convexa o convexa-(abajo). [6] {\displaystyle \taza}

Propiedades

Muchas propiedades de las funciones convexas tienen la misma formulación simple para funciones de muchas variables que para funciones de una variable. Vea a continuación las propiedades para el caso de muchas variables, ya que algunas de ellas no se enumeran para funciones de una variable.

Funciones de una variable

  • Supóngase que es una función de una variable real definida en un intervalo, y sea (nótese que es la pendiente de la línea violeta en el primer dibujo; la función es simétrica en significa que no cambia al intercambiar y ). es convexa si y solo si es monótonamente no decreciente en para cada fijo (o viceversa). Esta caracterización de la convexidad es bastante útil para demostrar los siguientes resultados. F {\estilo de visualización f} R ( incógnita 1 , incógnita 2 ) = F ( incógnita 2 ) F ( incógnita 1 ) incógnita 2 incógnita 1 {\displaystyle R(x_{1},x_{2})={\frac {f(x_{2})-f(x_{1})}{x_{2}-x_{1}}}} R ( incógnita 1 , incógnita 2 ) {\displaystyle R(x_{1},x_{2})} R {\estilo de visualización R} ( incógnita 1 , incógnita 2 ) , {\estilo de visualización (x_{1},x_{2}),} R {\estilo de visualización R} incógnita 1 estilo de visualización x_{1}} incógnita 2 estilo de visualización x_{2}} F {\estilo de visualización f} R ( incógnita 1 , incógnita 2 ) {\displaystyle R(x_{1},x_{2})} incógnita 1 , estilo de visualización x_{1},} incógnita 2 estilo de visualización x_{2}}
  • Una función convexa de una variable real definida en algún intervalo abierto es continua en admite derivadas izquierda y derecha , y estas son monótonamente no decrecientes . Además, la derivada izquierda es continua por la izquierda y la derivada derecha es continua por la derecha. En consecuencia, es diferenciable en todos los puntos, pero como máximo en una cantidad contable , el conjunto en el que no es diferenciable puede, sin embargo, seguir siendo denso. Si es cerrado, entonces puede no ser continuo en los puntos finales de (se muestra un ejemplo en la sección de ejemplos). F {\estilo de visualización f} do {\estilo de visualización C} do . {\estilo de visualización C.} F {\estilo de visualización f} F {\estilo de visualización f} F {\estilo de visualización f} do {\estilo de visualización C} F {\estilo de visualización f} do {\estilo de visualización C}
  • Una función diferenciable de una variable es convexa en un intervalo si y solo si su derivada es monótonamente no decreciente en ese intervalo. Si una función es diferenciable y convexa, entonces también es continuamente diferenciable .
  • Una función diferenciable de una variable es convexa en un intervalo si y sólo si su gráfica se encuentra por encima de todas sus tangentes : [7] : 69  para todos y en el intervalo. F ( incógnita ) F ( y ) + F " ( y ) ( incógnita y ) {\displaystyle f(x)\geq f(y)+f'(y)(xy)} incógnita {\estilo de visualización x} y {\estilo de visualización y}
  • Una función dos veces diferenciable de una variable es convexa en un intervalo si y solo si su segunda derivada no es negativa en ese intervalo; esto proporciona una prueba práctica de convexidad. Visualmente, una función convexa dos veces diferenciable "se curva hacia arriba", sin ninguna curvatura en el otro sentido ( puntos de inflexión ). Si su segunda derivada es positiva en todos los puntos, entonces la función es estrictamente convexa, pero no se cumple lo inverso . Por ejemplo, la segunda derivada de es , que es cero para pero es estrictamente convexa. F ( incógnita ) = incógnita 4 Estilo de visualización f(x)=x^{4}} F " ( incógnita ) = 12 incógnita 2 {\displaystyle f''(x)=12x^{2}} incógnita = 0 , {\displaystyle x=0,} incógnita 4 Estilo de visualización x^{4}}
    • Esta propiedad y la propiedad anterior en términos de "...su derivada es monótonamente no decreciente..." no son iguales ya que si no es negativo en un intervalo , entonces es monótonamente no decreciente en mientras que su recíproca no es verdadera, por ejemplo, es monótonamente no decreciente en mientras que su derivada no esté definida en algunos puntos en . F " {\estilo de visualización f''} incógnita {\estilo de visualización X} F " {\displaystyle f'} X {\displaystyle X} f {\displaystyle f'} X {\displaystyle X} f {\displaystyle f''} X {\displaystyle X}
  • Si es una función convexa de una variable real, y , entonces es superaditiva en los reales positivos , es decir para números reales positivos y . f {\displaystyle f} f ( 0 ) 0 {\displaystyle f(0)\leq 0} f {\displaystyle f} f ( a + b ) f ( a ) + f ( b ) {\displaystyle f(a+b)\geq f(a)+f(b)} a {\displaystyle a} b {\displaystyle b}
Prueba

Dado que es convexo, al usar una de las definiciones de función convexa anteriores y dejar que se deduzca que para todos los reales De , se deduce que Es decir, . f {\displaystyle f} x 2 = 0 , {\displaystyle x_{2}=0,} 0 t 1 , {\displaystyle 0\leq t\leq 1,} f ( t x 1 ) = f ( t x 1 + ( 1 t ) 0 ) t f ( x 1 ) + ( 1 t ) f ( 0 ) t f ( x 1 ) . {\displaystyle {\begin{aligned}f(tx_{1})&=f(tx_{1}+(1-t)\cdot 0)\\&\leq tf(x_{1})+(1-t)f(0)\\&\leq tf(x_{1}).\\\end{aligned}}} f ( t x 1 ) t f ( x 1 ) {\displaystyle f(tx_{1})\leq tf(x_{1})} f ( a ) + f ( b ) = f ( ( a + b ) a a + b ) + f ( ( a + b ) b a + b ) a a + b f ( a + b ) + b a + b f ( a + b ) = f ( a + b ) . {\displaystyle {\begin{aligned}f(a)+f(b)&=f\left((a+b){\frac {a}{a+b}}\right)+f\left((a+b){\frac {b}{a+b}}\right)\\&\leq {\frac {a}{a+b}}f(a+b)+{\frac {b}{a+b}}f(a+b)\\&=f(a+b).\\\end{aligned}}} f ( a ) + f ( b ) f ( a + b ) {\displaystyle f(a)+f(b)\leq f(a+b)}

  • Una función es convexa en el punto medio de un intervalo si para todos Esta condición es solo ligeramente más débil que la convexidad. Por ejemplo, una función medible de Lebesgue de valor real que es convexa en el punto medio es convexa: este es un teorema de Sierpiński . [8] En particular, una función continua que es convexa en el punto medio será convexa. f {\displaystyle f} C {\displaystyle C} x 1 , x 2 C {\displaystyle x_{1},x_{2}\in C} f ( x 1 + x 2 2 ) f ( x 1 ) + f ( x 2 ) 2 . {\displaystyle f\!\left({\frac {x_{1}+x_{2}}{2}}\right)\leq {\frac {f(x_{1})+f(x_{2})}{2}}.}

Funciones de varias variables

  • Una función que es marginalmente convexa en cada variable individual no es necesariamente (conjuntamente) convexa. Por ejemplo, la función es marginalmente lineal y, por lo tanto, marginalmente convexa en cada variable, pero no (conjuntamente) convexa. f ( x , y ) = x y {\displaystyle f(x,y)=xy}
  • Una función valorada en los números reales extendidos es convexa si y sólo si su epígrafe es un conjunto convexo. f : X [ , ] {\displaystyle f:X\to [-\infty ,\infty ]} [ , ] = R { ± } {\displaystyle [-\infty ,\infty ]=\mathbb {R} \cup \{\pm \infty \}} { ( x , r ) X × R   :   r f ( x ) } {\displaystyle \{(x,r)\in X\times \mathbb {R} ~:~r\geq f(x)\}}
  • Una función diferenciable definida en un dominio convexo es convexa si y sólo si se cumple para todos en el dominio. f {\displaystyle f} f ( x ) f ( y ) + f ( y ) T ( x y ) {\displaystyle f(x)\geq f(y)+\nabla f(y)^{T}\cdot (x-y)} x , y {\displaystyle x,y}
  • Una función dos veces diferenciable de varias variables es convexa en un conjunto convexo si y sólo si su matriz hessiana de segundas derivadas parciales es semidefinida positiva en el interior del conjunto convexo.
  • En el caso de una función convexa, los conjuntos de subniveles y son conjuntos convexos. Una función que satisface esta propiedad se denomina función cuasiconvexa y puede no ser una función convexa. f , {\displaystyle f,} { x : f ( x ) < a } {\displaystyle \{x:f(x)<a\}} { x : f ( x ) a } {\displaystyle \{x:f(x)\leq a\}} a R {\displaystyle a\in \mathbb {R} }
  • En consecuencia, el conjunto de minimizadores globales de una función convexa es un conjunto convexo: - convexo. f {\displaystyle f} argmin f {\displaystyle {\operatorname {argmin} }\,f}
  • Cualquier mínimo local de una función convexa es también un mínimo global . Una función estrictamente convexa tendrá como máximo un mínimo global. [9]
  • La desigualdad de Jensen se aplica a toda función convexa . Si es una variable aleatoria que toma valores en el dominio de entonces donde denota la esperanza matemática . De hecho, las funciones convexas son exactamente aquellas que satisfacen la hipótesis de la desigualdad de Jensen . f {\displaystyle f} X {\displaystyle X} f , {\displaystyle f,} E ( f ( X ) ) f ( E ( X ) ) , {\displaystyle \operatorname {E} (f(X))\geq f(\operatorname {E} (X)),} E {\displaystyle \operatorname {E} }
  • Una función homogénea de primer orden de dos variables positivas y (es decir, una función que satisface para todos los reales positivos ) que es convexa en una variable debe ser convexa en la otra variable. [10] x {\displaystyle x} y , {\displaystyle y,} f ( a x , a y ) = a f ( x , y ) {\displaystyle f(ax,ay)=af(x,y)} a , x , y > 0 {\displaystyle a,x,y>0}

Operaciones que preservan la convexidad

  • f {\displaystyle -f} es cóncava si y sólo si es convexa. f {\displaystyle f}
  • Si es cualquier número real, entonces es convexo si y sólo si es convexo. r {\displaystyle r} r + f {\displaystyle r+f} f {\displaystyle f}
  • Sumas ponderadas no negativas:
    • Si y son todas convexas, entonces también lo es. En particular, la suma de dos funciones convexas es convexa. w 1 , , w n 0 {\displaystyle w_{1},\ldots ,w_{n}\geq 0} f 1 , , f n {\displaystyle f_{1},\ldots ,f_{n}} w 1 f 1 + + w n f n . {\displaystyle w_{1}f_{1}+\cdots +w_{n}f_{n}.}
    • Esta propiedad se extiende también a sumas infinitas, integrales y valores esperados (siempre que existan).
  • Máximo por elemento: sea una colección de funciones convexas. Entonces es convexa. El dominio de es la colección de puntos donde la expresión es finita. Casos especiales importantes: { f i } i I {\displaystyle \{f_{i}\}_{i\in I}} g ( x ) = sup i I f i ( x ) {\displaystyle g(x)=\sup \nolimits _{i\in I}f_{i}(x)} g ( x ) {\displaystyle g(x)}
    • Si son funciones convexas entonces también lo es f 1 , , f n {\displaystyle f_{1},\ldots ,f_{n}} g ( x ) = max { f 1 ( x ) , , f n ( x ) } . {\displaystyle g(x)=\max \left\{f_{1}(x),\ldots ,f_{n}(x)\right\}.}
    • Teorema de Danskin : Si es convexo en entonces es convexo en incluso si no es un conjunto convexo. f ( x , y ) {\displaystyle f(x,y)} x {\displaystyle x} g ( x ) = sup y C f ( x , y ) {\displaystyle g(x)=\sup \nolimits _{y\in C}f(x,y)} x {\displaystyle x} C {\displaystyle C}
  • Composición:
    • Si y son funciones convexas y no es decreciente en un dominio univariante, entonces es convexa. Por ejemplo, si es convexa, entonces también lo es porque es convexa y monótonamente creciente. f {\displaystyle f} g {\displaystyle g} g {\displaystyle g} h ( x ) = g ( f ( x ) ) {\displaystyle h(x)=g(f(x))} f {\displaystyle f} e f ( x ) {\displaystyle e^{f(x)}} e x {\displaystyle e^{x}}
    • Si es cóncava y es convexa y no creciente en un dominio univariado, entonces es convexa. f {\displaystyle f} g {\displaystyle g} h ( x ) = g ( f ( x ) ) {\displaystyle h(x)=g(f(x))}
    • La convexidad es invariante bajo mapas afines: es decir, si es convexo con dominio , entonces también lo es , donde con dominio f {\displaystyle f} D f R m {\displaystyle D_{f}\subseteq \mathbf {R} ^{m}} g ( x ) = f ( A x + b ) {\displaystyle g(x)=f(Ax+b)} A R m × n , b R m {\displaystyle A\in \mathbf {R} ^{m\times n},b\in \mathbf {R} ^{m}} D g R n . {\displaystyle D_{g}\subseteq \mathbf {R} ^{n}.}
  • Minimización: Si es convexo en entonces es convexo en siempre que sea un conjunto convexo y que f ( x , y ) {\displaystyle f(x,y)} ( x , y ) {\displaystyle (x,y)} g ( x ) = inf y C f ( x , y ) {\displaystyle g(x)=\inf \nolimits _{y\in C}f(x,y)} x , {\displaystyle x,} C {\displaystyle C} g ( x ) . {\displaystyle g(x)\neq -\infty .}
  • Si es convexo, entonces su perspectiva con dominio es convexa. f {\displaystyle f} g ( x , t ) = t f ( x t ) {\displaystyle g(x,t)=tf\left({\tfrac {x}{t}}\right)} { ( x , t ) : x t Dom ( f ) , t > 0 } {\displaystyle \left\{(x,t):{\tfrac {x}{t}}\in \operatorname {Dom} (f),t>0\right\}}
  • Sea un espacio vectorial. es convexo y satisface si y solo si para cualquier número real no negativo que satisfaga X {\displaystyle X} f : X R {\displaystyle f:X\to \mathbf {R} } f ( 0 ) 0 {\displaystyle f(0)\leq 0} f ( a x + b y ) a f ( x ) + b f ( y ) {\displaystyle f(ax+by)\leq af(x)+bf(y)} x , y X {\displaystyle x,y\in X} a , b {\displaystyle a,b} a + b 1. {\displaystyle a+b\leq 1.}

Funciones fuertemente convexas

El concepto de convexidad fuerte extiende y parametriza la noción de convexidad estricta. Intuitivamente, una función fuertemente convexa es una función que crece tan rápido como una función cuadrática. [11] Una función fuertemente convexa también es estrictamente convexa, pero no al revés. Si una función unidimensional es dos veces continuamente diferenciable y el dominio es la línea real, entonces podemos caracterizarla de la siguiente manera: f {\displaystyle f}

  • f {\displaystyle f} convexo si y sólo si para todos f ( x ) 0 {\displaystyle f''(x)\geq 0} x . {\displaystyle x.}
  • f {\displaystyle f} estrictamente convexo si para todos (nota: esto es suficiente, pero no necesario). f ( x ) > 0 {\displaystyle f''(x)>0} x {\displaystyle x}
  • f {\displaystyle f} fuertemente convexo si y sólo si para todos f ( x ) m > 0 {\displaystyle f''(x)\geq m>0} x . {\displaystyle x.}

Por ejemplo, sea estrictamente convexa y supongamos que existe una secuencia de puntos tal que . Aunque , la función no es fuertemente convexa porque se volverá arbitrariamente pequeña. f {\displaystyle f} ( x n ) {\displaystyle (x_{n})} f ( x n ) = 1 n {\displaystyle f''(x_{n})={\tfrac {1}{n}}} f ( x n ) > 0 {\displaystyle f''(x_{n})>0} f ( x ) {\displaystyle f''(x)}

De manera más general, una función diferenciable se denomina fuertemente convexa con parámetro si se cumple la siguiente desigualdad para todos los puntos de su dominio: [12] o, de manera más general, donde es cualquier producto interno , y es la norma correspondiente . Algunos autores, como [13], se refieren a las funciones que satisfacen esta desigualdad como funciones elípticas . f {\displaystyle f} m > 0 {\displaystyle m>0} x , y {\displaystyle x,y} ( f ( x ) f ( y ) ) T ( x y ) m x y 2 2 {\displaystyle (\nabla f(x)-\nabla f(y))^{T}(x-y)\geq m\|x-y\|_{2}^{2}} f ( x ) f ( y ) , x y m x y 2 {\displaystyle \langle \nabla f(x)-\nabla f(y),x-y\rangle \geq m\|x-y\|^{2}} , {\displaystyle \langle \cdot ,\cdot \rangle } {\displaystyle \|\cdot \|}

Una condición equivalente es la siguiente: [14] f ( y ) f ( x ) + f ( x ) T ( y x ) + m 2 y x 2 2 {\displaystyle f(y)\geq f(x)+\nabla f(x)^{T}(y-x)+{\frac {m}{2}}\|y-x\|_{2}^{2}}

No es necesario que una función sea diferenciable para ser fuertemente convexa. Una tercera definición [14] para una función fuertemente convexa, con parámetro es que, para todos en el dominio y m , {\displaystyle m,} x , y {\displaystyle x,y} t [ 0 , 1 ] , {\displaystyle t\in [0,1],} f ( t x + ( 1 t ) y ) t f ( x ) + ( 1 t ) f ( y ) 1 2 m t ( 1 t ) x y 2 2 {\displaystyle f(tx+(1-t)y)\leq tf(x)+(1-t)f(y)-{\frac {1}{2}}mt(1-t)\|x-y\|_{2}^{2}}

Nótese que esta definición se aproxima a la definición de convexidad estricta como y es idéntica a la definición de una función convexa cuando A pesar de esto, existen funciones que son estrictamente convexas pero no son fuertemente convexas para ningún caso (ver el ejemplo a continuación). m 0 , {\displaystyle m\to 0,} m = 0. {\displaystyle m=0.} m > 0 {\displaystyle m>0}

Si la función es dos veces continuamente diferenciable, entonces es fuertemente convexa con parámetro si y solo si para todos en el dominio, donde es la identidad y es la matriz hessiana , y la desigualdad significa que es semidefinida positiva . Esto es equivalente a requerir que el valor propio mínimo de sea al menos para todos Si el dominio es solo la línea real, entonces es solo la segunda derivada por lo que la condición se convierte en . Si entonces esto significa que la hessiana es semidefinida positiva (o si el dominio es la línea real, significa que ), lo que implica que la función es convexa, y quizás estrictamente convexa, pero no fuertemente convexa. f {\displaystyle f} m {\displaystyle m} 2 f ( x ) m I {\displaystyle \nabla ^{2}f(x)\succeq mI} x {\displaystyle x} I {\displaystyle I} 2 f {\displaystyle \nabla ^{2}f} {\displaystyle \succeq } 2 f ( x ) m I {\displaystyle \nabla ^{2}f(x)-mI} 2 f ( x ) {\displaystyle \nabla ^{2}f(x)} m {\displaystyle m} x . {\displaystyle x.} 2 f ( x ) {\displaystyle \nabla ^{2}f(x)} f ( x ) , {\displaystyle f''(x),} f ( x ) m {\displaystyle f''(x)\geq m} m = 0 {\displaystyle m=0} f ( x ) 0 {\displaystyle f''(x)\geq 0}

Suponiendo aún que la función es dos veces continuamente diferenciable, se puede demostrar que el límite inferior de implica que es fuertemente convexa. Utilizando el teorema de Taylor existe tal que Entonces por el supuesto sobre los valores propios, y por lo tanto recuperamos la segunda ecuación de convexidad fuerte anterior. 2 f ( x ) {\displaystyle \nabla ^{2}f(x)} z { t x + ( 1 t ) y : t [ 0 , 1 ] } {\displaystyle z\in \{tx+(1-t)y:t\in [0,1]\}} f ( y ) = f ( x ) + f ( x ) T ( y x ) + 1 2 ( y x ) T 2 f ( z ) ( y x ) {\displaystyle f(y)=f(x)+\nabla f(x)^{T}(y-x)+{\frac {1}{2}}(y-x)^{T}\nabla ^{2}f(z)(y-x)} ( y x ) T 2 f ( z ) ( y x ) m ( y x ) T ( y x ) {\displaystyle (y-x)^{T}\nabla ^{2}f(z)(y-x)\geq m(y-x)^{T}(y-x)}

Una función es fuertemente convexa con parámetro m si y sólo si la función es convexa. f {\displaystyle f} x f ( x ) m 2 x 2 {\displaystyle x\mapsto f(x)-{\frac {m}{2}}\|x\|^{2}}

Una función dos veces continuamente diferenciable en un dominio compacto que satisface para todos es fuertemente convexa. La prueba de esta afirmación se desprende del teorema del valor extremo , que establece que una función continua en un conjunto compacto tiene un máximo y un mínimo. f {\displaystyle f} X {\displaystyle X} f ( x ) > 0 {\displaystyle f''(x)>0} x X {\displaystyle x\in X}

En general, es más fácil trabajar con funciones fuertemente convexas que con funciones convexas o estrictamente convexas, ya que son una clase más pequeña. Al igual que las funciones estrictamente convexas, las funciones fuertemente convexas tienen mínimos únicos en conjuntos compactos.

Propiedades de funciones fuertemente convexas

Si f es una función fuertemente convexa con parámetro m , entonces: [15] : Prop.6.1.4 

Funciones uniformemente convexas

Una función uniformemente convexa, [16] [17] con módulo , es una función que, para todos en el dominio y satisface donde es una función que no es negativa y se desvanece solo en 0. Esta es una generalización del concepto de función fuertemente convexa; al tomar recuperamos la definición de convexidad fuerte. ϕ {\displaystyle \phi } f {\displaystyle f} x , y {\displaystyle x,y} t [ 0 , 1 ] , {\displaystyle t\in [0,1],} f ( t x + ( 1 t ) y ) t f ( x ) + ( 1 t ) f ( y ) t ( 1 t ) ϕ ( x y ) {\displaystyle f(tx+(1-t)y)\leq tf(x)+(1-t)f(y)-t(1-t)\phi (\|x-y\|)} ϕ {\displaystyle \phi } ϕ ( α ) = m 2 α 2 {\displaystyle \phi (\alpha )={\tfrac {m}{2}}\alpha ^{2}}

Vale la pena señalar que algunos autores requieren que el módulo sea una función creciente, [17] pero esta condición no es requerida por todos los autores. [16] ϕ {\displaystyle \phi }

Ejemplos

Funciones de una variable

  • La función tiene , por lo que f es una función convexa. También es fuertemente convexa (y, por lo tanto, también estrictamente convexa), con una constante de convexidad fuerte de 2. f ( x ) = x 2 {\displaystyle f(x)=x^{2}} f ( x ) = 2 > 0 {\displaystyle f''(x)=2>0}
  • La función tiene , por lo que f es una función convexa. Es estrictamente convexa, aunque la segunda derivada no sea estrictamente positiva en todos los puntos. No es fuertemente convexa. f ( x ) = x 4 {\displaystyle f(x)=x^{4}} f ( x ) = 12 x 2 0 {\displaystyle f''(x)=12x^{2}\geq 0}
  • La función de valor absoluto es convexa (como se refleja en la desigualdad triangular ), aunque no tiene una derivada en el punto No es estrictamente convexa. f ( x ) = | x | {\displaystyle f(x)=|x|} x = 0. {\displaystyle x=0.}
  • La función para es convexa. f ( x ) = | x | p {\displaystyle f(x)=|x|^{p}} p 1 {\displaystyle p\geq 1}
  • La función exponencial es convexa. También es estrictamente convexa, ya que , pero no es fuertemente convexa ya que la segunda derivada puede ser arbitrariamente cercana a cero. En términos más generales, la función es logarítmicamente convexa si es una función convexa. En su lugar, a veces se utiliza el término "superconvexa". [18] f ( x ) = e x {\displaystyle f(x)=e^{x}} f ( x ) = e x > 0 {\displaystyle f''(x)=e^{x}>0} g ( x ) = e f ( x ) {\displaystyle g(x)=e^{f(x)}} f {\displaystyle f}
  • La función con dominio [0,1] definida por for es convexa; es continua en el intervalo abierto pero no continua en 0 y 1. f {\displaystyle f} f ( 0 ) = f ( 1 ) = 1 , f ( x ) = 0 {\displaystyle f(0)=f(1)=1,f(x)=0} 0 < x < 1 {\displaystyle 0<x<1} ( 0 , 1 ) , {\displaystyle (0,1),}
  • La función tiene segunda derivada ; por lo tanto, es convexa en el conjunto donde y cóncava en el conjunto donde x 3 {\displaystyle x^{3}} 6 x {\displaystyle 6x} x 0 {\displaystyle x\geq 0} x 0. {\displaystyle x\leq 0.}
  • Ejemplos de funciones que son monótonamente crecientes pero no convexas incluyen y . f ( x ) = x {\displaystyle f(x)={\sqrt {x}}} g ( x ) = log x {\displaystyle g(x)=\log x}
  • Ejemplos de funciones que son convexas pero no monótonamente crecientes incluyen y . h ( x ) = x 2 {\displaystyle h(x)=x^{2}} k ( x ) = x {\displaystyle k(x)=-x}
  • La función tiene que es mayor que 0 si es convexa en el intervalo . Es cóncava en el intervalo . f ( x ) = 1 x {\displaystyle f(x)={\tfrac {1}{x}}} f ( x ) = 2 x 3 {\displaystyle f''(x)={\tfrac {2}{x^{3}}}} x > 0 {\displaystyle x>0} f ( x ) {\displaystyle f(x)} ( 0 , ) {\displaystyle (0,\infty )} ( , 0 ) {\displaystyle (-\infty ,0)}
  • La función con , es convexa en el intervalo y convexa en el intervalo , pero no convexa en el intervalo , debido a la singularidad en f ( x ) = 1 x 2 {\displaystyle f(x)={\tfrac {1}{x^{2}}}} f ( 0 ) = {\displaystyle f(0)=\infty } ( 0 , ) {\displaystyle (0,\infty )} ( , 0 ) {\displaystyle (-\infty ,0)} ( , ) {\displaystyle (-\infty ,\infty )} x = 0. {\displaystyle x=0.}

Funciones denortevariables

Véase también

Notas

  1. ^ "Lecture Notes 2" (PDF) . www.stat.cmu.edu . Consultado el 3 de marzo de 2017 .
  2. ^ "Cóncava hacia arriba y hacia abajo". Archivado desde el original el 18 de diciembre de 2013.
  3. ^ Stewart, James (2015). Cálculo (8.ª ed.). Cengage Learning. págs. 223-224. ISBN 978-1305266643.
  4. ^ W. Hamming, Richard (2012). Métodos de matemáticas aplicados al cálculo, la probabilidad y la estadística (edición ilustrada). Courier Corporation. pág. 227. ISBN 978-0-486-13887-9.Extracto de la página 227
  5. ^ Uvarov, Vasiliĭ Borisovich (1988). Análisis matemático. Editorial Mir. Pág. 126-127. ISBN 978-5-03-000500-3.
  6. ^ Prügel-Bennett, Adam (2020). The Probability Companion for Engineering and Computer Science (edición ilustrada). Cambridge University Press. pág. 160. ISBN 978-1-108-48053-6.Extracto de la página 160
  7. ^ ab Boyd, Stephen P.; Vandenberghe, Lieven (2004). Optimización convexa (pdf) . Cambridge University Press. ISBN 978-0-521-83378-3. Recuperado el 15 de octubre de 2011 .
  8. ^ Donoghue, William F. (1969). Distribuciones y transformadas de Fourier. Academic Press. pág. 12. ISBN 9780122206504. Recuperado el 29 de agosto de 2012 .
  9. ^ "Si f es estrictamente convexa en un conjunto convexo, demuestre que no tiene más de 1 mínimo". Math StackExchange. 21 de marzo de 2013. Consultado el 14 de mayo de 2016 .
  10. ^ Altenberg, L., 2012. Los operadores lineales positivos resolutivos exhiben el fenómeno de reducción. Actas de la Academia Nacional de Ciencias, 109(10), pp.3705-3710.
  11. ^ "Fuerte convexidad · Blog de Xingyu Zhou". xingyuzhou.org . Consultado el 27 de septiembre de 2023 .
  12. ^ Dimitri Bertsekas (2003). Análisis y optimización convexos . Colaboradores: Angelia Nedic y Asuman E. Ozdaglar. Athena Scientific. p. 72. ISBN 9781886529458.
  13. ^ Philippe G. Ciarlet (1989). Introducción al álgebra lineal numérica y optimización . Cambridge University Press. ISBN 9780521339841.
  14. ^ de Yurii Nesterov (2004). Lecciones introductorias sobre optimización convexa: un curso básico . Kluwer Academic Publishers. págs. 63-64. ISBN 9781402075537.
  15. ^ Nemirovsky y Ben-Tal (2023). "Optimización III: Optimización convexa" (PDF) .
  16. ^ ab C. Zalinescu (2002). Análisis convexo en espacios vectoriales generales . World Scientific. ISBN 9812380671.
  17. ^ ab H. Bauschke y PL Combettes (2011). Análisis convexo y teoría de operadores monótonos en espacios de Hilbert . Springer. pág. 144. ISBN 978-1-4419-9467-7.
  18. ^ Kingman, JFC (1961). "Una propiedad de convexidad de matrices positivas". The Quarterly Journal of Mathematics . 12 : 283–284. doi :10.1093/qmath/12.1.283.
  19. ^ Cohen, JE, 1981. Convexidad del valor propio dominante de una matriz esencialmente no negativa. Actas de la American Mathematical Society, 81(4), pp.657-658.

Referencias

  • Bertsekas, Dimitri (2003). Análisis convexo y optimización . Athena Scientific.
  • Borwein, Jonathan y Lewis, Adrian (2000). Análisis convexo y optimización no lineal. Springer.
  • Donoghue, William F. (1969). Distribuciones y transformadas de Fourier . Prensa académica.
  • Hiriart-Urruty, Jean-Baptiste y Lemaréchal, Claude . (2004). Fundamentos del análisis convexo. Berlín: Springer.
  • Krasnosel'skii MA , Rutickii Ya.B. (1961). Funciones convexas y espacios de Orlicz . Groninga: P.Noordhoff Ltd.
  • Lauritzen, Niels (2013). Convexidad en estudiantes de grado . World Scientific Publishing.
  • Luenberger, David (1984). Programación lineal y no lineal . Addison-Wesley.
  • Luenberger, David (1969). Optimización por métodos de espacio vectorial . Wiley & Sons.
  • Rockafellar, RT (1970). Análisis convexo . Princeton: Princeton University Press.
  • Thomson, Brian (1994). Propiedades simétricas de funciones reales . CRC Press.
  • Zălinescu, C. (2002). Análisis convexo en espacios vectoriales generales . River Edge, NJ: World Scientific Publishing Co., Inc. pp. xx+367. ISBN 981-238-067-1.Señor 1921556  .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Convex_function&oldid=1244135098"