与一元函数不同,多元函数的自变量是 n 维向量 ,其凸函数定义需先明确凸集的概念(高维场景下的 “区间” 推广)。
设集合 ,若对任意两个向量 ,都有:
则称 D 为 上的凸集。
几何意义:凸集中任意两点的 “连线”(所有凸组合)仍在集合内,例如 中的圆盘、三角形是凸集,圆环、五角星不是凸集。
二、多元凸函数与严格凸函数的定义所有定义均基于 “定义域为凸集” 这一前提,核心是向量凸组合的函数值不等式。
1. 多元凸函数(Convex Function)设函数 ,其中 是凸集。若对任意 和任意 ,满足:
则称 f 为 D 上的凸函数。
2. 多元严格凸函数(Strictly Convex Function)设函数 ,其中 是凸集。若对任意 (,向量分量不完全相等)和任意 ,满足:
则称 f 为 D 上的严格凸函数。
三、多元凸函数的核心性质(含严格凸对比)多元凸函数的性质依赖梯度(一阶导数推广) 和Hessian 矩阵(二阶导数推广),需先明确这两个工具的定义:
梯度:,是 n 维列向量。Hessian 矩阵:,是 n x n 对称矩阵(若二阶偏导连续)。性质类别
多元凸函数(f 凸)
多元严格凸函数(f 严格凸)
1. 几何意义
函数图像上任意两点的割平面在图像及其上方
函数图像上任意两点的割平面严格在图像上方
2. 一阶条件
若 f 在开凸集 D 上可微,则
f 凸 对任意
有:
若 f 在开凸集 D 上可微,则
f 严格凸 对任意
,有:
(切线平面严格在函数下方)
3. 二阶条件
若 f 在开凸集 D 上二阶可微,则 f 凸 对任意, 是半正定矩阵(即对任意 ,
若 f 在开凸集 D 上二阶可微,则 是正定矩阵(对任意 , ,)是 f 严格凸的充分条件(非必要)
4. 极值性质
若 f 凸且 (驻点),则 是 f 的全局极小值点(可能不唯一)
若 f 严格凸且 ,则 是 f 的唯一全局极小值点
5. Jensen 不等式
对任意
和
(),有:
同上,但等号成立 当且仅当
四、关键性质的证明(以二阶条件为例)选取最核心的 “二阶条件(Hessian 半正定是凸函数的充要条件)” 证明,其他性质可基于此推导。
命题设是开凸集,且 f 二阶可微,
则:f 是凸函数 是半正定矩阵。
证明过程1. 必要性(:凸函数Hessian 半正定)思路:将多元问题 “一元化”—— 固定任意方向 ,利用一元凸函数的二阶导数非负推导。
任取 和任意非零向量 (若 d=0,半正定显然成立)。因 D 是开集,。构造一元函数 ,则 g(t) 是 上的凸函数(因 f 是凸函数,凸组合的函数值不等式对 g(t) 仍成立)。对 g(t) 求二阶导数:一阶导数:(链式法则,梯度与方向向量的内积);二阶导数:(再次求导,Hessian 矩阵的二次型)。由一元凸函数的充要条件,立。令 t = 0,得:因 是任意向量,故是半正定矩阵。2. 充分性(:Hessian 半正定凸函数)思路:利用多元函数的二阶泰勒展开,结合半正定矩阵的二次型非负,推导凸组合的不等式。
任取 ,因 D 是凸集,对任意 。对 和 在 处做二阶泰勒展开(余项为拉格朗日型):存在 (在 之间),使得:
同理,存在 (在 之间),使得:因 和 均为半正定矩阵,故泰勒展开中的二次项非负:,
因此:,将两式分别乘以 后相加:注意到 (因 ),故右边简化为 。最终得:即 f 是凸函数。
转载请注明来自海坡下载,本文标题:《凸可微优化(003多元凸函数及其性质)》
京公网安备11000000000001号
京ICP备11000001号
还没有评论,来说两句吧...