L1:稀疏权重、解易落在轴上、特征选择(应用场景)、w=0w=0w=0不可导需次梯度
subgradient:∂f(x)={g∣f(y)≥f(x)+gT(y−x),∀ y∈dom f}\partial f(x)=\{g|f(y)\geq f(x) + g^T(y-x),\forall\ y\in \text{dom}\ f \}∂f(x)={g∣f(y)≥f(x)+gT(y−x),∀y∈domf}
$$
\begin{bmatrix}
g\
-1
\end{bmatrix}
\begin{pmatrix}
\begin{bmatrix}
y\
t
\end{bmatrix}\begin{bmatrix}
x\
f(x)
\end{bmatrix}
\end{pmatrix}
\leq 0, \forall (y,t)\in \text{epi}\ f
$$对于光滑的可导曲线,即为其切线
对于非光滑(不可导)的凸函数fff,在点xxx处的次梯度不再唯一,而是构成一个次微分的凸集合∂f(x)\partial f(x)∂f(x)。
每个g∈∂f(x)g \in \partial f(x)g∈∂f(x)都确定一个支撑超平面:
t=f(x)+gT(y−x)t = f(x) + g^{\mathsf T}(y - x)t=f(x)+gT(y−x)
该超平面过点(x,f(x))(x, f(x))(x,f(x)),且上镜图epi f\text{epi}\ fepif全部位于该超平面上方。这些支撑超平面构成一个支撑超平面族(平面束),它们的包络就是函数图像。∂f(x)\partial f(x)∂f(x)越大(越"宽"),说明该点越"不光滑"。
几何直观:在不可导点处,可以作出无穷多条不同斜率的支撑线,它们夹成一个"锥形"区域,函数图像在这个锥的"尖端"处发生转折。∂f(x)\partial f(x)∂f(x)恰是这些支撑超平面法向量的前nnn个分量(最后一个分量为−1-1−1保证朝下)的全体。
| 支撑超平面 | 分离超平面 | |
|---|---|---|
| 涉及集合 | 单个凸集 | 两个不相交凸集 |
| 接触性 | 必接触集合边界(至少一点) | 可以不接触任何一个集合 |
| 几何含义 | "托住"凸集,集合全在某一侧 | 将两个集合"隔开",各在一侧 |
| 唯一性 | 边界光滑点唯一,非光滑点不唯一 | 强分离唯一(一般若不唯一) |
| 关系 | 支撑超平面 = 分离"集合"与"集合外一点"的特殊分离超平面 | 一般分离超平面未必是支撑超平面 |
核心关系:过凸集边界点x0x_0x0的支撑超平面,等价于分离该凸集与单点集{x0}\{x_0\}{x0}的分离超平面;但分离两个一般凸集的超平面可能不与任一集合接触,因此不一定是支撑超平面。
支撑超平面 vs 分离超平面:示例说明
示例 1:是支撑超平面,也是分离超平面(特殊重合)
考虑凸集为单位圆盘:
C={(x,y)∣x2+y2≤1}C = \{(x,y) \mid x^2 + y^2 \leq 1\}C={(x,y)∣x2+y2≤1}
在边界点(1,0)(1,0)(1,0)处,直线x=1x = 1x=1满足:
- 支撑超平面:CCC全部落在x≤1x \leq 1x≤1半空间,且直线与CCC接触于点(1,0)(1,0)(1,0)
- 同时它也是分离CCC与外部单点{(1,0)}\{(1,0)\}{(1,0)}的分离超平面(非严格分离)
支撑超平面本质上就是分离「凸集」与「其边界上一点」的分离超平面。
示例 2:是分离超平面,但不是支撑超平面(典型区别)
考虑两个不相交的开圆盘:
A={(x,y)∣x2+y2<1}A = \{(x,y) \mid x^2 + y^2 < 1\}A={(x,y)∣x2+y2<1}
B={(x,y)∣(x−3)2+y2<1}B = \{(x,y) \mid (x-3)^2 + y^2 < 1\}B={(x,y)∣(x−3)2+y2<1}
| 直线 | 是否分离 A 和 B? | 是否接触 A? | 是否接触 B? | 结论 |
|---|---|---|---|---|
| x=1.5x = 1.5x=1.5 | ✅ | ❌ 不接触 | ❌ 不接触 | 纯分离超平面,非任何一方的支撑 |
| x=1x = 1x=1 | ✅ | ✅ 接触 A | ❌ 不接触 | 分离超平面,且是 A 的支撑超平面 |
| x=2x = 2x=2 | ✅ | ❌ 不接触 | ✅ 接触 B | 分离超平面,且是 B 的支撑超平面 |
直观理解:分离超平面只需"从中间穿过把两边隔开",可以不碰任何一方;支撑超平面必须"托住"集合。
示例 3:非光滑点处的支撑超平面束(次梯度可视化)
考虑f(x)=∣x∣f(x) = |x|f(x)=∣x∣,考察点x=0x = 0x=0(不可导点)。
次微分∂f(0)=[−1,1]\partial f(0) = [-1, 1]∂f(0)=[−1,1],其中每一个g∈[−1,1]g \in [-1,1]g∈[−1,1]都对应一个支撑超平面:
t=g⋅(y−0)+0=gyt = g \cdot (y - 0) + 0 = g yt=g⋅(y−0)+0=gy
即直线族{t=gy∣−1≤g≤1}\{t = gy \mid -1 \leq g \leq 1\}{t=gy∣−1≤g≤1}:
- g=−1g = -1g=−1:t=−yt = -yt=−y(最左侧支撑线,斜率−1-1−1)
- g=0g = 0g=0:t=0t = 0t=0(水平支撑线)
- g=1g = 1g=1:t=yt = yt=y(最右侧支撑线,斜率111)
所有支撑线在(0,0)(0,0)(0,0)处交汇,形成一个"锥形束",上镜图epi f\text{epi}\ fepif位于每条线的上方。这体现了非光滑点处支撑超平面不唯一的特点。
示例 4:既是双方支撑超平面,但不严格分离
两个闭圆盘相切:
A={(x,y)∣x2+y2≤1}A = \{(x,y) \mid x^2 + y^2 \leq 1\}A={(x,y)∣x2+y2≤1}
B={(x,y)∣(x−2)2+y2≤1}B = \{(x,y) \mid (x-2)^2 + y^2 \leq 1\}B={(x,y)∣(x−2)2+y2≤1}
在切点(1,0)(1,0)(1,0)处,直线x=1x = 1x=1同时是AAA和BBB的支撑超平面,也是它们的分离超平面(非严格)。但不存在严格分离超平面(无法让两者分居两侧且都不接触),因为A∩B={(1,0)}≠∅A \cap B = \{(1,0)\} \neq \varnothingA∩B={(1,0)}=∅。