L1正则与次梯度-开发者社区

- L1：稀疏权重、解易落在轴上、特征选择（应用场景）、w=0w=0w=0不可导需次梯度
  - subgradient：∂f(x)={g∣f(y)≥f(x)+gT(y−x),∀ y∈dom f}\partial f(x)=\{g|f(y)\geq f(x) + g^T(y-x),\forall\ y\in \text{dom}\ f \}∂f(x)={g∣f(y)≥f(x)+gT(y−x),∀y∈domf}
  - $$
    \begin{bmatrix}
    g\
    -1
    \end{bmatrix}
    \begin{pmatrix}
    \begin{bmatrix}
    y\
    t
    \end{bmatrix}
    \begin{bmatrix}
    x\
    f(x)
    \end{bmatrix}
    \end{pmatrix}
    \leq 0, \forall (y,t)\in \text{epi}\ f
    $$
  - 对于光滑的可导曲线，即为其切线
  - 对于非光滑（不可导）的凸函数fff，在点xxx处的次梯度不再唯一，而是构成一个次微分的凸集合∂f(x)\partial f(x)∂f(x)。
    - 每个g∈∂f(x)g \in \partial f(x)g∈∂f(x)都确定一个支撑超平面：
      t=f(x)+gT(y−x)t = f(x) + g^{\mathsf T}(y - x)t=f(x)+gT(y−x)
      该超平面过点(x,f(x))(x, f(x))(x,f(x))，且上镜图epi f\text{epi}\ fepif全部位于该超平面上方。
    - 这些支撑超平面构成一个支撑超平面族（平面束），它们的包络就是函数图像。∂f(x)\partial f(x)∂f(x)越大（越"宽"），说明该点越"不光滑"。
      几何直观：在不可导点处，可以作出无穷多条不同斜率的支撑线，它们夹成一个"锥形"区域，函数图像在这个锥的"尖端"处发生转折。
    - ∂f(x)\partial f(x)∂f(x)恰是这些支撑超平面法向量的前nnn个分量（最后一个分量为−1-1−1保证朝下）的全体。

支撑超平面	分离超平面
涉及集合	单个凸集	两个不相交凸集
接触性	必接触集合边界（至少一点）	可以不接触任何一个集合
几何含义	"托住"凸集，集合全在某一侧	将两个集合"隔开"，各在一侧
唯一性	边界光滑点唯一，非光滑点不唯一	强分离唯一（一般若不唯一）
关系	支撑超平面 = 分离"集合"与"集合外一点"的特殊分离超平面	一般分离超平面未必是支撑超平面

核心关系：过凸集边界点x0x_0x0的支撑超平面，等价于分离该凸集与单点集{x0}\{x_0\}{x0}的分离超平面；但分离两个一般凸集的超平面可能不与任一集合接触，因此不一定是支撑超平面。

支撑超平面 vs 分离超平面：示例说明

示例 1：是支撑超平面，也是分离超平面（特殊重合）

考虑凸集为单位圆盘：
C={(x,y)∣x2+y2≤1}C = \{(x,y) \mid x^2 + y^2 \leq 1\}C={(x,y)∣x2+y2≤1}

在边界点(1,0)(1,0)(1,0)处，直线x=1x = 1x=1满足：

支撑超平面：CCC全部落在x≤1x \leq 1x≤1半空间，且直线与CCC接触于点(1,0)(1,0)(1,0)
同时它也是分离CCC与外部单点{(1,0)}\{(1,0)\}{(1,0)}的分离超平面（非严格分离）

支撑超平面本质上就是分离「凸集」与「其边界上一点」的分离超平面。

示例 2：是分离超平面，但不是支撑超平面（典型区别）

考虑两个不相交的开圆盘：
A={(x,y)∣x2+y2<1}A = \{(x,y) \mid x^2 + y^2 < 1\}A={(x,y)∣x2+y2<1}
B={(x,y)∣(x−3)2+y2<1}B = \{(x,y) \mid (x-3)^2 + y^2 < 1\}B={(x,y)∣(x−3)2+y2<1}

直线	是否分离 A 和 B？	是否接触 A？	是否接触 B？	结论
x=1.5x = 1.5x=1.5	✅	❌ 不接触	❌ 不接触	纯分离超平面，非任何一方的支撑
x=1x = 1x=1	✅	✅ 接触 A	❌ 不接触	分离超平面，且是 A 的支撑超平面
x=2x = 2x=2	✅	❌ 不接触	✅ 接触 B	分离超平面，且是 B 的支撑超平面

直观理解：分离超平面只需"从中间穿过把两边隔开"，可以不碰任何一方；支撑超平面必须"托住"集合。

示例 3：非光滑点处的支撑超平面束（次梯度可视化）

考虑f(x)=∣x∣f(x) = |x|f(x)=∣x∣，考察点x=0x = 0x=0（不可导点）。

次微分∂f(0)=[−1,1]\partial f(0) = [-1, 1]∂f(0)=[−1,1]，其中每一个g∈[−1,1]g \in [-1,1]g∈[−1,1]都对应一个支撑超平面：
t=g⋅(y−0)+0=gyt = g \cdot (y - 0) + 0 = g yt=g⋅(y−0)+0=gy

即直线族{t=gy∣−1≤g≤1}\{t = gy \mid -1 \leq g \leq 1\}{t=gy∣−1≤g≤1}：

g=−1g = -1g=−1：t=−yt = -yt=−y（最左侧支撑线，斜率−1-1−1）
g=0g = 0g=0：t=0t = 0t=0（水平支撑线）
g=1g = 1g=1：t=yt = yt=y（最右侧支撑线，斜率111）

所有支撑线在(0,0)(0,0)(0,0)处交汇，形成一个"锥形束"，上镜图epi f\text{epi}\ fepif位于每条线的上方。这体现了非光滑点处支撑超平面不唯一的特点。

示例 4：既是双方支撑超平面，但不严格分离

两个闭圆盘相切：
A={(x,y)∣x2+y2≤1}A = \{(x,y) \mid x^2 + y^2 \leq 1\}A={(x,y)∣x2+y2≤1}
B={(x,y)∣(x−2)2+y2≤1}B = \{(x,y) \mid (x-2)^2 + y^2 \leq 1\}B={(x,y)∣(x−2)2+y2≤1}

在切点(1,0)(1,0)(1,0)处，直线x=1x = 1x=1同时是AAA和BBB的支撑超平面，也是它们的分离超平面（非严格）。但不存在严格分离超平面（无法让两者分居两侧且都不接触），因为A∩B={(1,0)}≠∅A \cap B = \{(1,0)\} \neq \varnothingA∩B={(1,0)}=∅。