1、Swish激活函数定义为f(x)=x·sigmoid(x)。相比于ReLU,Swish的主要特点是?
{ { select(1) }}
- 它是非单调的
- 它是完全非负的
- 它的计算成本比ReLU低得多
- 它在负区间有平滑的曲线,可能保留更多信息
2、在使用 ZeRO1 (Zero Redundancy Optimizer) 优化的数据并行中,每个GPU计算完局部梯度后,通过哪两个基础通信算子以实现梯度的聚合和分片?
{ { select(2) }}
- All-Gather和Broadcast
- Broadcast和Reduce
- Scatter和All-Reduce
- Reduce-Scatter和All-Gather
3、在表格数据处理中,若某列包含连续数值,另一列包含类别标签(如"男/女"),为了输入神经网络,通常的做法是?
{ { select(3) }}
- 全部归一化为0-1之间
- 连续数值归一化,类别标签 One-Hot 编码
- 全部转换为字符串
- 连续数值 One-Hot 编码,类别标签归一化
4、在对大模型(LLM)的权重或激活值进行INT8或FP8量化时,通常假设数据在经过Batch Normalization或大量累加后近似