news 2026/7/5 14:00:49

数据操作+数据预处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据操作+数据预处理

数据

1.张量(tensor)
其实就是n维数组,在PyTorch和TensorFlow中张量类为Tensor,是深度学习主要的数据结构。
0维——标量
1维——向量
2维——矩阵,每一行表示一个样本,每一列表示特征
3维——图片(rgb)
4维——批量的图片

数组有三要素:形状(几行几列),数据类型,元素的值
关于多维数组的理解,以三维为例,(2, 3, 4),就是两个二维的3*4数组

2.访问
基于python中切片的形式进行部分数据的访问

3.使用

# 生成0~11的一个一维数组x=torch.arange(12)# 获取张量的形状x.shape# 张量元素的总数x.numel()# 改变张量的形状,但不影响元素的个数和值X=x.reshape(3,4)# 生成全0、全1、随机、指定数据的张量torch.zeros((2,3,4))torch.ones((2,3,4))torch.randn(3,4)torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]])

数据操作

1.运算
任意具有相同形状的张量, 可以用常见的标准算术运算符(+、-、*、/和**)来进行对应元素的运算

2.张量的连接
连接的前提是指定维度外的其他维度相同,连接后指定维度发生延长,其他其他维度保持不变,用dim来指示维度,对应的其实就是形状中的第几个,比如一个张量的形状是(2,3,4,5),另一个是(1,3,4,5),dim=0上进行连接,那么数据就应当是(3,3,4,5)

X=torch.arange(12,dtype=torch.float32).reshape((3,4))Y=torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]])torch.cat((X,Y),dim=0),torch.cat((X,Y),dim=1)

3.广播机制
它使得形状不同的张量也可以进行元素运算,但该机制在张量的连接中不会起作用。

a=torch.arange(3).reshape((3,1))b=torch.arange(2).reshape((1,2))a+b

广播机制会使得两个矩阵变为一个更大的矩阵,矩阵a将复制列, 矩阵b将复制行,然后再按元素相加

(tensor([[0],[1],[2]]),tensor([[0,1]]))#结果tensor([[0,1],[1,2],[2,3]])

4.内存问题
Y = X + Y,将取消引用Y指向的源地址,而是指向新分配的内存处的张量
可以使用X[:] = X + Y或X += Y来减少操作的内存开销

数据预处理

数据集通常是存储在csv文件中,导入pandas包并调用read_csv函数来进行读取

1.处理缺失值
这是数据预处理的重要环节,典型的方法包括插值法和删除法, 其中插值法用一个替代值弥补缺失值,而删除法则直接忽略缺失值

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/5 14:00:13

一键部署言埠 YanPub Docker:万言归埠,一站集成。Adapter Quality CI中文编程语言统一基础设施。一个框架,接入任意中文语言,即刻获得完整工具链。

言埠 YanPub 万言归埠,一站集成。 中文编程语言统一基础设施。一个框架,接入任意中文语言,即刻获得完整工具链。 AtomGit - 全球开发者的开源社区,开源代码托管平台 Docker 一键部署 从 gitcode 拿到 yanpub 后,三步即可启动含 …

作者头像 李华
网站建设 2026/7/5 13:58:12

VLA-Adapter论文解读(五):实验分析

论文链接:[2509.09372] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model 项目主页:VLA-Adapter 前言:本文拆解了VLA-Adapter实验的研究方法论和架构设计,覆盖了模拟基准测试、消融实验、真实机…

作者头像 李华
网站建设 2026/7/5 13:57:29

Python sort函数参数藏大招!用错它,你的代码直接废了

排序这个操作作为其中的一个基本操作, 该语言给出了两种主要的数据排序办法: sort()以及(), 虽说两者都是用以按特定顺序去排列数据, 然而它们展开工作的方式存在稍许不同, 且应用于不一样的场景, 弄明白sort(&#xf…

作者头像 李华
网站建设 2026/7/5 13:57:19

Java程序设计(第3版)第四章——静态代码块

#静态代码块 1.static可以用于修饰初始化代码块 2.初始化代码块(动态代码块) 3.位置:定义在类以内,方法以外的{} 4.作用:创建对象时,按照和属性定义的先后顺序完成属性的初始化工作 5.静态代码块:被static修饰符的初始化代码块称为…

作者头像 李华
网站建设 2026/7/5 13:53:33

从PCF到Xenium:空间蛋白组与空间转录组如何互补解析GBM组织生态

复杂肿瘤组织往往需要多种空间组学方法共同解读。《Cell》这项胶质母细胞瘤(GBM)研究之所以具有方法学参考价值,是因为它将PCF(CODEX)空间单细胞蛋白组、Xenium空间转录组和TCR测序放在同一研究框架中:PCF观…

作者头像 李华
网站建设 2026/7/5 13:53:21

【关于接口幂等】

“接口幂等”是后端开发中非常核心的一个概念,也是面试中的高频考点。它直接关系到系统的数据一致性和稳定性。 以下是对“接口幂等”的全面解析,从概念、场景到具体的落地实现方案。一、 什么是接口幂等? 数学定义: 在数学中&…

作者头像 李华