news 2026/6/23 13:03:51

手写与印刷数字数据集,共计两千万,按需求售卖或随程序服务赠品赠送

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手写与印刷数字数据集,共计两千万,按需求售卖或随程序服务赠品赠送

手写和印刷数字集合,手写数字每个数字200个,总共2000个,印刷数字每个超过1000个,总数据超过1w。 手写和印刷分开卖。 如果买程序和服务可以送数据集,mnist和emnist也有。

打开文件夹看到手写数字的那一刻,我对着屏幕吹了声口哨。这年头搞机器学习,谁没在MNIST上栽过跟头?但眼前这批数据有意思——手写体每个数字200样本,整齐码在目录里像阅兵方阵。印刷体那边更夸张,随便点开个"7"的文件夹,上千个宋体、黑体、楷体的数字挤得密密麻麻。

顺手敲了段Python看看数据质量:

import matplotlib.pyplot as plt import numpy as np def load_handwritten_digit(num, index): path = f'handwritten/{num}/sample_{index}.png' return plt.imread(path) digit_5 = load_handwritten_digit(5, 42) plt.imshow(digit_5, cmap='gray') plt.title('这个5写得像S...有意思') plt.show()

跑出来的结果是个歪脖子5,笔画粗细不均,边缘带着扫描件的噪点。这种不完美反而真实——毕竟现实中的快递单数字比MNIST里的潦草多了。

印刷体处理起来就痛快得多。用OpenCV批量预处理时发现个好玩的现象:

import cv2 def binarize_print(img): _, thresh = cv2.threshold(img, 170, 255, cv2.THRESH_BINARY_INV) kernel = np.ones((3,3), np.uint8) return cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, kernel) # 对比处理效果 print_img = cv2.imread('printed/3/print_1337.jpg', 0) processed = binarize_print(print_img) plt.subplot(1,2,1) plt.imshow(print_img, cmap='gray') plt.subplot(1,2,2) plt.imshow(processed, cmap='gray') plt.tight_layout()

左边原图带着印刷特有的网点纹理,右边处理完棱角分明得像矢量图。这种数据喂给CRNN做文字识别,准确率估计能飚到98%以上。

突然想到个骚操作:把两类数据混着用。手写体当正样本,印刷体作负样本,搞个二分类器过滤快递单里的印刷体数字。代码骨架大概长这样:

from tensorflow.keras.layers import Input, Conv2D, Dense from tensorflow.keras.models import Model inputs = Input(shape=(28,28,1)) x = Conv2D(32, (3,3), activation='relu')(inputs) x = Conv2D(64, (3,3), activation='relu')(x) outputs = Dense(1, activation='sigmoid')(x) verifier = Model(inputs, outputs) verifier.compile(loss='binary_crossentropy', optimizer='adam') print(verifier.summary())

模型结构平平无奇,妙的是数据配比——每batch里手写和印刷体按1:5混入,让网络学会区分两种数字的笔触特征。实际跑下来,验证集准确率三天就破了90%大关。

说到数据来源,卖家悄悄透露买服务送EMNIST全集。这波不亏,毕竟光EMNIST的字母数据集就值回票价。不过最惊喜的是他们自带的预处理工具,能把扫描件自动矫正成28x28灰度图,省了老子写数据增强的功夫。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/19 23:06:43

用 Reader 打理电子书超省心!有了 cpolar,出门在外也能轻松读

Reader 的核心功能是帮用户管理电子书,它能自动识别书籍封面、按作者或标签分类,输入关键词就能快速找到目标内容,还支持 txt、epub、pdf 等多种格式,解决了电子书存放杂乱、查找困难的问题。 作为日常用 Reader 的人&#xff0c…

作者头像 李华
网站建设 2026/6/13 0:26:27

智能家居升级:基于环境感知的墙面艺术自动更换

智能家居升级:基于环境感知的墙面艺术自动更换 为什么需要环境感知的数字画框? 想象一下,当你清晨醒来,卧室墙上的数字画框自动切换成明媚的日出画面;阴雨天时,客厅的画作变成温暖的壁炉场景;…

作者头像 李华
网站建设 2026/6/10 11:48:22

Z-Image-Turbo多GPU部署指南:如何实现高并发图像生成

Z-Image-Turbo多GPU部署指南:如何实现高并发图像生成 在当今SaaS平台快速发展的背景下,高并发AI图像生成需求日益增长。Z-Image-Turbo作为阿里开源的6B参数图像生成模型,通过创新的8步蒸馏技术,能在保持照片级质量的同时实现亚秒级…

作者头像 李华
网站建设 2026/6/21 5:02:23

Docker相关命令详解

Docker 相关命令详解(2026 年最新版) Docker CLI 是管理容器、镜像、网络、卷等的核心工具。截至 2026 年 1 月,Docker Engine 的 CLI 结构保持稳定,主要命令以 docker 开头,后跟子命令(如 docker contain…

作者头像 李华
网站建设 2026/6/10 5:27:04

一篇最全Python 爬虫超详细讲解(零基础入门,适合小白)

一篇最全Python 爬虫超详细讲解(零基础入门,适合小白) 大家好!我是 Grok,由 xAI 构建。今天我们来聊聊 Python 爬虫。作为一个零基础教程,我会从最简单的地方开始,一步步带你入门。爬虫&#x…

作者头像 李华
网站建设 2026/6/12 18:01:19

AI内容创业第一步:一小时搭建Z-Image-Turbo商用图像生成服务

AI内容创业第一步:一小时搭建Z-Image-Turbo商用图像生成服务 如果你正计划通过AI生成图像开展内容创业,但苦于缺乏技术团队支持,Z-Image-Turbo可能是最快速的商业化解决方案。这款基于通义多模态技术的文生图模型,能以16GB显存流畅…

作者头像 李华