news 2026/4/17 22:54:22

【CS336】分词器:分词器原理与 BPE 实现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【CS336】分词器:分词器原理与 BPE 实现

https://tiktokenizer.vercel.app/?model=deepseek-ai%2FDeepSeek-R1

这个网页可以实时观察不同模型的分词情况,可以看到原始文本被如何分割,以及映射为词表中的ID。

开源内容:https://github.com/datawhalechina/diy-llm

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 22:53:18

STM32 HAL库驱动HC-SR04:从阻塞轮询到中断捕获的工程实践

1. HC-SR04超声波模块基础认知 HC-SR04作为嵌入式领域最常用的超声波测距模块,其工作原理简单却暗藏玄机。模块正面并排的两个金属圆柱体,一个是发射器(T),一个是接收器(R),工作时就…

作者头像 李华
网站建设 2026/4/17 22:53:12

回环检测之STD

std问题 用作回环的时候应该做检验 trick 关于全局描述子: 建图期间多走几圈不同路径多从不同角度采集描述子,同时提高匹配阈值 关键帧的处理: 用于回环检测的帧取的稀疏一些,彼此之间不太相同,又能涵盖整个环境。 把"相近"的回环聚成一类,使算法不要反复地检测…

作者头像 李华
网站建设 2026/4/17 22:53:03

docker下的gitlab的备份 超简单之法

背景:docker下的gitlab,启动命令如下,使用gitlab-rake进行数据备份。备份目录回到绑定的本地的/home/gitlab/data下。gitlab.shdocker stop gitlab docker rm gitlab docker run -d \--privilegedtrue \--hostname 服务器IP \--publish 443:4…

作者头像 李华
网站建设 2026/4/17 22:50:54

从ORA-01882看Java时区那些坑:JVM、Docker和Oracle的“三角恋”

从ORA-01882看Java时区那些坑:JVM、Docker和Oracle的“三角恋” 在分布式系统架构中,时区问题就像一颗定时炸弹,随时可能在最意想不到的时刻引爆。当Java应用通过JDBC连接Oracle数据库时,ORA-01882错误就像一个顽固的幽灵&#xf…

作者头像 李华