解析通达信本地数据文件：实战获取沪深股票代码与名称-开发者社区

1. 通达信本地数据文件解析入门

第一次接触通达信本地数据文件时，我被它的二进制格式搞得一头雾水。作为一个经常需要处理股票基础数据的开发者，我发现直接从本地文件获取信息比依赖网络API稳定得多，特别是在网络状况不佳或者需要批量处理大量数据时。通达信的shm.tnf和szm.tnf这两个文件就像是一个宝藏，里面存储着沪深两市所有交易品种的基础信息。

这两个文件通常位于通达信安装目录下的"T0002/hq_cache"文件夹中。shm.tnf对应沪市数据，szm.tnf对应深市数据。每个文件都采用二进制格式存储，包含文件头和数据体两部分。文件头占50个字节，主要记录了一些连接信息；数据体则由大量314字节的数据块组成，每个数据块对应一个交易品种的详细信息。

2. 文件结构深度解析

2.1 文件头结构详解

文件头虽然只有50个字节，但包含的信息却很有价值。前40个字节存储的是通达信最后连接的行情主站IP地址，不足部分用\x00填充，以\x01结尾。接下来的2个字节是端口号，采用小端序存储。然后是4个字节的日期信息，格式为YYYYMMDD。最后4个字节是时间信息，格式为Hmmss。

理解文件头结构对验证文件完整性很有帮助。我曾经遇到过文件头损坏的情况，导致无法正确解析数据。通过检查文件头各字段的合理性，可以快速判断文件是否完整。比如日期字段应该是合理的交易日期，时间字段应该在正常交易时间段内。

2.2 数据体结构解析

数据体才是我们真正关心的部分。每个314字节的数据块对应一个交易品种的信息，包括股票、基金、债券等各种类型。关键字段的偏移量和长度如下：

0-6字节：股票代码，6个字节，ASCII编码
23-41字节：股票名称，18个字节，GBK编码
276-280字节：昨收盘价，4个字节，浮点数
285-293字节：股票名称拼音字头，8个字节

在实际解析时，我发现股票名称字段经常会有\x00填充字符，需要特别注意处理。另外，不同版本的通达信可能在字段偏移量上会有微小差异，建议先用小量数据测试确认偏移量。

3. 实战代码解析

3.1 Python实现方案

用Python解析这些二进制文件非常方便。下面是一个完整的解析示例：

import struct def parse_tdx_file(file_path): stocks = [] with open(file_path, 'rb') as f: # 跳过50字节的文件头 f.seek(50) # 计算记录总数 file_size = f.seek(0, 2) record_count = (file_size - 50) // 314 f.seek(50) for i in range(record_count): # 读取股票代码 code_bytes = f.read(6) stock_code = code_bytes.decode('ascii').strip() # 跳过到名称字段 f.seek(17, 1) # 读取股票名称 name_bytes = f.read(18) stock_name = name_bytes.decode('gbk').strip('\x00') # 跳过到下一个记录 f.seek(314 - 6 - 17 - 18, 1) if stock_code and stock_name: stocks.append((stock_code, stock_name)) return stocks

这个函数会返回一个包含股票代码和名称的元组列表。我在实际使用中发现，处理深市数据时需要特别注意创业板股票（代码以300开头）和主板股票（代码以000开头）的区别。

3.2 性能优化技巧

当处理大量数据时，解析速度就变得很重要。我总结了几个优化点：

批量读取：可以一次读取多个记录，减少IO操作
使用内存映射：对于超大文件，可以使用mmap模块
并行处理：多线程处理不同区间的数据

优化后的代码可能长这样：

import mmap def fast_parse_tdx_file(file_path): stocks = [] with open(file_path, 'rb') as f: with mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ) as mm: mm.seek(50) data = mm.read() for i in range(0, len(data), 314): record = data[i:i+314] code = record[0:6].decode('ascii').strip() name = record[23:41].decode('gbk').strip('\x00') if code and name: stocks.append((code, name)) return stocks

4. 常见问题与解决方案

4.1 编码问题处理

在解析过程中，最常见的坑就是编码问题。通达信的数据使用GBK编码存储中文，而现代系统多使用UTF-8。如果直接按UTF-8解码，遇到特殊字符就会报错。我的经验是：

始终明确指定编码为'gbk'
使用errors='ignore'参数跳过非法字符
对解析结果进行规范化处理

4.2 数据完整性检查

另一个常见问题是数据损坏或不完整。我建议在解析前做以下检查：

验证文件大小是否合理（应该是50 + 314*N字节）
检查文件头中的日期是否合理
抽样检查几个记录的字段是否正常

我曾经遇到过因为磁盘空间不足导致文件写入不完整的情况，后来加入了这些检查后就再没出过问题。

4.3 字段偏移量验证

不同版本的通达信可能在字段偏移量上有微小差异。最稳妥的做法是：

先用少量数据测试确认偏移量
编写自动检测偏移量的逻辑
记录检测到的偏移量供后续使用

下面是一个自动检测股票名称偏移量的示例：

def detect_name_offset(file_path): with open(file_path, 'rb') as f: f.seek(50) sample = f.read(314*100) # 读取100条记录 for offset in range(20, 50): # 在20-50字节范围内搜索 names = set() for i in range(0, len(sample), 314): name = sample[i+offset:i+offset+18].decode('gbk', errors='ignore').strip('\x00') if len(name) >= 2 and not name.isdigit(): names.add(name) if len(names) > 50: # 如果找到大量合理的股票名称 return offset return 23 # 默认值