Python爬虫实战：用requests库批量获取B站UP主视频的aid和cid（附完整代码）-开发者社区

Python爬虫实战：B站UP主视频数据抓取全流程解析

最近在分析B站UP主视频数据时，我发现很多朋友对如何批量获取视频的aid和cid这两个关键ID感到困惑。作为视频数据分析的基础，掌握这两个ID的获取方法能帮助我们进一步挖掘播放量、弹幕等深层信息。本文将手把手带你从零开始，用Python的requests库构建一个完整的B站视频数据抓取工具。

1. 理解B站视频ID体系

在开始编写代码前，我们需要先搞清楚几个关键概念：

aid：即Archive ID，是B站视频的唯一标识符，每个视频对应一个独特的aid。这个ID主要用于标识视频本身，在视频URL中可以看到（如www.bilibili.com/video/av170001中的170001就是aid）。
cid：即Content ID，是视频分P的标识符。一个aid可能对应多个cid（如多P视频），cid主要用于获取视频的弹幕、播放源等信息。
mid：这是UP主的唯一标识ID，通过这个ID我们可以找到该UP主发布的所有视频。

常见误区提醒：很多初学者容易混淆aid和cid的关系，简单来说：aid定位视频，cid定位视频的具体分P内容。

2. 环境准备与API分析

2.1 安装必要库

我们需要以下Python库支持我们的爬虫程序：

pip install requests

2.2 B站API接口分析

通过浏览器开发者工具分析，我们发现B站提供了几个关键API：

API地址	功能描述	必需参数
`https://api.bilibili.com/x/space/acc/info`	获取UP主基本信息	mid
`https://api.bilibili.com/x/space/arc/search`	获取UP主视频列表	mid, pn(页码)
`https://api.bilibili.com/x/player/pagelist`	获取视频cid列表	aid

提示：B站API可能会不定期更新，建议在实际使用前先用浏览器开发者工具验证接口是否可用。

3. 核心代码实现

3.1 获取UP主基本信息

首先我们需要通过UP主的mid获取其基本信息，这有助于我们后续的数据验证：

import requests import json def get_up_info(mid): url = f'https://api.bilibili.com/x/space/acc/info?mid={mid}&jsonp=jsonp' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' } try: response = requests.get(url, headers=headers) data = response.json() if data['code'] == 0: return { 'name': data['data']['name'], 'mid': data['data']['mid'] } else: print(f"获取UP主信息失败: {data['message']}") return None except Exception as e: print(f"请求发生异常: {str(e)}") return None

3.2 批量获取视频aid

接下来是获取UP主所有视频aid的核心函数：

def get_all_video_aids(mid, max_page=5): video_aids = [] base_url = 'https://api.bilibili.com/x/space/arc/search' for page in range(1, max_page + 1): params = { 'mid': mid, 'pn': page, 'ps': 50, # 每页数量 'jsonp': 'jsonp' } try: response = requests.get(base_url, params=params) data = response.json() if data['code'] == 0: videos = data['data']['list']['vlist'] for video in videos: video_aids.append(video['aid']) else: print(f"第{page}页获取失败: {data['message']}") except Exception as e: print(f"第{page}页请求异常: {str(e)}") return video_aids

3.3 获取视频cid

有了aid后，我们可以进一步获取每个视频的cid：

def get_video_cid(aid): url = f'https://api.bilibili.com/x/player/pagelist?aid={aid}&jsonp=jsonp' try: response = requests.get(url) data = response.json() if data['code'] == 0 and data['data']: return data['data'][0]['cid'] # 取第一个分P的cid return None except Exception as e: print(f"获取aid={aid}的cid失败: {str(e)}") return None

4. 完整流程与异常处理

4.1 主程序逻辑

将上述函数组合起来，形成完整的处理流程：

def main(): # 替换为目标UP主的mid up_mid = '2026561407' # 获取UP主信息 up_info = get_up_info(up_mid) if not up_info: print("无法获取UP主信息，程序终止") return print(f"开始获取UP主 {up_info['name']}(mid:{up_mid}) 的视频数据...") # 获取所有视频aid video_aids = get_all_video_aids(up_mid) if not video_aids: print("未获取到任何视频aid") return print(f"共获取到 {len(video_aids)} 个视频aid") # 获取每个视频的cid video_data = [] for aid in video_aids: cid = get_video_cid(aid) if cid: video_data.append({'aid': aid, 'cid': cid}) # 输出结果 print("\n获取结果：") for idx, item in enumerate(video_data, 1): print(f"{idx}. aid: {item['aid']}, cid: {item['cid']}") if __name__ == '__main__': main()

4.2 常见问题与解决方案

在实际使用中，你可能会遇到以下问题：

请求被拒绝：
- 确保添加了合适的User-Agent头
- 尝试降低请求频率，避免被封禁
- 考虑使用代理IP（需合规使用）
数据解析失败：
- 检查API返回的JSON结构是否发生变化
- 验证返回的HTTP状态码是否为200
分页处理不完整：
- 动态判断是否还有下一页数据，而不是固定页数
- 处理返回数据为空的情况

性能优化建议：对于大量视频的UP主，可以考虑使用多线程或异步请求来提高获取速度，但要注意控制并发量，避免给B站服务器造成过大压力。

5. 数据存储与扩展应用

5.1 数据存储方案

获取到的数据可以保存到多种格式中：

import csv import json def save_to_csv(data, filename): with open(filename, 'w', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['序号', 'aid', 'cid']) for idx, item in enumerate(data, 1): writer.writerow([idx, item['aid'], item['cid']]) def save_to_json(data, filename): with open(filename, 'w', encoding='utf-8') as f: json.dump(data, f, ensure_ascii=False, indent=2)