Q-learning算法在多市场寡头竞争中的动态演化与合谋抑制研究-开发者社区

1. 项目概述：当AI学会“内卷”，市场会发生什么？

在经济学和计算机科学的交叉领域，有一个问题一直吸引着研究者和实践者：如果市场上的竞争者不是人类，而是不断自我学习、自我优化的智能算法，它们会如何互动？是迅速达成默契，形成价格联盟（即合谋），还是陷入无休止的“价格战”？最近，我们团队将经典的强化学习算法——Q-learning——置于一个简化的寡头市场定价博弈环境中，进行了一系列仿真实验。结果发现，算法的行为远比我们想象的要复杂和有趣：它们不仅会“学习”竞争，其学习过程本身还会产生一种抑制合谋的“副作用”。这就像给市场引入了一个永不疲倦、永远在试探底线的“内卷”参与者，最终让维持高价变得异常困难。

这项研究的核心，是探索Q-learning算法在多市场寡头竞争环境中的动态演化，特别是其如何影响企业间的合谋稳定性。我们构建了一个模型，两家企业（智能体）面对多个被分割的消费者市场，每个市场的消费者支付意愿（WTP）可能不同。企业不知道对手的成本或策略，只能通过反复试错（即Q-learning的探索）来学习如何定价以最大化长期收益。我们发现，当市场数量增多时，算法间维持高价格（合谋）的难度显著增加，整体利润水平下降。更微妙的是，不同市场间的“合谋指数”呈现负相关关系，高价值市场的合谋往往以牺牲低价值市场的竞争为代价。而当两家企业掌握的市场信息不对称时，还会演化出一种“诱饵与克制剥削”的复杂策略。这些发现不仅对理解算法共谋（Algorithmic Collusion）的风险与规制有启示，也为设计促进市场竞争的算法机制提供了新思路。

2. 核心原理与模型构建：从贝尔曼方程到市场博弈

2.1 Q-learning算法精要：智能体如何学习最优定价

要理解整个实验，首先得吃透Q-learning这个核心引擎。它是一种无模型（Model-Free）、离策略（Off-Policy）的强化学习算法。简单来说，“无模型”意味着智能体不需要预先知道环境的运作规则（比如消费者如何反应、对手会出什么价），它通过与环境互动获得奖励（利润）和状态（市场信息）来自己摸索。“离策略”则意味着它学习的是最优策略的价值，而不必严格遵循当前正在执行的策略，这使其学习更高效。

其核心是动作价值函数Q(s, a)，它代表了在状态s下采取动作a，并且此后一直遵循最优策略所能获得的期望累积折现收益。这个函数通过著名的贝尔曼最优方程来定义和更新：

Q(s, a) = Σ_{s', r} P(s', r|s, a) * [ r + δ * max_{a'} Q(s', a') ]

在这个定价博弈的语境下，我们需要将其映射：

状态 (s)：实验中，状态被定义为消费者来自哪个市场细分。例如，市场1、市场2等。这是智能体在每一轮博弈中观察到的信息。
动作 (a)：即企业设定的价格。在我们的离散化设置中，价格是一个从预设集合（如 {0.1, 0.15, ..., 1.0, 1.05}）中选择的值。
奖励 (r)：即采取动作后获得的即时利润。如果定价低于或等于消费者支付意愿（WTP）且为最低价，则获得利润（价格-成本，成本常简化为0）；否则利润为0。
转移概率 P(s', r|s, a)：在给定状态和动作下，转移到新状态s'并获得奖励r的概率。在我们的序列消费者到达模型中，下一个状态（市场）是随机且独立于当前动作的。
折扣因子 (δ)：通常取值接近1（如0.95），表示未来收益的折现程度，δ越高，智能体越有远见。

智能体的目标是学习出最优策略π*(s) = argmax_a Q(s, a)，即在每个市场状态下，都选择能最大化长期收益的那个价格。

学习过程：探索与利用的永恒舞蹈Q-learning通过迭代更新来逼近真实的Q函数。初始化一个Q表格（所有状态-动作对的值为0或随机小值）后，在每一期t：

观察当前状态s_t（消费者来自哪个市场）。
根据ε-贪婪策略选择动作a_t：以1-ε_t的概率选择当前Q值最高的价格（利用），以ε_t的概率随机选择一个价格（探索）。
执行动作a_t（报价），观察到即时奖励r_t（利润）和下一个状态s_{t+1}。
按照以下规则更新Q值：Q(s_t, a_t) ← (1 - α) * Q(s_t, a_t) + α * [ r_t + δ * max_{a'} Q(s_{t+1}, a') ]

这里有两个关键参数：

学习率 (α)：控制新信息覆盖旧信息的程度。α=0.15意味着新估计值占15%权重，旧值占85%。
探索率 (ε_t)：随时间衰减，通常设为ε_t = ε_0 * exp(-β * t)。高ε_t鼓励探索未知，低ε_t鼓励利用已知最优。参数β控制衰减速度。

实操心得：参数设置的“艺术”在实验设计中，α和δ的选择至关重要。α太小（如0.01）会导致学习缓慢，容易陷入局部最优；α太大（如0.5）则学习不稳定，Q值波动剧烈。我们选择α=0.15是一个经验值，在稳定性和学习速度间取得平衡。δ必须足够高（我们设0.95），以确保智能体是“有远见的”，会考虑长期收益，这是合谋（即放弃短期降价诱惑以维持长期高价）可能出现的心理基础。如果δ很低，智能体就会变得“短视”，必然陷入囚徒困境式的永久价格战。

2.2 寡头市场定价博弈模型设定

我们将上述Q-learning智能体置于一个经典的双寡头（两家企业）伯川德（Bertrand）价格竞争模型中，并引入了市场分割。

基本设定：两家企业（AI-1和AI-2）销售同质产品，边际成本标准化为0。市场被分割为k个细分市场（k从1到16），每个细分市场m的消费者具有特定的支付意愿WTP_m。消费者按序列到达，每一期只有一个来自随机市场的消费者出现。
博弈时序：
- 自然决定本期消费者来自哪个市场m_t。
- 两家企业同时观察到m_t（这是共同知识）。
- 两家企业根据各自的Q-learning策略，独立选择报价p_{i, t}。
- 消费者选择报价不高于其WTP且价格更低的企业购买；若报价相同，则随机选择一家。
- 获胜企业获得等于其报价的利润（因为成本为0），失败企业利润为0。
- 双方根据结果更新其对应市场m_t下的Q值。
信息结构：企业不知道对手的Q表、报价策略或成本，只知道市场分割结构和消费者到达的分布。这是一种不完全信息动态博弈。
市场类型：
- 同质消费者：所有市场的消费者WTP相同（例如，都标准化为1）。这简化了分析，专注于市场数量效应。
- 异质消费者：不同市场的消费者WTP不同（例如，从5到20均匀分布）。这引入了市场间的价值差异，让分析更贴近现实。

静态博弈基准：作为对照，我们首先分析了静态贝叶斯纳什均衡（BNE）。在价格空间连续且无下限的极端假设下，命题1证明，无论市场信号如何，唯一的均衡是所有企业定价为0，利润为0。这为动态学习过程提供了一个竞争性基准。

3. 核心发现深度解析：市场分割如何瓦解算法合谋

3.1 市场数量效应：为什么“盘子”多了反而“吃不到肉”？

最直观也最稳健的发现是：随着企业面对的市场细分数量（k）增加，系统的整体合谋程度（用平均价格或利润衡量）显著下降，趋近于竞争性均衡（零利润）。

背后的动力学机制：跨市场Q值溢出与双边反弹的稀释关键在于理解Q-learning的更新机制和跨市场互动。每个市场的Q值是独立更新的，但企业的决策（探索/利用）是基于所有市场的综合经验形成的策略。这产生了“跨市场Q值溢出”效应。

双边反弹（Bilateral Rebound）是合谋的“火种”：在单市场或少数市场环境中，合谋得以形成和维持，依赖于一种关键事件——“双边反弹”。即，两家企业偶然地、几乎同时在某个市场探索到高价，并且都获得了高利润。这次成功的共同经历会大幅提升双方在该市场高价动作的Q值，使得双方后续都更倾向于利用（即维持）这个高价，从而形成一个局部的合谋“焦点”。
多市场下“火种”难以燎原：
- 概率稀释：市场越多，两家企业在同一个市场同时发生高价探索并成功（即双边反弹）的概率就越低。反弹变得罕见。
- 收益稀释：即使某个市场发生了双边反弹，产生了高利润，这笔利润在更新企业整体策略权重时，会被平均分摊到所有市场的Q值更新认知中。对于其他未发生反弹的市场而言，这次高价经历带来的Q值提升微乎其微，不足以中断这些市场内部正在进行的“价格削减”进程。
- 恢复脆弱：由于收益被稀释，发生反弹的市场自身的Q值恢复也显得微弱和缓慢。这种脆弱的恢复很容易被对手偶然的降价探索（或自身后续的探索）所打断，迅速跌回价格战状态。

数据印证：在我们的仿真中，追踪最高Q值的演化路径，可以清晰看到两阶段模式：初始下降期和后续恢复期。市场数量越多，恢复幅度越小、越平缓，下降期更长，达到的最低值也更低。统计显示，在500期内Q值飙升超过5点的“反弹”次数，从单市场时的平均31,107次锐减到16市场时的仅234次。这说明合谋的“火苗”在多市场环境下极难点燃和维持。

注意事项：不要混淆市场数量与竞争者数量这里抑制合谋的关键是每个企业面对的市场细分数量增加，而非竞争者数量增加。即使是双寡头，只要它们需要处理的市场信息维度（k）增加，合谋就会变难。这揭示了信息结构复杂化对合作稳定性的负面影响。

3.2 异质市场间的合谋格局：此消彼长的“跷跷板”

在消费者支付意愿（WTP）不同的多个市场中，我们观察到一个更精细的模式：不同市场间的合谋指数（CI，衡量价格接近垄断高价的程度）呈现显著的负相关关系。同时，高期望WTP的市场倾向于拥有更高的合谋指数。

机制解读：价值市场的“虹吸”效应

负相关的根源：合谋需要协调和维持。智能体的注意力（探索/利用的决策）和Q值更新的“养分”（利润）是有限的。当资源（高利润经验）向高价值市场倾斜时，低价值市场就被“忽视”了。高价值市场的一次成功双边反弹，能带来巨大利润，显著提升双方在该市场的Q值，巩固合谋。但与此同时，企业可能为了确保在高价值市场获胜，或仅仅是因为注意力转移，而在低价值市场采取更具攻击性（更低）的报价，从而加剧了低价值市场的竞争。这形成了市场间合谋水平的“跷跷板”效应。
高价值市场合谋更易形成：这符合直觉和经典理论。高价值市场意味着合谋的潜在收益更大，因此即使成功的概率相同，其带来的Q值提升（r更大）也更强，更能抵抗偶尔降价探索带来的诱惑。算法“学习”到在高价值市场维持高价的“甜头”更大，因而更倾向于在此合谋。

对照实验的强力支撑：为了证明“跨市场溢出”是关键，我们设计了一个对照实验：将异质的市场完全分离，为每个市场分配一个独立的Q-learning算法，其目标仅最大化本市场利润，且算法间无任何信息共享。结果如何？所有市场的合谋指数趋于相同，且整体合谋水平显著高于存在跨市场溢出的情况。这直接证实，正是市场间的互动（通过共享的、学习中的智能体）将高价值市场的合谋“优势”转化为对低价值市场的竞争“压力”，从而拉低了整体合谋水平。

3.3 不对称信息下的策略演化：诱饵与克制剥削

当两家企业掌握的市场细分数量不同时（即不对称市场分割，如AI-H拥有16个市场信息，AI-L只拥有1个），博弈演化出了一种精妙的策略，我们称之为“诱饵与克制剥削”策略。

策略行为分解：

诱饵（Baiting）：拥有信息优势的AI-H，在对手AI-L所拥有的少数市场里，会间歇性地报出非常高的价格。这个价格高到几乎不可能成交，其目的不是赢单，而是“钓鱼”。
克制剥削（Restrained Exploitation）：在AI-L的市场里，AI-H大部分时间会报出一个显著低于AI-L平均报价、但又足以赢得该市场的价格。这个价格比“诱饵价”低很多，但比完全竞争价高。
AI-L的行为：被“诱饵”高价的偶然成功所吸引，AI-L会探索并逐渐提高其在自己市场的报价，期望再次捕获高利润。但其平均报价被压制在AI-H的“诱饵价”和“剥削价”之间。

策略逻辑与目的：

对AI-H而言：其核心目标是最大化自身总利润。在AI-L的市场里，通过“诱饵”刺激AI-L提价，可以创造一个更“宽松”的竞争环境。一旦AI-L的报价上去了，AI-H再用一个相对较低但仍有利可图的价格（剥削价）去赢得订单，就能获得稳定收益。这是一种“养肥了再收割”的策略，但收割时很“克制”，不会把价格压到零利润，以免触发AI-L的剧烈反应（重新开始大幅降价探索）。
对AI-L而言：由于信息匮乏（只有一个市场），它难以区分AI-H的高价是偶然的“诱饵”还是可持续的合谋信号。它只能从有限的经验中学习，因此容易被高价的偶然成功所误导，陷入提价的路径。

实证证据：图15清晰地展示了这种模式。在AI-L的市场中，AI-H的报价呈现双峰分布：一个是高耸的“诱饵价”蓝点群（对应输单），一个是较低的“剥削价”红点群（对应赢单）。而AI-L的平均报价（灰点）恰好位于两者之间，但更靠近“诱饵价”，说明AI-H的诱饵策略成功地影响了AI-L的定价行为。

实操心得：算法策略的“拟人化”与风险这个策略生动地表明，即使是最简单的Q-learning算法，在复杂互动中也能演化出极其精明、甚至带点“狡诈”的策略。这提醒我们，在现实世界中部署自动化定价系统时，必须警惕算法间互动可能产生的非预期、反竞争的复杂策略。监管者需要关注的不只是明面的合谋协议，更是这种通过算法信号进行 tacit coordination（默示协调）的可能性。

4. 仿真实验设计与实操要点

4.1 实验环境与参数配置

为了复现或拓展此类研究，一个稳健的实验环境是基础。我们基于Python构建了仿真框架，核心组件如下：

智能体类 (QLearningAgent)：
- 属性：维护一个k x |A|的Q表格（k个市场，|A|个可选价格），学习率alpha，折扣因子gamma，探索率衰减参数beta，初始探索率epsilon_0。
- 方法：
  - select_action(state): 根据当前ε-贪婪策略选择动作。
  - update(state, action, reward, next_state): 执行Q-learning更新规则。
  - decay_epsilon(): 在每轮结束后衰减探索率。
环境类 (BertrandMarketEnv)：
- 属性：市场数量k，每个市场的WTP列表wtp_list，价格动作空间price_grid，当前期数t。
- 方法：
  - reset(): 初始化环境。
  - step(actions): 输入两家企业的报价，返回奖励、是否结束、信息。
  - get_state(): 随机生成本期消费者所在的市场索引。

仿真主循环：

import numpy as np class QLearningAgent: def __init__(self, n_markets, n_actions, alpha=0.15, gamma=0.95, epsilon_0=1.0, beta=3e-6): self.q_table = np.zeros((n_markets, n_actions)) self.alpha = alpha self.gamma = gamma self.epsilon = epsilon_0 self.epsilon_0 = epsilon_0 self.beta = beta self.n_actions = n_actions def select_action(self, state): if np.random.rand() < self.epsilon: return np.random.randint(self.n_actions) # 探索 else: return np.argmax(self.q_table[state]) # 利用 def update(self, state, action, reward, next_state): old_value = self.q_table[state, action] next_max = np.max(self.q_table[next_state]) new_value = (1 - self.alpha) * old_value + self.alpha * (reward + self.gamma * next_max) self.q_table[state, action] = new_value def decay_epsilon(self, t): self.epsilon = self.epsilon_0 * np.exp(-self.beta * t) # 主仿真流程示例 n_markets = 4 n_actions = 20 # 价格离散化数量 price_grid = np.linspace(0.1, 1.05, n_actions) # 价格网格 wtp_list = np.ones(n_markets) # 同质市场，WTP=1 agent1 = QLearningAgent(n_markets, n_actions) agent2 = QLearningAgent(n_markets, n_actions) env = BertrandMarketEnv(n_markets, wtp_list, price_grid) n_episodes = 2000000 # 200万期 history_prices = [] history_profits = [] for t in range(n_episodes): state = env.get_state() # 随机选择本期市场 action1 = agent1.select_action(state) action2 = agent2.select_action(state) price1, price2 = price_grid[action1], price_grid[action2] wtp = wtp_list[state] # 决定胜负与利润 if price1 <= wtp and price2 <= wtp: if price1 < price2: profit1, profit2 = price1, 0 elif price2 < price1: profit1, profit2 = 0, price2 else: # 价格相等，随机分配 if np.random.rand() < 0.5: profit1, profit2 = price1, 0 else: profit1, profit2 = 0, price2 elif price1 <= wtp: profit1, profit2 = price1, 0 elif price2 <= wtp: profit1, profit2 = 0, price2 else: profit1, profit2 = 0, 0 # 更新智能体 (假设下一期状态独立于当前动作和结果) next_state = env.get_state() # 或根据特定分布生成 agent1.update(state, action1, profit1, next_state) agent2.update(state, action2, profit2, next_state) # 记录数据 history_prices.append((price1, price2)) history_profits.append((profit1, profit2)) # 衰减探索率 agent1.decay_epsilon(t) agent2.decay_epsilon(t) # 每10万期输出一次平均价格 if (t+1) % 100000 == 0: avg_price = np.mean([p for p1, p2 in history_prices[-100000:] for p in (p1, p2) if p > 0]) print(f"Period {t+1}, Avg Transaction Price: {avg_price:.3f}, Epsilon: {agent1.epsilon:.4f}")

关键参数配置表：

参数	符号	基准值	含义与影响	鲁棒性测试范围
学习率	α	0.15	控制Q值更新速度。过高不稳定，过低学习慢。	[0.05, 0.1, 0.2]
折扣因子	δ	0.95	衡量未来收益的现值。越高智能体越有远见，是合谋可能的基础。	[0.89, 0.91, 0.93, 0.97, 0.99]
初始探索率	ε₀	1.0	初始完全随机探索。	固定
探索衰减率	β	3e-6	控制探索率衰减速度。影响探索总量。	调整以使每个Q表单元探索约100次
价格网格	A	{0.1, 0.15, ..., 1.05}	离散化的可选价格集合。粒度影响策略精度。	同质市场固定，异质市场可随WTP调整
仿真期数	T	2e6	总学习/交互轮次。需足够长以达到收敛。	固定

4.2 数据收集与合谋指数计算

为了量化分析结果，需要系统性地收集并计算关键指标。

原始数据记录：每一期t需要记录：
- market_t: 消费者所在市场。
- price_{i,t}: 企业i的报价。
- profit_{i,t}: 企业i的利润。
- winner_t: 获胜企业。
收敛期判定：由于Q-learning是渐进收敛的，需要定义一个“收敛后”的窗口进行分析。通常做法是：
- 观察平均价格或利润的时间序列图。
- 剔除前N期（如前100万期）作为“学习期”。
- 将后续M期（如最后100万期）作为“收敛期”用于计算稳态指标。
合谋指数计算：这是衡量合谋程度的核心指标。对于每个市场m，我们定义其合谋指数CI_m为：CI_m = (平均成交价格_m - 竞争均衡价格) / (垄断价格_m - 竞争均衡价格)
- 在我们的模型中，竞争均衡价格（伯川德均衡）为0（边际成本）。
- 垄断价格p_m^monopoly即为该市场消费者的支付意愿WTP_m（因为边际成本为0）。
- 因此，CI_m = 平均成交价格_m / WTP_m。
- CI_m越接近1，说明该市场价格越接近垄断高价，合谋程度越高；越接近0，则越接近完全竞争。
跨市场相关性计算：为了验证市场间合谋指数的负相关性，我们需要：
- 对每一次仿真运行，计算所有k个市场的CI_m。
- 计算这k个值两两之间的皮尔逊相关系数。
- 重复多次仿真（如100次），统计相关系数为负的比例。比例显著高于50%即支持负相关假设。

4.3 鲁棒性检验：确保结论站得住脚

任何仿真研究的结论都必须经过严格的鲁棒性检验。我们主要从以下几个方面进行了验证：

参数敏感性分析：
- 学习率α与折扣因子δ：如表9-12所示，在α∈[0.05, 0.2]， δ∈[0.89, 0.99]的合理范围内，核心结论（市场数量增加降低合谋、市场间CI负相关、高WTP市场CI更高）均保持稳健。只有当δ过低（智能体过于短视）或α过高（学习不稳定）时，结论才会改变。
- 探索衰减β：为确保不同市场数量下的探索强度可比，我们调整β使得每个Q表单元在期望上被探索约100次（ν=100）。如表13和16所示，调整后主要结论依然成立，尽管在不对称信息下，“诱饵”策略的显著性有所减弱（因为AI-H探索率相对更高）。
模型设定变更：
- 同时定价 vs. 序列定价：基准模型是消费者序列到达。我们检验了所有市场消费者同时到达、企业同时为所有市场报价的设定。结论定性不变，但合谋水平因协调难度变化而略有差异。
- 状态空间扩展：在基准模型中，状态仅为当前市场。我们增加了“一周期记忆”，将状态扩展为(上期我方报价，上期对手报价，上期市场，本期市场)。这增加了策略的复杂性，但核心的跨市场抑制合谋效应依然存在。
- 市场无关的动作空间：在异质消费者设定中，基准模型为每个市场根据其WTP设置了不同的价格网格。我们统一了所有市场的价格网格（基于最高WTP）。如表7和8所示，结论保持稳健，证明了结果不是由动作空间差异这一建模细节驱动的。

避坑指南：仿真实验的可靠性
随机种子：务必使用多个随机种子（如100次）进行重复仿真，报告统计平均值和分布，避免单次运行的偶然性。
收敛判断：不要仅凭视觉判断时间序列是否平稳。可以计算滑动窗口内的指标（如价格方差），当方差低于某个阈值并维持足够长时间时，可认为收敛。
初始Q值：通常初始化为0。可以测试小随机数初始化，确保结果不依赖于特定的初始悲观或乐观假设。
计算效率：当市场数量k和价格离散化粒度很大时，Q表维度爆炸，仿真可能极慢。考虑使用函数逼近（如神经网络）代替Q表，但这会引入新的复杂性。

5. 结果解读与经济学启示

5.1 对算法合谋监管的启示

这项研究为正在兴起的“算法合谋”讨论提供了重要的细微视角。

市场复杂性与合谋抑制：传统观点认为，算法通过高速学习和反馈，更容易达成并维持 tacit collusion（默示合谋）。我们的研究表明，市场结构的复杂性（多市场分割）本身可以成为抑制算法合谋的一种力量。当算法需要处理多个差异化的市场时，其协调焦点被分散，维持全面合谋的难度急剧增加。这对监管者的启示是：在评估算法定价风险时，应关注其运营的市场环境是单一还是多元。促进市场细分和消费者多样性，或许能天然地增加算法共谋的难度。
不对称信息的策略风险：研究揭示，当企业间市场信息不对称时，会演化出非对称的剥削策略。拥有信息优势的算法可能策略性地“喂养”信息劣势的对手，诱导其维持较高价格，从而为自己创造剥削空间。这种策略并非传统意义上的“协议”，而是通过算法互动自发形成的，更具隐蔽性。监管者需要开发新的工具来检测这种“诱饵”模式，例如分析价格序列中是否存在异常的高价-低价交替模式。
合谋的局部性与全局性：算法合谋可能不是“全有或全无”的。我们的研究表明，合谋更可能发生在高价值、高利润的“核心”市场，而在低价值市场则竞争激烈。监管者不应只关注整体价格水平，更应分析不同细分市场的定价模式差异。跨市场合谋指数的负相关性可以作为一个潜在的检测信号。

5.2 对算法设计与商业实践的启示

算法设计中的“竞争性”考量：对于平台或市场设计者而言，如果希望促进竞争，可以在算法设计中引入类似“多市场学习”的机制，或者确保定价算法接收和处理多样化的、碎片化的市场信号，避免形成单一的协调焦点。
企业策略选择：对于使用定价算法的企业而言，研究提示，简单地追求更复杂的算法、处理更多的市场数据，未必能带来更高的合谋利润。有时，专注于核心市场、与对手形成清晰的市场分割（如两市场情况下的市场分配均衡），可能是更稳定、更有利可图的策略。在信息不对称的情况下，拥有信息优势的一方需要精心设计策略，平衡“诱饵”的成本和“剥削”的收益。
探索与利用的长期权衡：ε衰减策略的设计至关重要。过快的衰减（β太大）可能导致早期探索不足，算法陷入非最优的竞争均衡；过慢的衰减则使系统长期处于不稳定状态。商业实践中，可能需要设计自适应探索率，在检测到价格稳定时降低探索，在利润长期低迷时增加探索。

5.3 研究局限与未来方向

模型简化：我们假设产品同质、边际成本为零、需求完全无弹性（每个市场每期一个单位）。未来可引入产品差异化、成本不对称、弹性需求等更现实的设定。
算法局限性：使用的是基础的Q-learning。现实中的定价算法可能更复杂，如使用深度Q网络（DQN）、策略梯度方法，或结合预测模型。不同算法间的互动可能产生新模式。
更多竞争者：本研究聚焦双寡头。当竞争者数量n>2时，合谋的动力学可能发生质变，需要进一步探索。
部分可观测性：现实中，企业可能无法准确观测到对手的价格或市场份额。将模型扩展到部分可观测马尔可夫决策过程（POMDP）框架下，会更有挑战性也更有意义。
与人类互动：最复杂的场景是算法与人类决策者共存的市场。人类如何解读并应对算法的策略性行为，是一个开放且重要的问题。

这项研究就像打开了一扇窗，让我们窥见自主算法在复杂经济环境中互动所产生的、有时反直觉的宏观结果。它告诉我们，算法的“理性”是局部的、基于学习的，其集体涌现的行为可能既不是完全竞争，也不是经典合谋，而是一种介于两者之间、动态演化的复杂状态。理解和预测这种状态，需要经济学家和计算机科学家的持续共同努力。