文章:Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
代码:https://amap-ml.github.io/Thinking-with-Map
单位:厦门大学
一、问题背景:现有图像定位技术的3大痛点
过去,图像定位要么靠“找相似图”(从带地理标签的数据库里检索),要么靠“猜区域”(把地球分成小块分类),但这些方法离不开海量训练数据,遇到没见过的野外场景就失灵。
后来,大语言-视觉模型(LVLM)登场,靠自身知识和推理能力直接定位,不用依赖数据库。但新问题又来了:
缺“工具思维”:人类找位置都会查地图验证,可AI只会靠自己的“记忆”推理,容易出错;
数据不实用:现有训练数据要么过时(里面的店铺、地标可能已经消失),要么偏向欧美地区,对中国场景覆盖不足;
推理效率低:遇到线索少的模糊图像,AI只能一步步慢慢想,不仅费时间,还容易越想越偏。
二、方法创新:3步打造“会看地图的AI特工”
为了解决这些问题,研究团队推出了“Thinking with Map”(地图辅助推理)方案,核心就是让AI像人一样“查地图、多思考、选最优”:
1. 给AI装“地图工具包”
首次让AI直接调用地图接口,就像我们用高德、谷歌地图一样:
能搜POI(比如看到“SAKE NOMI BAR”,直接查这个酒吧的位置);
能看静态地图、卫星图(验证候选地点的周边环境是否和图像匹配);
还能放大图像细节(比如看不清路牌时,放大后提取线索)。
2. 用强化学习练“找路技巧”
通过奖励机制让AI越练越会用地图:定位越准,奖励越高(比如500米内精准定位给满分,25公里外给低分)。训练后,AI调用地图的效率大幅提升,不用做无用功。
3. 并行思考+专人审核:告别“一条路走到黑”
借鉴人类“多方案对比”的思路:
让AI同时生成多个定位思路(比如“可能在厦门思明区”“可能在泉州丰泽区”);
再让一个“审核AI”整合所有思路和地图验证结果,选出最靠谱的答案,避免单一思路出错。
三、实验结果:准确率碾压主流模型
研究团队不仅优化了方法,还打造了全新数据集MAPBench(含5000张中国城市街景图,分简单/困难两档),在3个权威基准上测试,结果惊艳:
除此之外,在城市级(25公里内)、区域级(200公里内)定位中,该方案也全面超越GPT-5、Qwen3-VL等开源/闭源模型,成为当前综合性能最强的图像定位方法。
四、优势与局限:这个AI定位方案好在哪?还有哪些不足?
核心优势
场景适配强:覆盖中国城市场景,对新出现的POI、街景也能精准定位;
推理可解释:每一步定位都有地图验证依据,不是“瞎猜”,结果更可信;
效率兼顾:并行思考+强化学习,既快又准,不用牺牲速度换精度。
现存局限
地图使用还不灵活:不会像人一样通过空间关系(比如“医院在超市东边”)推断方向;
训练数据有限:目前训练样本还不够多,在极端环境(比如沙漠、深海)定位能力较弱;
依赖多模型协作:需要“推理AI+审核AI”配合,单一模型的长程推理能力还有待提升。
五、一句话总结
给大语言-视觉模型配上地图工具和“并行思考”能力,让AI像人一样查地图、多验证,彻底解决了图像地理定位“不准、不泛化、不可信”的痛点,为街景识别、野外导航、图像溯源等场景提供了更靠谱的技术方案。