地理搜索端到端优化方案
01整体介绍
核心问题
地理位置搜索的特殊性在哪里?当用户搜索"附近咖啡店"时,30公里外评分最高的店铺毫无意义;而"吃饭"在CBD和住宅区的期望完全不同。这类场景暴露出传统搜索的局限——空间约束的刚性、地理上下文的耦合性、以及相关性、距离、质量等多因素的综合权衡,都在挑战着现有的技术框架。
更深层的问题在于:传统架构中召回追求覆盖率最大化,排序追求质量最优,两者目标天然错位。召回阶段误筛的优质候选,排序能力再强也无从挽回。
技术路线:端到端协同
解决方案的核心思路是打通全链路优化目标。具体实现包含三个关键机制:
- 统一表征:召回和排序共享同一预训练模型,确保语义理解的一致性
- 反向蒸馏:将排序阶段的偏好判断传递给召回,从源头提升候选质量
- 空间内建:将地理信息编码为可学习表征,贯穿预训练、召回、排序全流程
02预训练与地理知识学习
预训练:注入地理基因
通用预训练模型缺乏空间感知能力,需要进行领域自适应。数据层面整合三类来源:搜索日志编码了Query-POI的匹配知识;POI文本提供实体语义;用户行为信号(点击、导航、收藏)形成监督标签。
S2空间编码体系
S2 Geometry基于Hilbert曲线将地球划分为多层级Cell网格,每个Cell对应唯一64位ID。关键优势在于:
- 层级递进:从城市级(Level 12)到米级(Level 20)灵活切换
- 空间局部性:地理位置相近的点,Cell ID数值也趋于接近
预训练阶段将POI坐标转为S2 Cell ID,经Embedding映射后与文本表征融合,使模型建立空间与语义的对应关系——例如CBD区域的S2 Cell与写字楼、商务餐厅高度关联。
多任务训练框架
设计三类预训练任务:
- MLM任务:学习搜索场景特有语言模式
- Query-POI匹配:建模搜索相关性,正样本来自用户行为,负样本通过难负例挖掘
- Pairwise排序:对比式训练,学习候选间的优劣关系
召回层:语义与空间的融合
召回质量决定排序上限。核心通道采用双塔架构:Query塔和POI塔独立编码,POI向量离线预计算并构建ANN索引,线上仅需实时计算Query向量即可完成检索。
空间感知的三层实现
表征融合:POI塔输入中引入S2 Cell Embedding,与文本表征深度融合,使语义相近且空间相邻的POI在向量空间自然聚簇。
训练策略:引入距离作为动态调节信号,根据Query的地理意图强度自适应调整空间权重。同时构造"语义相似但空间疏远"的对抗性难负样本,迫使模型区分语义与空间的关系。
粒度选择:过细粒度导致Embedding稀疏,过粗粒度丧失空间区分力。最终选定能区分"同街区"与"隔数街区"的层级。
分距离段多队列
不同距离范围的需求差异显著。近距离队列侧重精准匹配,远距离队列以语义主导,全距离队列覆盖长尾多样性。各队列结果通过优先级融合策略合并。
与排序的协同
知识蒸馏:召回模型学习预测精排模型的打分结果,使两个阶段的"品味"对齐
难负样本回流:排序阶段识别的"语义相似但不相关"样本,回流至召回训练集,降低噪声召回
排序层:多维信号融合
采用粗排-精排-重排三级架构,层层筛选精细化打分。
四维信号体系
相关性:多档语义匹配评估,引入品类对应、地理包含等专项维度
距离:动态合理阈值——高热度POI的距离容忍度更高;区域限定型查询锚点切换至指定区域
质量:多源信号综合判定,品类校准避免跨类评估偏差
需求满足:端到端用户体验视角的整体判断
训练方法
多目标联合训练:融合Pairwise、Pointwise、Listwise三类损失函数
LLM辅助优化:结构化Prompt驱动大模型进行多维度评估;大模型Listwise排序偏好蒸馏至在线模型;领域微调形成"微调-标注-蒸馏"闭环
动态权重融合:依据Query意图分类动态调整各维度权重
空间特征深度应用
模型融入S2网格编码、精确距离、分箱距离、品类历史距离分布等多层次特征,通过Transformer实现空间与语义的联合推理——"附近咖啡店"会弱化远距离POI,而"全聚德烤鸭"则以品牌匹配为主导。
05数据飞轮与持续迭代
数据飞轮:智能化标注
构建"数据-模型-数据"的正向循环,大语言模型贯穿标注流程。
标注体系设计
结构化Prompt:每个维度设计专用模板,输出JSON格式便于自动化解析
质量控制:置信度过滤、人工抽检(目标>85%一致率)、交叉验证
问题回流:发现的问题样本优化Prompt或补充训练数据
协同演进机制
高质量标注数据发挥双重作用:直接用于排序模型微调;用于大模型领域微调提升标注一致性,形成正向循环。
06总结与展望
方案总结
未来方向
生成式搜索:基于大语言模型的生成式检索,可能改变传统范式
多模态融合:将图片、视频融入POI表征和匹配过程
实时个性化:基于即时行为序列和上下文动态调整策略
空间智能增强:路网距离、交通可达性、商圈热力等更精细的空间建模
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)