EN

当AI读懂你的目光:明略自研PRE-MAP如何破解个性化视觉注意力的密码

2025-07-15

在数字广告领域,洞察消费者的目光焦点是实现精准传播的关键一步。设想一下,如果广告商能够精准预测不同年龄、不同性别的消费者在广告画面中更倾向于关注哪些细节元素,那么广告创意的优化、投放效果的评估将变得更加科学可控。这不仅能够提升信息传递的效率,还能显著降低营销资源的浪费,帮助品牌方和广告商更科学地实现“精准触达”。

而这正是明略科技最新研究成果《PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction》的未来价值所在。目前,该论文以其理论创新和应用价值,已被全球多媒体技术领域的旗舰会议ACM MM 2025正式接收,并有望为广告测量的智能化发展树立新范式

当AI读懂你的目光:明略自研PRE-MAP如何破解个性化视觉注意力的密码

明略科技集团创始合伙人、总裁兼首席财务官姜平也深度参与了这项开创性研究,并担任论文共同第一作者。

多模态技术的独特价值不止于理论上的创新,更在于它能够让数据与模型成为理解人类行为和认知的桥梁。PRE-MAP正是这种技术应用的典范,通过将用户个性化的视觉关注点精确化,我们让机器真正理解‘是什么样的人在关注哪些信息’,这为信息传播的精准化和个性化创造了新的可能性。更重要的是它能让技术以一种真正理解人类的方式去提升各方面的体验,重塑人机沟通的逻辑。

——明略科技集团创始合伙人、总裁兼首席财务官 姜平

01 现有技术的短板像素瓶颈与个性化盲区

尽管眼动追踪是一个近年来备受关注的研究方向,但传统技术仍存在显著的短板,阻碍了其真正解锁个性化视觉认知的潜力:

● 像素级别的”近视症”

传统模型就像戴着厚眼镜的”近视眼”,通常依赖于低分辨率图像生成注视热图,或通过对低分辨率特征图进行上采样重建,这会导致空间精度下降和明显的方块伪影,造成细节效果大打折扣。即使在高分辨率下训练和推理,最终结果仍需放大至原始尺寸,难以保留细节,影响预测精度。

● “千人一面”的定式

大多数模型默认所有观察者的注视模式相同,忽略了不同个体的差异性,如性别、年龄、经验等。未能有效捕捉广泛人群在视觉注意力分布上的显著差异,限制了模型的泛化能力和个性化预测效果。

● 数据的”营养不良”

大模型的性能高度依赖多样化、大规模、高质量数据的供给。然而,现有注视点预测数据集样本数量有限,尤其是与广告营销相关的数据,缺乏涵盖广泛个体差异的标注数据,限制了AI对复杂人类视觉行为的学习能力。

02 双重革新SPA-ADV数据集与PRE-MAP模型

面对这些挑战,明略科技的研究团队从根本上重新思考问题,并基于——更准确地预测个体在观看视频时的注视点、避免传统方法因分辨率限制导致的细节丢失与预测精度不足,两大研究目标,从数据和技术框架两方面进行了革新,提出了有针对性的解决方法。

当AI读懂你的目光:明略自研PRE-MAP如何破解个性化视觉注意力的密码

▶︎ 新数据集SPA-ADV:视觉行为的百科全书

为了更好解析不同个体在观看视频时的注视差异,研究团队构建了全新的大规模个性化注视行为数据集SPA-ADV。这一数据集涵盖了4500多名不同年龄段、性别的真实用户对486个精选广告视频的细致注视记录,包括眼球运动轨迹以及精确的注视点坐标等真实视觉行为。

SPA-ADV数据集的独特之处在于:

● 广泛捕捉了个体属性(如性别、年龄)的显著影响,为大规模个性化注视行为的建模和分析奠定基础,一定程度上解决了模型训练中存在主观偏差与推广能力不足的问题。

● 数据规模空前大,为个性化显著性建模提供了高质量的基准数据支持。

当AI读懂你的目光:明略自研PRE-MAP如何破解个性化视觉注意力的密码

▶︎ 自研PRE-MAP模型:个性化视觉预测引擎

基于数据集,明略科技进一步研发了PRE-MAP创新AI预测模型,通过两大关键模块,实现个性化视觉注视点的高精度预测:

● 多属性点式注意力建模(Multi-Attribute Point-Based Attention)

传统模型类似“油画笔”,无法精准勾勒个体注视点,生成的注视热图较为模糊。而PRE-MAP则像是一支“激光笔”,能在全高清画面中精确定位注视点。

PRE-MAP通过融合用户属性(如性别、年龄)与视频语义内容,引导模型在高分辨率视频帧上直接预测个性化注视点,提升预测的针对性与分辨率保真度。例如,当输入”35岁女性观看化妆品广告”时,PRE-MAP会结合这位用户可能具有的视觉偏好和广告中的视觉元素,直接预测出她最可能关注的精确位置,而非笼统的区域。

● Consistency Group Relative Policy Optimization(C-GRPO)

由于注视点预测是一个结构化输出任务,如何确保预测结果的空间一致性与格式规范至关重要,深刻影响可视化与后续应用。

PRE-MAP在训练过程中引入了一种基于强化学习的优化机制——Consistency Group Relative Policy Optimization(C-GRPO),通过对预测点的空间一致性与格式规范进行策略约束,进一步增强个性化注视点预测的可控性与精度。

当AI读懂你的目光:明略自研PRE-MAP如何破解个性化视觉注意力的密码

根据论文中的实验结果,PRE-MAP的表现得到了充分验证。与传统模型(如SUM和Transalnet)相比,PRE-MAP在多个维度上的表现远超业内平均水平,使用PRE-MAP预测的注视点分布精准、边缘高度吻合人眼的真实注视位置。

03 解码视觉重塑人机沟通的未来图景

纵观数智技术的发展历程,技术价值的体现从不止于数据的数量或算法的复杂性;真正的突破在于,能否通过数据洞察与模型演进,为人类行为和认知打开更深层的理解窗口。

PRE-MAP研究正是对这一理念的实践,它通过多模态技术的创新探索,实现让AI深度剖析人类视觉行为,从“笼统理解人们在看什么”走向“精确预测什么样的人在看哪里”,帮助广告行业从粗放式传播迈向尊重个体差异的精准沟通,赋能AI更好地理解‘人’,并与‘人协作。

从2024年通过超图多模态大型语言模型(HMLLM)理解人类主观反应,到今年研发PRE-MAP模型预测个性化视觉注视点,明略科技正逐步构建起一套全面理解人类认知的底层技术体系。相信未来,这一体系将引领广告数智化发展的新航向,并为人机协作描绘一幅互联、智能、共赢的未来图景。

信息填写

*手机号码:

请选协议