原文:极测未来|淘宝"千人千面"内容下的智能评测技术与实践 - 2019.08.06
来源:云栖社区 - 淘系技术
作者:淘宝内容导购测试团队
出品:阿里巴巴新零售淘系技术部
1. 背景挑战
全面个性化、内容化的淘宝,构造了基于内容的丰富的导购场景,包括猜你喜欢、有好货、每日好店、必买清单、哇哦视频、微淘、买家秀、头条、洋葱盒子…. 个性化,给消费者带来更精准的货品分发. 内容化为消费者带来更多惊喜和好的体验,“好的商品,应该以更好的形式展现给消费者”.
不同于传统测试业务,导购业务非确定性的输入输出,给质量工作带来的两大挑战,接下来会从这两个方面介绍:
[1] - 用户侧--千人千面导购推荐系统如何评估
[2] - 平台侧--多来源,多类型,高标准下如何高效管控素材质量
2. 个性化评测
2.1. 多维评估体系
推荐系统模型研发过程包含离线特征处理--模型网络设计--离线训练--离线预估--在线部署-- ab 实验--模型优化.
通常的评估手段包含两类:
[1] - 离线预估:从算法模型视角,包含 auc、f1score、precision、recall、NDCG 等指标
[2] - 在线评估:从业务效果视角,包含点击率、转化率、互动率、pv、uv 等指标
以上两类评估手段在用户体验方面存在不足,会产生中长期用户体验诟病,比如买了还推,全域趋同等. 基于此,我们从五个维度定出了对于导购推荐全局评估指标体系:
[1] - 丰富度:包含打散度、多样性、覆盖率等指标,打散度为例,指同一坑位或者同一页面,图片主体,商品主体是否过于同质,是否有更丰富的商品推荐.
[2] - 友好度:包含曝光过滤、购买过滤等指标,买了还推等问题也是用户对电商类推荐系统诟病比较集中的地方. 用户有比较,比价等相关延展性的消费诉求,但相比纯内容推荐,用户对电商类推荐疲劳度会更低.
[3] - 相关度:包含相关性、发现性等指标. 推荐系统普遍基于协同过滤策略,相关性对于短期匹配效率和发现性对于中长期兴趣、货品挖掘,各有优劣,需要整体平衡.
[4] - 可信度:除涉黄、涉政等红线标准,淘宝对于素材是否真实准确描述货品要求极高. 包含标题党,主体糅杂,主体模糊,不完整,切割等.
[5] - 美观度:牛皮藓、构图布局,恶心主体等,比如特写牙齿病,皮肤病等素材不适合在首页、会场等公域场景透出.
2.2. 统计学习评估流程
确定了评估标准,评估流程包含以下几大步骤,通过模型测试集输出推荐结果,利用统计学习方法,进行指标自动计算,各指标相关性分析,进行整体业务评估度量.
为什么采用统计学习方法:
[1] - 更精准的指标刻画:比如推荐商品打散度,服饰和箱包vs服饰和家装,从传统规则(类目、标签等)分类,他们是一样的差异,但运用word2vec,映射到高维向量空间,能更精准地去刻画距离,用于打散度和多样性等指标计算.
[2] - 多维度的全局评估:整体指标好坏是一个非凸优化的问题,各指标间有相互的平衡关系,每一个场景在不同业务阶段,关注的核心指标也会存在差异. 需要通过统计学习的方法,进行相关性分析,因子分析等,在几十个指标基础上形成置信基线的全局评估.
例:下图为某导购场景评测指标相关性矩阵,横纵分别为各评测指标,例如在某一个阶段,A 指标和 X 指标正线性强相关,却和 Y 指标负线性强相关. 需要对评测指标进行综合统计分析,才能对导购系统做出合理性的评估.
2.3. 当前结果
基于5个维度,建立多评测指标计算服务,产出指标合理性置信区间基线,运用于日常导购和大促会场等个性化评测. 在淘宝大促个性化会场,及时发现打散不足、推荐不足、重复推荐、推荐趋同、视觉同图等5类,250+个性化会场问题. 提前优化,第一次评测整体通过率90%,通过多轮轮评测验证,会场上线前整体通过率提升到99%.
3. 素材质量管控
3.1. 淘宝素材质量标准
电商平台素材包含商家商品发布、招商报名、导购选品、达人创作等来源,文本、图像、商品、内容类等类型. 素材质量对于用户体验、增长转化、平台质量都起到重要作用. 而在这其中,图像(图片、视频)作为体验表达的重要媒介,是我们重点管控对象.
电商类业务在素材质量标准上,有以下三个特点(以某会场商品白底图部分基础规范为例):
[1] - 素材信息表达要求准确:避免图片与实物不符,误导用户,包含主体完整,单主体,无模特等要求.
[2] - 高质量图片转化效率更高:feeds流下用户视觉输入的信息量大,精美,布局合理的图片更能脱颖而出,有更好的转化,平台也能提供更好的用户体验,包含牛皮藓、纯白底、无阴影和抠图等.
[3] - 不同场景颗粒度差异:比如商品主图的牛皮藓,在公域会场和性价比营销场景,标准颗粒度不一样(轻微可接受、轻微不可接受).
3.2. 素材质量管控方案
所以素材质量管控方案,需要考虑不同场景检测能力能够快速生成,甚至是能够让业务运营同学参与进来. 基于此,淘宝内容导购质量团队与淘宝基础算法团队合作,基于多任务共享特征网络模型,构建图像质量检测服务方案--水滴. 通过快速图像检测能力生成,解决不同场景劣质素材质量运营的问题,提升素材质量和用户体验.
整体方案:
将模型训练研发过程样本获取,特征处理,构建训练模型网络,参数调优等工作通过共享模型训练和统一平台方式消减. 快速、复用、灵活泛化的多模型产生例:牛皮癣检测模型1,牛皮癣检测模型2,牛皮癣检测模型n…,并通过持续样本调整,构建运营业务标准和建模桥梁.
共享模型策略特点:
[1] - 多任务共享特征提高识别效率:多任务迁移学习网络模型,各个任务共享基础特征,减少基础特征重复计算,提高预测效率;多任务网络模型,各个任务共享基础特征,可以减少深度网络模型对各个任务的训练数据量需求,比如对于牛皮癣、logo、水印等高度相似任务,特征具有高度相似性,可以显著提高各任务识别精度. 但当任务间相似程度不是很⼤情况,会增加模型的拟合难度,为此我们采⽤ CurriculumLearning 训练策略、从简到难逐步进行网络学习,同时模型上也结合半监督正则项,充分利用了海量无标签数据,进一步提高精度.
[2] - 噪声样本识别提高模型精度:循环学习策略识别噪声标签样本,提高训练数据质量,进而提高模型最终识别精度;详见论文 O2U-Net: ASimple Noisy Label Detection Approach for Deep Neural Networks,已被 ICCV (国际计算机视觉大会)采录.
为了提高模型最终精度,深度网络对于训练数据精度要求很高,然而很多图像质量任务都存在边界定义模糊、难标注等问题,导致训练数据往往存在噪声标签,为了解决图像质量数据难标注、噪声问题,我们提出一种噪声标签识别方法:通过采用循环学习策略方法,使得模型反复在 overfifitting 和 underfifitting 之间相互转换,网络在这种学习过程中干净标签样本和噪声标签样本会出现明显的区分性特征,利用这种方法可以帮助我们很快找到那些训练数据集中的噪声标签样本,提高训练数据质量,最终保证模型精度.
工程架构和运转机制:
3.3. 当前结果
建立牛皮癣、多主体、模特衣架、低俗情趣、水印、二维码等 40+ 劣质素材检测模型,提供离在线检测服务,周均 2 亿+服务运行,对导购业务各类商品、内容劣质素材从供给端进行质量检测,卡口治理,累计检测出劣质素材 7500 万+,并下线过滤.
4. 扩展—无线CVT测试
除了用于素材质量整体管控,我们也在思考是否能将视觉技术引入测试领域,构造检测断言,用计算机代替测试人员的眼睛,这样高效,精准(像素级)发现问题,自动回归. 基于此,构造了CVT--基于计算机视觉技术的自动化测试方案并落地实施.
基于feeds流的无线测试通常涉及到这些方面工作:
- 多机多版本下适配测试
- 容灾测试(当服务端或模型产生异常,兜底数据方案是否会正确透出)
- 异常检测(是否出现空窗,白屏,错误提示框等)
- 视觉布局检测(文字截图,重叠,布局留白等,视觉要求像素级标准检测)
- 性能测试(我们需要准确采集各机型毫秒级真实体感的渲染时间、可交互时间等)
通过目标检测、轮廓提取、ocr、以及快速机器学习多任务模型生成能力,全面运用到以上上线前内部的测试工作中.
例:CVT适配自动化测试
例:CVT视觉异常检测(空窗、白屏、错误框、模糊、截断等...)
4.1. 当前结果
覆盖淘系大促会场、导购、二三方小程序、拍卖、阿里众筹等业务场景,运行总任务数5500+个,发现问题近100个,包括视觉还原像素级、空坑、多余留白、文本覆盖、文本截断、服务异常等问题.
5. 总结展望
大数据系统质量评估需要业务、算法、体验目标三位一体综合衡量. 数学思想、统计方法与质量工作结合,很好提升测试效率和科学性. 我们今年会持续在更多质量领域,比如数据质量,素材质量运营,无线测试驱动,去深化演进质量体系,为用户带来极致的体验.