原文:千人千面、个性化推荐:解读数据赋能商家背后的AI技术 - 2016.12.13

作者:魏虎,阿里巴巴集团商家事业部技术总监,目前的主要工作是通过大数据和人工智能相关技术提升阿里商家的效能,从而为商家赋能.
责编:钱曙光,关注架构和算法领域

1. 背景介绍

1.1. 大数据

大数据主要有四个特征:Volume(大量)、Value(价值)、Velocity(速度)、Variety(多样).

[1] - Volume(大量):互联网实时采集用户的各种行为,数据量庞大;

[2] - Variety(多样):数据格式发生了翻天覆地的变化,数据类型的多样性也是大数据的特点;

[3] - Velocity(速度):信息采集速度为秒级或毫秒级;

[4] - Value(价值):海量数据中存在很多金矿,价值密度低,须通过不同类型的数据挖掘才能完整刻画用户,产生价值.

1.2. 人工智能

通用人工智能(General AI)概念,指拥有人类五感(视觉、听觉、嗅觉、触觉、味觉、甚至更多)、推理能力以及人类思维方式的神奇机器;
弱人工智能(Narrow AI):执行特定任务的水平与人类相当,甚至超越人类的技术.

上世纪50年代,人工智能的概念就已提出,人工智能的发展也经历了坎坷的阶段;上世纪80年代,机器学习开始兴起,开始用模型、算法和数据组成软件部分;随着处理能力的提升和海量数据的累积,2010年以后,深度学习火热起来,它源自于人工神经网络,深度学习的发展也得益于算法模型的优化,自动学习特征.

人工智能的核心点由大数据、处理能力、数据模型组成. 人工智能给我们带来了四大方向:

[1] - 发现:通过人工智能可以发现一些有价值的数据,比如发现一些用户的购买行为,经常购买搭配的组合套餐;

[2] - 预测:可以对用户进行预测,预测购买哪些商品,购买概率是多少;

[3] - 推荐:预测后就要推荐,通过各种推荐技术,比如猜你喜欢进行推荐;

[4] - 自动化:了解用户定期购买什么商品,自动化的定期进行推荐.

2. 客户运营平台

CRM:企业为提高核心竞争力,利用相应的信息技术以及互联网技术来协调企业与顾客间在销售、营销和服务上的交互,从而提升其管理方式,向客户提供创新式的个性化客户交互和服务过程. 其最终目标是吸引新客户、保留老客户以及将已有客户转为忠实客户,增加市场份额.

客户运营平台来自于CRM,是为阿里商家打造的数据驱动的客户精细化运营平台,商家可以对自己的客户进行洞察和分群,同时可以针对自己的客户在各个沟通的通道上(店铺首页、详情、微淘、旺旺等)进行千人千面的沟通和表达. 客户运营平台承载着从流量运营到客户精细化运营的使命.

2.1. 个性化店铺首页

页面级千人千面,通过面向不同的客户人群投放不同的个性化店铺首页来提升转化效果. 面向消费者部分,我们需要做实时偏好算法分群. 因为是需要卖家参与设计对应人群的页面,所以不同商家效果有区别,做得好的商家,成交转化率能有50%的提升;面向商家部分,我们不仅仅是做一个工具,包括人群细分(年龄、性别)、个性化页面选择(属性偏好)、策略诊断(匹配度)、选品助手、效果跟踪,背后都是AI在支持.

谈到实时分群算法,它的分群方法是基于实时商品分组、品类等维度定义标签,算法实时预测匹配分群,实时分群策略可与普通标签交叉使用,实时分群策略还可以透视. 算法体系包括行业级别的模型,GBDT在线预测,长期+近期+实时偏好相结合,还引入了增强学习方法,根据实时的累积受益来调整偏好阈值.

图中从上到下分为离线、近线、在线算法. 离线部分有离线特征计算,我们用了用户、搜索、浏览、加购、支付等,离线算法也应用很多,包括普通的LR、SimRank、图计算以及深度学习等,我们都做了很多尝试,并且取得了一些成果,最后通过模型库训练产生一些结果;离线部分可能一天算一次,而近线部分是分钟级或小时级,包括流计算引擎,实时接收各种浏览加购行为,实时计算用户特征;在线部分需要给用户展示商品,商家需要设置模块,在线部分我们也引入了投放策略,通过增强学习动态调整每个店铺用户的偏好阈值. 整个个性化店铺首页背后技术由离线、近线和在线三套架构来支撑人群分群策略.

2.2. 双11店铺承接页

店铺承接页包括三个模块. “所见即所得”,根据用户个性化进行推荐;楼层商品的个性化排序,商家可以参与选择;猜你喜欢瀑布流完全由算法帮助实现个性化推荐. 对比有AI支撑承接页和没有AI能力的承接页,人均成交率提高20%以上.

2.2.1. Match框架

Match框架分为基础日志、训练数据构造、Match算法引起三部分:

基础日志:日志抽取解析和数据清洗;

训练数据构造:生成用户序列,商品用户关系图,进行rank i2i样本构造,样本去躁以及特征工程.

Match算法引擎:主要分为Online和Offline两部分,具体类别主要包含:基于节点关系,基于Hash,基于Learning,基于热度,基于属性匹配,基于流式计算的Match数据. 以上数据,可以在不同层次满足数据Match召回方式,具有极强的覆盖率和准确性.

2.2.2. Rank框架

Rank框架主要分为样本、特征、模型三个点:

样本:通过预处理、去噪得到干净的训练数据,根据不同样本的策略训练效果最好的模型.

特征:千万级的ID类特征,包括用户、商品基础特征及相互组合特征;场景反馈类特征如ctr、cvr等;实时特征如召回类型、召回分数以及用户类目、价格偏好等;业务类特征如会场类目信息、承接页页面信息,大促商品折扣率,商品加购率等.

模型:通过PS版的LR、PAI平台的DNN训练天级及小时级模型,做到模型的准实时;并在线上通过融合CTR、CVR模型,做到线上效果最佳.

2.3. 旺铺个性化模块

商家可以通过场景化商品池实现多样化的营销需求,只要选择商品库,其余都可交给AI来做. 这样,消费者端千人千面投放可实现高速转化,整个模块点击率平均提升20%,成交转化率提升超过40%,千次展现支付金额提升超过50%.

2.4. 智能海报

通过素材生产能力与千人千面技术结合,提升店铺、详情等场景banner投放效果.

背后的技术就是图像技术与个性化投放的结合,商家可以自动选模板将商品放进去, 自动生成海报.

2.5. 详情个性化

我们提供给商家易于运营的详情个性化访客运营工具,提升转化效果和客单价. 我们给予商家自主权,可以自主选择在详情推荐模块放哪些商品. 在商家端,操作成本低、可以批量覆盖多款商品,“一键升级”直接覆盖最多100款商品,并支持高阶配置(商品池、加权商品池);在消费者端,基于当前用户、当前商品的个性化投放,商家配置的加权商品能够获得曝光保障. 详情个性化很好地将商家的确定性和个性化融合起来.

2.6. 粉丝&会员运营算法

我们提供对粉丝/会员的深入洞察,进行分群剖析. 我们也提供一些场景化的能力,比如粉丝个性化营销算法,提供高购买潜力粉丝、预流失粉丝等;对于会员个性化营销算法,提供预复购会员、预流失会员等人群;对于前端投放算法体系,提供投放时机算法和人群权益匹配算法,根据预测模型预测概率值.

2.7. 千牛头条

千牛头条定位于面向B端商家的电商媒体门户,旨在引入媒体、小二、服务商帮助商家紧跟行业动态、官方规则变化,以及实时的直播内容.

通过AI能力赋能千牛头条. 资讯在千牛头条中很重要,实施个性化后,整个频道页个性化点击率有了很大提升,也提升了单个用户的资讯消耗率.

千牛头条的算法架构也分成离线、近线和在线. 离线部分,对用户进行分层,抽取行业特征,包括店铺规模、关键词等等,对商家做360度的刻画,此外,离线部分还有各种帖子质量的打分模型,通过大规模的离线计算得出商家对哪些帖子感兴趣;近线部分个性周期更加快,可以对帖子进行自然语言处理,包括关键词提取、环境信息提取等,还要建立索引,对帖子进行相似度的计算;在线部分是一个流程,商家过来一个请求,我们会拿到商家的profile,生成一个query,到实时检索引擎中进行召回,去重过滤,在模型里我们也做了如图创新,每一篇帖子训练一个模型,接着后处理带有一些运营规则,包括多样性的处理,最后推荐给用户.

2.8. 服务市场

我们推出的主要面向商家,为其提供店铺、订单、营销管理等软件工具以及运营、客服外包、摄影等服务为一体的运营平台,是阿里生态体系的重要组成部分. 很多服务商与我们一起为商家提供工具,通过AI能力进行赋能,使服务市场效果有显著提升.

数据赋能服务市场搜索,解决商家在服务市场“搜什么”、“搜不到”、“搜不准”、“搜不好”的体验问题. 使之达到更精准的搜索体验、更高效的平台导购、更多优秀服务得到曝光. 采用基于前沿的NLP技术的Query理解,基于语义的检索,也有数据驱动的自适应模型优化,个性化排序模型优化,还有实时个性化技术,热搜词挖掘、引导价值分析等. 通过AI能力使搜索点击率增加25%,跳失率降低16%,付费转化提升20%.

搜索之后就是个性化推荐技术,包括首页、结果页、详情页、付款、购后整个商家的服务市场流程中,进行深入分析和挖掘用户订购行为,尝试前沿AI算法,提升推荐精准性;深入挖掘优质的服务和服务商,为用户推荐优质服务;深化服务市场个性化导购,进一步提升用户订购体验和效率. 我们做了一些导购场景布点,主要技术与推荐相关,包括用户商家的实时意图分析等,使服务市场的商家更容易搜到想要的服务.

2.9. 智能客服

我们制定了智能客服的全新接待模式,消费者通过聊天窗口与客服沟通时,推荐消费者可能问的问题,并给出相应答案,大大节省了客服工作量.

智能客服管理团队,实时分析消费者和客服之间聊天记录,实时做语义分析,帮助监控客服效率,机器可以自动挖掘好的问答对.

智能客服背后的算法,从下往上,第一层基础数据,我们会对聊天记录、店铺、商品和评价等底料进行挖掘;第二层是AI算法,包括自然语言处理、在线学习、深度学习等;第三层是知识沉淀,包括知识库、知识图谱、绩效指标体系等;第四层是公共服务,提供意图识别、多轮交互、情感分析等;第五层是业务,包括智能搜索、智能绩效、热点挖掘等. 通过AI能力,我们的目标是提升店铺销售额,降低运营成本,提升服务体验.

3. 总结

通过这些技术的深入理解,在各个产品的功能里升级,在毛细血管中融入AI能力,可以更好的赋能商家,提升效率.

Last modification:November 30th, 2019 at 10:10 am