2019用户画像和精准化平台系统实践报告.pptx
2019用户画像和精准化平台系统实践报告,大纲目录,平台总体介绍用户标签画像和标签体系基于画像的相关系统和投放 实时画像画像系统的优化和改造,数据 = 算法 = 业务,blank.potx,推荐广告投放 个性化搜索 选品 BI 报表供应链优化 智能定价 精准化营销优化购物路径,结合其他数据:竞争对手数据 ( 爬虫 ) 、 商品信息、用户注册信息,机器学习、NLP 等算法,推荐产品架构,全面深挖用户 购物兴趣,短期兴趣 转化率,潜在兴趣,高转化率精准定位用户短期兴趣 用于首页栏位、站外广告EDM 及 APP 营销投放,用户意图引擎,情境推荐引擎定位特定类目购物 情境公历农历的季度、月和周、 中西节日、当地气温变化、 当地天气、外出、旅游,反向推荐引擎定位复购时间点定位复购时间点覆盖 74 个高复购率类目将用户划分成新客、成长期、衰退期、流失期多个阶段,投放不同的类目及负毛利 营销品,用户画像引擎长期累积的兴趣图谱,千人千面引擎用户群体兴趣,1 亿 userID, 5 亿 GUID覆盖 8 千万左右用户每个用户的类目、品牌、导购属性兴趣偏好购买力 level 、同学 (985,文科 )男 / 女、地域、同事、邻居、同行、好友群、辣妈、孕妇、新 / 老客,转化率 交叉销售,精准定位购物兴趣 发生的时机,拉升销量和用户转化率,拉升交叉销售 GMV,CF 推荐引擎相似用户兴趣 协同过滤算法挖掘 相似用户兴趣,交叉销售,转化率 长期累积兴趣 交叉销售,推什么?,什么时间推?,个性化 推荐,提升精准化营销效率,主题推荐,用户行为兴趣根据评论、标题给商品和用 户打标签形成场景词形成主题场景聚合 SKU,合适的场景 交叉销售,购物周期,转换率,最近热点,交叉销售,用户场景,业务意图,算法短期意图 长期画像 协同过滤 关联规则 周期购,款,刚需爆款 冲动性爆主题推荐,页,弱目的性闲逛首页 强目的寻找相关促销或爆款 类目 / 寻找更适合自己的商品搜索 了解同类人群的购买选择 挑选、比较的需求详情 了解同类人群的购买选择,经济节约的诉求对相关商品的潜在购买提醒,trade cross trade intrade in trade in trade intrade in trade in trade cross,逛页,继续 对相关商品的潜在购买提醒,车,凑单免邮的需求购物 对相关商品的潜在购买提醒,占便宜,trade crosstrade up trade cross trade up,订单 一次购物周期结束,顺便看,完成 看有没有其他购物心动点,trade cross,页消息 对于关注的商品、品牌,了 触达 解其有利的动态,trade in,各种栏位场景适用推荐算法,后台系统生成 H5 猜你喜欢,天气维度换季、气温、雨雪、雾霾【覆盖全国 2954 个市、县、区】节日维度农历节日:春节、端午、中秋、节气等 西历节日:元旦、国庆、父亲节、母亲节 大促:双 11 ,双 12 , 12.21 ,店庆【覆盖全年共 50 种各类节日】地域维度大区:东北、华中、华东、华南等 旅游地、城市级别、小区,公司, 小区档次,学校类型,公司类型【覆盖全国 378 个地级市或区】时间维度月份、季节、星期画像和产品维度性别,促销敏感,校园、公司、一贵就赔等推荐数据相似相关产品,类目等,周期购推荐,Right Time 消费周期,9,洗发水: 70 天,大米: 35 天,进口牛奶: 28 天花生油: 58 天不同的家庭有不同的消费周期,对每一个家庭的每一个品类的消费周期进 行预测,进而指导投放,用户画像在通用精准化数据中的位置,相关应用,数据层,产品维度,用户维度,节日,天气等上下 文维度,推荐栏位,选品中心,促销排期,DMP 投放,选人中心,EDM 投放,CMS 生成及投 放,试用品投放,广告投放,产品和用户的索引,推荐基础数据,索引层,团购,新品,D50,自营 一贵.严冬,上海,类目品牌促销品滞销品A 级城市,日均销售额好评率商品索引 (1 千万数据 ),学生,春节中秋日均销量男女DXX,用户索引( 1.4 亿数据),收入,类目偏好,男女学生地域购买力品牌偏好,天气,商城敏感好评敏感,新品偏好公司,服务层,用户意图引擎,用户画像,相似相关推荐,公司小区群体推荐,周期购,千人千面推荐,用户生命周期推荐,用户情景推荐,混合推荐配置模块,A/B Test,实体店附近人 群分析,线上线下积分 促销选品,模板管理( H5 、邮件、CMS 、 SMS 等),精准化架构,精准化通用架构数据流,关联规则(如下进化),通用架构选品索引,选品中心,推荐通用架构,情景推荐等栏位,EDM 投放,相似、相关等推荐数据,内存中的 FPG(mahout0.7 ,三元 ),分布式的 PFP(mahout0.8 ,多元 ),分布式的 PFP(spark ,多元 ),订单、浏览数据,天气、节日等上 下文,用户画像,促销排期等产品,选人中心,基于情景的促销排期系统,用户标签画像,42248,42249,42250,42251,4225,2,0,0.05,0.15,0.01.08,0.07,0.1,0.08,0.08,0.05,0.05,0.05,0.04,0.05,人群细分推荐,普通推荐,公司、小区、校园标签:,完整的地址处理系统包含三部分:,地址结构化命名实体识别公司名识别模型的 F1 值(提高到 80.6% )地址匹配校园、小区千人千面引擎优化上线人群细分推荐转化效果分析,从百度地图 POI 库中抓取城市的 所有公司名和学校名,对其分词, 人工编写规则对分词结果进行处理,转化为一个角色标注序列收集所有的词语和角色,得到一 个角色词典,并对角色去除后缀训 练对应的 NGram 模型收集所有的角色标注序列中的角 色序列,制定为一个规则集对于输入的一个订单地址,先使 用角色词典标注,然后使用相应后 缀的 NGram 进行召回,得到一个角 色标注序列。对一个角色标注序列,满足上述规则集的就是一个命名 实体。,命名实体识别之角色标注,输入小区地址库和结 构化订单地址,输出 这些地址与小区的对 应关系,匹配小区的地址库形成画像标签,选人中心,基于用户画像的选人中心,Right Time 天气、气温(内测中),18,0-23-45-67-910+,根据用户所在的天气、温度感受、紫外线强度等条件,进行实时投放天气温度感受紫外线强度,目前正在内部投放测试中,DMP,19,选人的投放渠道,20,精准人群,21,精准人群 1.0 :用户统计学画像,例如:“一线城市、家庭消费能力中上、白领、男性、 26-40 岁”,精准人群 2.0 :用户行为例如:“在 1 号店购买过男性高端洗发水的人群”,精准人群 3.0 :消费态度例如:“在 1 号店购买过男性高端洗发水的人群,并且他们乐于尝试某几个品牌下的新产品”,Right People : 1.0 VS 2.0,22,精准人群 1.0 :用户统计学画像,VS,精准人群 2.0 :基于用户行为,测试活动 1 : 测试活动 2 : 测试活动 3 :,ROI 后者为前者的 57 倍ROI 后者为前者的 75 倍ROI 后者为前者的 90 倍,结论:基于用户行为定向( Behavior Targeting )的精准度远远超 越基于用户画像,实时用户意图: Storm Topology,TrackerKafkaSpout,TrackAnalysisBolt,OrderSpout,Jumper( 自主研发 ),ActionBuildBolt,IntentComputeBolt,RecommenderBol,UserID fieldsGrouping,综合各个意图推 荐商品列表 ;实际中得排除相 关类目 (Jumper),订单,浏览、搜索、收藏等,思考:为什么订单不用 Kafka?,意图计算过程,消息消费可靠性回顾,实时框架比较,自主研发 Jumper,变 化最明显,用 jumper ;加车,浏览相对没那么实时,用 Kafka ;并且通过Jumper 把实时推荐的商品列表推送到前端,用户画像数据流,MR1: 抽取 useraction 、产品基 因关联信息,MR2: 合并用户、产品信息,Data Processor PipeLine,MR3: 规则运算,USER EXPLICIT PROFILE RULE,匹配规则,开始数据流 处理,HBASE,运算结果写 入 hbase,3,4,HIVE:Data Bus,User action,User stat,User_id, gu_id merge,Merged user info,规则计算方式:sigmod 是 logistic 的特殊形式 ,利 用线性加权、衰减函数、 logisitic 函数统计出用户对标签的兴趣值, 在此基础上利用信息增益率评估用 户对标签的关注程度利用线性加权、衰减函数、 logisitic 函数统计出用户对标 签的兴趣值,在此基础上利用信息 增益率评估用户对标签的关注程度,怎么做到的用户偏好画像权重算法的不断迭代优化引入 Storm 等实时技术主题推荐标签、用户命名实体等新增标签补充进画像HBase 的离线和在线分离、 Hbase 的 KV 读和 Solr 的批量读分离性能不断优化数据存储改进,画像系统的优化和改造,画像系统的流程,用户偏好类目的分布:,画像模型优化 3,主题推荐标签,主题和标签的映射关系:,使用标签表中的关键词列表,结合商品的评论、标题数据给商品打标签。 商品打标签公式为:用户打标签公式为:,黄牛小号判别得分注册异常用 户判别得分积分获取异 常用户得分,跨区域购买用户日用品周期购买顾客价值得分促销敏感辣妈、丽人,注册用户转新客PC 转移动类目半新客转化流失得分,果粉吃货高品质生活家庭日用品手机数码达人礼物礼券,家庭用户学生公司白领中老人顾客职业的 行业,性别母婴年龄预测顾客消费层级顾客年龄地域气候,饼干 / 糕点,三高人群瘦身减脂独爱花香香甜鲜咸,茶叶,清热解暑,补血益气,清肝明目呵护女性健胃消食,用户画像标签,流行首饰,恋恋深情卡通图案平安乔迁金饰,女装,甜美文艺职业通勤个性街头妩媚性感气质名媛,身体护理,抗敏感滋润型中草药清香型防晒隔离,公共,儿时回忆懒人必备便携旅游送礼必备宴会待客,基本特征,社会身份,顾客用户生命周期,风险控制,购物属性,类目偏好,类目标签(主题推荐),标签系统,连接所有数据,Why Tag is the best choice?为什么标签系统是最好选择Tag 是信息与信息间的相关性的体现。一件事物,它有不同的属性,一个属 性,它能被标注在不同事物上。这让我们有能力把不同的事物联系起来。而 这,单凭原来的单一的“标题”模式是很难做到的。Tags may be a bottom-up type of classification, compared to hierarchies, which are top-down. In a traditional hierarchical system (taxonomy), the designer sets out a limited number of terms to use for classification, and there is one correct way to classify each item. In a tagging system, there are an unlimited number of ways to classify an item, and there is no wrong choice. Instead of belonging to one category, an item may have several different tags.,The advantage of tag system1 号店使用 tag 系统的优势,A flat information index system Provide super flexibility of key tag edit ,reorganize and reuse,A index method can representevery kind of information , especially For item that lack of information,Both can use by user and site operator,easy to adapt with search engine and Recommend system,高度灵活的系统,非常便利的编辑 重组和复用能力,可以跨内容形式的表达不同内容并连接 内容,特别是对于非文字类内容的信息 表述,用户和网站管理人员都可以使用,对搜 索引擎和推荐系统都非常容易接入,标签体系构建,商品基础标签词品牌 类目 属性 关键词 评论 商品特征,场景标签场景货架 导购文章 主题选品 主题营销 ,高级聚合标签社会化聚类 热点聚类 活动聚类 季节性聚类,用户标签人群聚类 爱好 消费行为 特定偏好,主题推荐架构,用户命名实体识别的标签,42248,42249,42250,42251,42252,0.050,0.15,0.01.08,0.07,0.1,0.08,0.08,4.96%,4.59%,4.52%,4.43%,4.59%,人群细分推荐,普通推荐,公司、小区、校园标签:,完整的地址处理系统包含三部分:,地址结构化命名实体识别公司名识别模型的 F1 值(提高到 80.6% )地址匹配校园、小区千人千面引擎优化上线人群细分推荐转化效果分析,应用,索引,画像基础数据 ( HBase ),Key 查询,批量查询,Solr 解决批处理选人,调优相关表,提高读写性能,根据画像表每一台机器的热点,迁移或者切分,调优相关表,提高读写性能,监控数据表 compaction,老集群1,老集群2,离线表,离线表,在线集群,在线表,在线表,离线服务离线集群,在线服务,离线,在线,生成 Hfile源文件,Hfile,HBase 的离线和在线分离,HBase 的离线和在线分离,And,曾经还尝试过什么但失败了 / 放弃了 ?,实时画像和离线画像融合,实时的权重融合进离线画像,最后权重算法过重,最终选择 实时和离线画像分开。中间过程全部采用 HBase 存储,未来想做:,使用 HBase 镜像双集群Apache Ignite+ HBASE :提高在线服务集群的稳定性和速度,案例 ROI 分析,画像系统使得公司广告投放 ROI 提升 3% ;实时画像(意图)对猜你喜欢栏位的贡献占比 60% 多 首页大轮播的 GMV 提升千分之三;应用到首页猜你喜欢、团购、闪购、搜索、推荐、营销等栏位或者产品;了解受众群体的变迁,适时推出适合的产品;降低自营商品的采购数量,指导了厂商优化产品结构;栏位覆盖率统计( 11.0211.08 ):,用户画像在大数据营销中的应用,捕捉到用户画像标签属性的变迁调整新品,无硅油 去屑,用户偏好画像的标签 是通过用户的搜索、 浏览、购买等所有的 站内行为计算而来, 针对标签的监控,可 以体现用户的喜好和 关注度的迁移变化。,根据画像的校园和偏好标 签做营销:男生买女性用品销量 = 暖男排行零食销量 = 吃货排行 化妆品销量 = 颜值排行单反等销量 = 潮人排行安全套销量 = 性福排行;等等。,46,洗发水,“ 无硅油”关键词洞察,THANKS,