采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
项目中应该是初始导入的,实际场景下是基于某个表中的数据离线跑出来的吧?应该是哪张表呢?
同学你好,是应该初始化时导入的,数据忘记上传了,稍后会补上去,祝学习愉快!
我的问题是想问这张表存的是用户行为标签的聚合统计信息,有个字段是item_id,标签信息Map的key是标签id,value是被标注次数,所以表中的记录应该是对商品发生某种行为后被打上了某种标签时写入的吧,也可能是某个时间点跑定时任务做离线统计,能具体讲讲思路么? 另外,为什么同一个行为标签会被重复打,可否举个例子?
用户行为有浏览某个商品行为,收藏,加入购物车,这些浏览,收藏,加购就是用户的行为标签,行为标签被重复打这个很好理解,举个例子,用户会多次的浏览某一件商品,或者某个品类的商品,那是不是可以判断这个用户潜在对这个商品是有意的,如果这个用户迟迟不下单,可能是价格问题,那是不是可以给这个用户打上潜在客户,价格敏感这样的标签。所以,这里的行为标签的次数很重要,可以挖掘出用户消费的心理倾向,当然,除了次数之外,还有时间的跨度,例如浏览商品停留的时长等等,然后再加上不同行为的权重,时间衰减等等,就可以挖掘用户购物偏好。这是我的思路。
还有一点是,不同类别的标签是放在各自类别的标签表,例如有消费类别的标签表,用户属性类别的标签表,行为类别的标签表,每个类别的标签表都各自有流水表和聚合表两张表,以用户行为标签类别为例,有行为标签流水表和行为标签聚合表,行为标签聚合表的数据就是通过流水表统计得到的,流水表的数据就是通过提取行为日志里的数据生成的。
登录后可查看更多问答,登录/注册
大数据主流技术,数据挖掘核心算法,用户画像完整知识轻松掌握
886 12
363 10
933 8
804 7
229 6