月11日,淘宝大学百年讲师味道班开班。淘大邀请了阿里集团近期最热门的部门:o2o,数据,无线,来为淘宝大学老师做业务分享和交流。数据技术及产品部资深数据挖掘专家闵万里(山景)从大数据概念入手,讲述阿里集团众多数据模型的幕后故事。
大家好,今天我主要想跟大家分享一下阿里平台的数据化运营过程。比如卖家报名聚划算,但并不了解商品审核的原理及背后的数据逻辑。而平台为筛选到优秀的商品,也需要通过数据和统计模型对商品做出销量预测的评分。
在开始今天的干货讲解之前,我们先来聊一聊近期火热的“大数据”战略。
首先,我个人很反感炒作概念,因为任何数据模型都有其局限性,无论如何,我们都应该带着批判的眼光去看数据。尽管信息技术革命给大数据带来了非常好的基础,但也避免不了数据报告的滞后性,同一份数据在不同业务场景下的价值可能大相径庭,大数据要结合实际的需求才能发挥其最大的价值。
中国互联网自从2000年以来历经许多炒作的概念,像千年虫,IBM的智慧城市,物联网等。物联网就是由很多个传感器在一起收集信息,用于发现城市的每个角落在发生的事情,需要非常大的硬件投入。这个概念在西方都还算不上火热,所以在当时的中国互联网环境下的确很难做成功。
而今天我们再回头看一看大数据,其实根源就是物联网,只是那些传感器变得更普及,包括我们的手机,无线路由器,LBS技术等等。数据通过互联网在流动,促进了信息的爆炸,所以在2008年,大数据的概念有了爆发式的普及传播,是有原因的。
今天我们浏览任何一个网页,都有“一键分享”的功能,是想要让大家把信息分享出去,但是上世纪90年代的网页会有一句串词“Copyright 1997. Do not redistribute.”。观念的转变迅速带来了信息的爆炸,信息爆炸导致了大数据的原形爆发。
我们回到大数据战略本身,如何抽取有用信息就成了最具有挑战性的课题。Google做到了,所以它成功的,Facebook也是这样成功的,他们甚至有专门的人从数据中挖掘新闻热点供给大家讨论。最典型的数据挖掘实例,就是在2008年和2012年,奥巴马团队两次挖掘Facebook上面的最新热点议题、做出了精准的选民广告投放。
在商言商,如果我们在商业环境中运用好大数据,确实可以颠覆我们的内需。这也就是为什么在新的领域,比如在航旅、金融、医药健康领域中,阿里作为新兴势力可以跟行业老大叫板的原因。因为我们掌控了非常精准的渠道和发现机制,知道某人一个月以后要去某地旅游,就在合适的时间把机票促销信息推送给他。
阿里集团在2008年的时候,就确定了要成为一家数据公司,和建立一个云计算平台的战略。 今天我们如果再做广告,就可以把早期在CPM以及CPC模式下,那些身份不明的点击来源搞清楚。
现在的互联网广告已经从买流量变成买人群了,大数据把营销过程中的消费人群给盘活了。
而在阿里运营小二早期的数据化决策中,小二可能看着表格,或者凭借运营经验筛选商品,市场变化也没法及时纳入到他们的思维思考中去。所以平台也是迫切的需要数据化产品来提高人效和选品效果。
如今像天猫APP首页上的聚划算、心水、品味男人和美丽女人等几个版块的选品,都借助了基于大数据的统计模型。这个模型收集了商品的许多信息,包括点击、收藏、购买、好评率等商品信息,以及微博上的商品周边。假如这个包是某个明星代言的,刚好最近这个明星的新闻热度很高,就可能获得比较高的权重。
数据化运营的另外一个核心目的就是定价,帮助卖家找到最合理的价格带。由于商品价格对于销量的影响非常大,而且不同的商品展现位置,价格排列逻辑也是不同的,小二同时还要兼顾整个销量的最大化。
我们目前有的一个产品——生意参谋,就是服务于卖家 端,帮助卖家找到当前合理的 营销策略(选品,定价)。
接下来我跟大家聊一下大数据运营过程中圈人的案例,即广告投放时的标本选择。
假设现在有几个标准:25~30岁,高等教育,白领职业。我们会遇到几个棘手的问题,包括选人标签的确定原则,哪个标签权重更高等等。
固有的广告投放后台,勾选标准是非常固化的,而实际上卖家需要更大的自由度,我们不仅要考虑人群样本描述标准,还要考虑投放渠道。广告主一定是需要全方位的消费者样貌解读。
我们的数据模型,跟传统模型相比的最大区别,就在于标签可以被全新的造出来。比如固化的25~30岁年龄层,可以被优化为25~27岁和27~30岁两档,年龄、教育程度、性别等等的重要性也有区分。不光是圈人,我们还会告诉你最佳触达渠道在哪里。
我们把这个模型命名为CYC(catch your customer),就是主动抓住你的客户的意思。它能够分析卖家的客户名单,以及这些客户在微博等社交网络的行为。我们当时做这个模型时的目的,一是了解我们的客户,二是从统计特征、行为特征,甚至包括社交网络上的互动信息来理解人与人之间的关系,达到人群识别的功能。它甚至可以辨别出人群中的“铁公鸡”,把那些不符合你的广告投放标准的人群排除在外。
当然我还是要重复前面的描述,在信息爆发的年代,数据是快速增长的,今天我们看到的大数据,以及基于现有数据得出的判断,可能放在明天的讨论中就是完全错误的。即便我们今天看到了海量的数据,但跟未来相比,也只能算是小数据,如果把今天得到的结论做无限的外延,就是很危险的事情。
接下来大家共同思考一个问题。如果有一个数据模型告诉我们,某个商品在聚划算上的某个板块销量很好,但是有几个模型版本:第一个版本是直接告诉我们,某个商品在这个版块一天可以销售一千件;第二个版本是告诉我们板块不同的位置,销量又有不同;第三个版本告诉我们手机端销量和PC端销量的区别;第四个版本则告诉我们在杭州市文一西路上的中国移动iPhone 5S手机端的产品销量。
同学:第三个最有用,第四个最没用,范围太小。
同学:第四个流量是最精确的,未来就能做更多针对性的事情。
假如平台不允许我们做如此精准的投放,第四个模型就没什么用处了。所以一个模型的好坏,第一要看它适用的范围和条件。如果一个产品的板块不区分PC与无线端,那第一个数据就是最有用的。
上面这个例子就说明,任何一个模型都会有多种方案,卖家需要根据不同的场景,来判断到底哪种模型适合自己。
文章来源:网商在线。
- 本文固定链接: http://www.vicken.net/268.html
- 转载请注明: vicken 于 vicken电商运营 发表