原文:数据中台为什么要建标签体系,分类它不香吗?- 2021.07.26
出处:谈数据 - 微信公众号
作者:石秀峰
数据中台为什么要建标签体系,分类它不香吗?
在众多的数据中台的解决方案中,一个叫做“标签中心”或“标签体系”的应用,几乎成了数据中台的“标配”。
乍一看,标签体系就像一个树状的分类。
因此,有专家吐槽:“现在讲啥数据标签,数据类目,跟SAP Classification比真是弱爆了”。
注:SAP Classification为SAP产品中的一个分类系统,它支持以有序的结构将特定对象(例如,文章和站点)组合在一起。它的基本功能是为各种不同类型对象的所有属性特征提供存储库。然后将相似特征的对象分组到类中(“分类”对象),以便系统可以更容易地在事务中找到它们。
1. 概念的澄清
无论是在数据中台,还是传统产品设计中,绕不开的几个概念:分类、属性、标签。
1.1. 什么是分类
分类,就是指按照种类、等级、性质或特征的归类。也就是把相同属性或特征的“对象”归集在一起,形成不同的类别,方便人们通过类别来对“对象”进行的查询、识别、管理和使用。“对象”可以是人、产品、物料或其他实体,例如:人可以分为男人、女人,也可以分为老年人、中年人、青少年。
1.2. 什么是属性
属性是事物所具有的性质或特征,重点强调的是事物本身,例如:人的性别、身高、胖瘦、年龄、性格等都是人的属性。可以将某个事物的属性抽象出来作为事物的分类,如我们上边举的例子,男人、女人是按照性别属性对人的分类;老年人、中年人、青少年是按照年龄属性对人的分类。事物可以按照属性来分类,分类也是事物的属性之一。
1.3. 什么是标签
标签,原意是标明物品的品名、重量、体积、用途等信息的简要标牌,例如:商品标签、图书标签、车检标签、文件标签、服装吊牌等。从这个概念衍生到网络标签,是人工或系统自动或用户自发的,通过相关性很强的关键字对事物或内容进行描述,帮助人们分类内容,以便于检索和分享。例如:我们也可以给“人”这个对象打上男人或女人,老人或青年的标签。可见,标签也有维度或分类,而属性也是一种标签。
2. 分类VS标签,到底有啥区别?
前边的例子中,男人、女人,老人、青年,这既可以是对人的分类,也可以是人的标签。分类和标签有时候没有明确的分界线,分类可以作为一个标签,标签也可以抽象出分类。那么,分类和标签到底有什么不同?
关于这个问题,知乎上网友的一个回答挺有意思的:
分类由于只能隶属于一个,所以往往带有武断和不恰当的色彩,它是一个“is a”的问题,属于本质论的范畴,而对事物的“本质”的认定,严格来说,这事只有上帝才能做,换句话说,谁做都不合适。标签则不同,它是一个“has a”的问题,说某个东西有某种属性,要求就没那么严格了。
笔者理解:分类是一种严谨的数据组织方式,一般按照一个或多个维度自上而下、从整体到明细的穷举,遵循“相互独立,完全穷举” 的原则。而标签是一种灵活的数据组织方式,放弃大而全的框架,基于业务场景自下而上地倒推标签需求。
除此之外,分类和标签还存在如下不同点:
[1] - 分类一般是面向团队或组织的,注重标准化;而标签可以面向组织,也可以是面向个人,注重的是个性化。
[2] - 分类具有排他性,分类之间是独立的、不能交叉;而标签允许交叉,标签之间可以相互关联、相互依赖。
[3] - 分类体系需要事先规划,在标准化的框架下进行使用;而标签可以静态的,也可以是动态的,允许随时添加。
[4] - 分类注重结构化,具有层级控制,是一个树状结构;而标签的结构是松散、灵活、开放的,整体看是一个网状结构。
来源:PMCAFF产品社区《知识管理——如何使用印象笔记的多级目录标签做知识分类管理?》
3. 分类VS标签,哪个“香”?
在数字化应用中,分类和标签其实根本无法分出个伯仲。标签体系也需要一定的分类,而基于某个维度的分类也可以作为一种标签,只是他们支持的应用场景或有不同。
分类一直存在,它源于人的认知,可以追溯到人类的起源。
在几百万年前的原始部落,人们将打回来的猎物、采集回来的种子进行分类存放,以便存储和管理。分类的作用自然不必多说,它可以让我们条理清晰,层次清晰,一目了然的识别和管理事物。
即使在当今由互联网、计算机构成的数字化世界中,分类体系也一直是我们组织数据、处理数据、查询数据、管理数据的一个重要的手段。
在传统企业的信息化建设中,使用更多的是分类,例如:ERP中的物料分类、人员分类、客商分类等。一套科学、严谨的分类体系是企业的“人、财、物、进、销、存”等业务流程有效管理的基础,在企业管理中发挥着重要的作用。一家企业的“物料分类”科不科学、规不规范,在很大程度上能够反映这家企业的管理的规范性情况和精细化程度。上文我们提到的SAP Classification就是这样一个可以根据事物属性特征进行多维分类体系的系统。不仅SAP,像Oracle、用友、金蝶等ERP大厂,同样也有类似的多维数据分类体系。
标签(网络标签)是随着互联网发展产生的,最早用在博客、文章的内容分类中,方便用户管理和聚合内容。随着大数据的发展,标签体系的作用也越来越大,被互联网企业广泛使用,通过特征集合并关联打标签的对象,对分析对象生成画像,挖掘对象的价值。例如:各大互联网APP(淘宝、今日头条、抖音等)都有一个基于标签体系的推荐引擎模块,通过用户静态属性和行为属性给用户打标签,形成360度用户画像,然后根据用户的偏好将信息或产品推送给用户。
因此,分类VS标签,根本无法区别那个更“强”或哪个更“弱”,根据不同的应用场景选择不同的体系就好了。
在企业的数字化建设中,需要分类和标签结合使用,才能最大化发挥数据效能、挖掘数据价值。
4. 数据中台为什么需要标签体系
上文中我们说过,传统企业的信息化使用更多的是分类体系,而标签体系是互联网企业的“致胜法宝”。
随着数字化时代的到来,掀起了传统企业数字化转型的浪潮。从技术侧来看,转型就是拥抱互联网,战略性的使用数据和IT。在这场数字化的变革中,数据中台被认为是赋能企业数字化转型,实现降本增效的新引擎。
来源:36氪研究院《2020年中国服装行业数据中台研究报告》
关于数据中台的文章,笔者也写了很多了,我们再回顾一下它的概念:数据中台是数据+技术+产品+组织的有机组合,是快、准、全、统、通的智能大数据体系。与数据仓库等传统数据工具相比,数据中台是一种新的理念,以“技术+业务”为双驱动,是企业开展新型运营的一个中枢系统。
因此,如果你将数据中台定位成一个存数据、管数据的技术平台,那或许有“分类体系”就可以了。如果你的数据中台定位的是企业数字化转型的运营中枢系统,要实现对前端业务的支持和赋能,那“标签体系”就是数据中台一个标配。原因前边介绍过,分类是自上而下的规划,侧重标准化,标签是自下而上的倒推,注重业务场景。
“数字转型,场景为王”,在“技术+业务”双驱模式的数据中台中,标签体系、数据萃取将助力企业运营转型升级。
5. 数据中台生产数据标签的四个步骤
在经历过“追捧”和“质疑”等种种考验后,数据中台在基于业务驱动的标签体系助力下,正在用事实验证其价值。关于数据中台标签体系的建设,可以关注公众号(谈数据),阅读《数据中台:基于标签体系的360°用户画像》一文。
下面我们简单介绍下数据中台如何通过加工和生产数据标签,从而助力企业实现数字化转型的,这个过程大致可分为四个步骤:
第一,需要从业务视角对企业数据进行梳理,并将各业务域、各渠道、各类型的数据进行采集和汇聚。
第二,通过对数据进行分类处理,从中提炼出可复用的行为元素(业务线、实体对象、实体属性、动作等),通过沉淀行为元素,可以更好地规范来源数据。这里业务线是在不同业务运营线,例如:某造纸公司有生活纸运营线,文化纸运营线、工业纸运营线、特种纸运营线等。实体对象是指操作和被操作的各商业主体,例如:用户、产品等。实体属性是指实体对象的属性特征信息,例如:用户的年龄、性别、喜好等。动作就是主体发出的操作,例如:询价、购买、浏览等。
第三,根据对象的行为元素给对象打上相应的“标签”,以支持信息查询、信息推送等应用。与传统博客、CMS(文章管理系统)的手动给内容打标签不同,数据中台是根据对象的行为规则自动给对象打标签,并且可以设置行为数据的时间衰减算法,为不同标签分配不同的权重,形成全面的“用户画像”,做到“比用户自己还了解他自己”。
第四,各相关应用直接调用数据中台的标签体系、画像服务,支持企业的精准营销、个性推荐、渠道优化、产品创新等应用场景。
其中,执行第二、第三个步骤的前提就是要做好标签类目体系的规划。也就是说,标签体系也是具有一定的分类结构的。例如:用户标签可以按照标签的控制深度划分为基本属性标签、行为属性标签、商业属性标签等;也可以按照数据中台的数据分层结构,分为事实标签、模型标签、预测标签等。请参考《数据中台:基于标签体系的360°用户画像》
写在最后的话
分类体系和标签体系虽各有各的适用场景和侧重,但它们都是企业数据中台理念落地的关键要素,帮助企业沉淀数据资产化,优化数据服务,助力企业落地数字化转型。分类体系能够帮助企业科学、有效的组织数据,规划标签类目;标签体系能够萃取和精炼数据服务,并对数据分类进行反向优化。在企业数据的管理和应用中,它们相互配合、互为支撑,不仅能够让企业有数可查,有数可用,而且能够让企业的数据用的更好。