淘宝大数据分析平台有哪些方法?(企业目前实现大数据分析平台的方法主要有3种)

qinzhiqiang 12-08 16:00 677次浏览

搭建大数据分析平台的工作是循序渐进的,不同公司要根据自身所处阶段选择合适的平台形态,没有必要过分追求平台的分析深度和服务属性,关键是能解决当下的问题。

如果说用户行为分析平台是互联网行业等线上业务特有的数据分析产品,那么大数据分析平台就是适用于全行业的数据分析产品。任何行业的公司发展和精进都离不开数据分析,而大数据分析平台就是实现数据分析,为业务人员提供分析能力的基础产品。如果没有该数据分析平台,企业则不得不招聘专业的数据分析师完成全部的数据分析工作。

一方面数据分析师的招聘门槛更高,一方面数据分析师对实际业务的了解程度也并不如运营、市场等业务方人员。

所以更合理的做法是为业务人员提供易用的数据分析产品,配合特定的数据分析培训,以使业务同事可自行完成绝大部分数据分析需求。同时辅以数名数据分析师完成更专业的数据分析任务,产出数据报告或决策等关键信息。

大数据分析平台是对大数据时代的数据分析产品(或称作模块)的泛称,诸如业务报表、OLAP应用、BI工具等都属于大数据分析平台的范畴。与用户行为分析平台相比,其分析维度更集中在核心业务数据,特别是对于一些非纯线上业务的领域,例如线上电商、线下零售、物流、金融等行业。而用户行为分析平台会更集中分析与用户及用户行为相关的数据。

企业目前实现大数据分析平台的方法主要有三种:

(1)采购第三方相关数据产品

例如Tableau、Growing IO、神策等。此类产品能帮助企业迅速搭建数据分析环境,不少第三方厂商还会提供专业的技术支持团队。但选择此方法,在统计数据的广度、深度和准确性上可能都有所局限。例如某些主打无埋点技术的产品,只能统计到页面上的一些通用数据。

随着企业数据化运营程度的加深,这类产品可能会力不从心。该方案适合缺少研发资源、数据运营初中期的企业。一般一些创业公司、小微企业可能会选择此方案。

(2)利用开源产品搭建大数据分析平台

笔者曾经待过的一家公司就是采用该方案搭建的OLAP应用。对于有一定开发能力的团队,可以采用该方式快速且低成本地搭建起可用的大数据分析平台。该方案的关键是对开源产品的选择,选择正确的框架,在后续的扩展过程中会逐步体现出优势。而如果需要根据业务做一些自定义的开发,最后还是绕不过对源码的修改。

(3)完全自建大数据分析平台

对于中大型公司,在具备足够研发实力的情况下,通常还是会自己开发相关的数据产品。自建平台的优势是不言而喻的,企业可以完全根据自身业务需要定制开发,能够对业务需求进行最大化的满足。

对于平台型业务,开发此类产品也可以进行对外的商业化,为平台上的B端客户服务。例如淘宝官方推出的生意参谋就是这样一款成熟的商用数据分析产品,且与淘宝业务和平台优势有非常强的结合。

接下来,本篇将重点介绍几种不同阶段的大数据分析平台产品形态。

报表分析平台

提到数据分析,很多人的第一反应应该都是报表。确实报表应该就是最基础的数据分析工具,因此不少公司在搭建数据分析平台时,也是先从满足报表需求起步的。

在平台搭建初期,优先实现重要的固化报表没有任何问题,但随着业务的发展,对数据分析的需求会成倍增加,不可能一直靠业务新增查询需求,数据团队对前后端进行开发改动这种低效的方式来实现。

因此我们可以在报表平台上开发一套扩展工具,用于完成对取数需求的条件配置。本质上是将日常业务查询的SQL语句进行了产品化,并罗列了可支持的数据指标、维度、时间等信息。

至此,报表平台便拥有了直接新增报表的功能,业务人员可根据自身需求在平台上配置所需的报表,而不用每次由研发团队单独开发。例如下图是生意参谋中的新建报表功能,商家可以通过一系列的条件选择完成报表的配置。

生意参谋-新建报表

除去简单的报表生成,我们还可以扩展图表模块,对报表进行可视化。可以选择常见的图表样式,例如折线图、柱状图、饼图等。

不过受限于产品形态,所有的配置操作都是在既定的框架下完成的,研发人员需要事先在页面上规定可选的维度、时间周期、指标的信息。若遇到对当前页面还不支持的指标或维度的分析需求(在实际使用时会经常发生),仍需要进行开发,升级平台。为了满足更定制化的查询需求,该平台也可以做到支持书写SQL完成查询。

某种程度上来看,其实该阶段的分析平台对业务人员还不够友好,可能更多时候是数据产品经理和数据分析师在进行使用,以满足自身分析需求或承接业务的数据需求。为了真正让业务人员直接具备查询、分析数据的能力,我们需要进入下一个阶段。

自助分析平台

如果说扩展后的报表平台能很大程度的释放研发生产力的话,搭建自助分析平台将可以解放数据分析师的大量工作。自助分析平台已经基本能满足业务人员的全部数据查询和分析需求了。当然,在平台上线后还是需要组织适当的培训,提供友好的产品说明文档。

自助分析平台是进一步将我们的数据查询、分析语言产品化。与报表平台相比,自助分析平台至少有了以下进步:

  1. 可以选择数据源,可以在权限允许范围内访问数据源内全量的数据,并读取数据源的数据结构,用于后续的查询配置。例如定位到具体的数据仓库。
  2. 可以自由选择数据指标和维度,构建Cube。即可以自由地选择不同主题下的维度,作为表格的行和列。行和列都支持维度的嵌套,构建层次化的索引。
  3. 支持丰富的指标计算方式。与用户行为分析平台类似,自助分析平台也支持通过表达式对基础指标进行计算,构建新的指标。在输出结果时,也可以制定对指标的聚合方式,包括求和(SUM)、求平均(AVG)、累计求和(CUMSUM)、计数(COUNT)、求最大值(MAX)、求最小值(MIN)等常见的计算方式。
  4. 支持丰富的条件筛选。包括了最常用的时间段筛选,以及可在各个维度下通过一系列关键字组合设置筛选条件,例如大于(>)、等于(=)、小于(<)、不等于(!=)、在或不在某列表内(IN/NOT IN),在或不在某范围内(BETWEEN…AND…/NOT BETWEEN…AND…)。
  5. 可根据业务需求开发其他针对表达格式的配置选项,例如可配置数据的表达形式是整数、小数(及位数)、百分数等。

下图是笔者过去搭建的某自主分析平台产品的简易原型。

新建查询

在完成查询条件的筛选后,会构建出如下表格。同一维度下的查询字段会构建层次化索引,不同维度下的查询字段会类似concat连接在一起。

查询结果

自助分析平台的另一个优势是可直接根据数据生成各式的图表,典型的折线图、柱状图、堆积面积图、直方图、饼图、散点图等,以及根据业务需求可以支持漏斗图或基于GIS信息的图表等。

在线智能分析平台

自助分析平台虽然功能强大,但其本质上仍是构建数据表格的工具。业务人员更自然的使用方式是利用平台构建表格并导出,之后在Excel进行分析和图表的制作,这其实违背了我们希望平台本身能解决数据分析问题的初衷。这一方面是因为用户的习惯很难改变,另一方面也是平台构建表格的属性引导了用户。

若要通过平台直接完成数据分析,这就要求平台不能只是构建表格这么简单。我们需要重点优化平台的数据表达和交互功能,以体现出平台的分析属性。这个阶段可以称为在线智能分析平台。这里的关键词有两个:“在线”和“智能”。

其进步表现在可以直接在构建完的数据之上进行交互,产生更多的数据洞察。类似于我们在python中直接通过matplot或seaborn进行可视化,和利用bokeh进行数据表达的区别。虽然seaborn已经可以做出优秀的可视化报告,但其表达形式主要还是静态图表,更多时候是展现在分析报告中。而bokeh构建的图表支持一系列的交互操作,不同使用人员可根据自身需求在图表上完成分析。

最典型的区别,有以下几点:

(1)支持图表的基本交互操作

包括了对区域的圈选高亮、全局或针对单一坐标轴的放大缩小、鼠标悬停时的详细数据展示等常用操作。

(2)支持数据的下钻

选中具体数据后,可根据所支持的维度进行数据下钻。例如我们发现某天的GMV下降明显,选中当天数据后可以根据GMV在业务上定义的构成指标(订单量、客单价等)或其他查询维度(门店/类目等)进行下钻以定位具体问题。可能最终会发现是某家重点门店当天经营异常而导致了整体GMV的下降。

(3)支持数据间的联动

根据分析需求,我们可能需要同时分析有关联关系的数据,洞察数据间的关系或影响。其核心是以某一字段作为关联图表或表格的关联字段,建立多份数据间的联系。这样在同一个工作区内,对其中任意一份数据进行圈选、拖拽等操作,在其他的数据中也会同步展示。

例如A表是SKU信息表,B表是订单详情表,C表是商品销量的图表,商品运营同事在分析具体SKU销售情况时,会在A表中选中具体的SKU,在B表中为自动选出包含该SKU的订单,在C表中会自动选出该SKU的销量情况。

在这些功能的支撑下,我们便可以直接在平台上在线完成大部分数据分析的工作,而不用导出数据后在其他工具中进行分析。

根据数据分析的方法和目的,我们可以简单的划分为三类:描述性分析、预测性分析和规范性分析。

描述性分析给出的数据表现的客观事实;预测性分析会基于过去的数据预测未来表现和可能性;规范性分析会通过分析提供指导和建议,就像医生会对我们的体检报告标注出异常并给出建议。

而在线智能分析平台的“智能”也可以体现在对数据的诊断解读上。一方面业务人员的数据分析水平可能参差不齐,无法要求所有人都有专业的分析能力,另一方面我们查看数据的主要目的也是想洞察数据背后的结论,而不是数据本身。因此平台如果可以针对数据表现直接给出解读,将大大提升平台的服务属性。

平台可以对核心指标的异常范围进行定义,比如可利用3σ原则,即对于服从正态分布的数据,具体数值与整体平均值的差值大于3倍标准差时,可认定为异常值。也可以与业务进行沟通,定义数据的异常波动范围。

针对不同的异常情况,可以提示不同的话术,并匹配建议方案。例如下图是笔者过去负责的某款数据产品中,对具体指标给出的诊断解读。对于不具备分析能力或时间宝贵的同学,直接概览此模块,就能对当前的经营情况有个大致了解。

数据诊断解读

数据分析自动化

对大数据分析平台用户的需求进行深挖,我们会发现不同用户群所关注的数据也会有所不同,而同一用户往往会持续关注同一批数据。再想想,我们的运营人员、数据分析师等角色是不是每周或每月都会发送相关数据的周报或月报?

可以认为,每个人在查看数据的时候,是在阅读一份数据报告。

因此,平台若能定周期产出符合目标用户数据需求的,既有数据,又有洞察,带有指导意义,且阅读友好的数据报告,将能进一步提升平台自身的价值。

为了让平台可以自动生成报告,我们需要结合平台之前的所有能力。用户可以在平台上配置适合自己及其他阅读受众的报告模板(组合相关的数据图表及设置样式),定义关键指标的解读方法(定义数据波动区间及对应话术)。由系统给出解释原因或预留备注空间由人工解释。根据业务需要,配置报告的生成周期、发送对象、发送方式等信息。如下图数据产品,每周会产出运营数据简报。

数据运营简报

对于不同的用户,还可以查看细分栏目的周报,例如下图是客户维度的周报。

客户数据运营周报

随着数据驱动的意识越来越被重视,且大量传统行业开始数字化转型,大数据分析平台在企业中扮演的角色会越来越重要。

目前看到的情况是,大家对于大数据分析平台的产品形态和发展趋势的判断基本是一致的。平台最初用于解决基础的数据查询和分析需求,之后会逐步解放人力提升人效,最后我们都希望能由数据和机器直接生成决策。

当然,搭建大数据分析平台的工作是循序渐进的,不同公司要根据自身所处阶段选择合适的平台形态,没有必要过分追求平台的分析深度和服务属性,关键是能解决当下的问题。

大数据分析平台篇到此结束。

  • 暂无推荐