关于2B/2G数据平台搭建与一般软件开发流程整体一致,但是特殊性体现在用户和数据上。这里以之前做的一个数据监测平台为例,以数据为中心,介绍一下数据PM在整个数据平台开发过程中用到的工具与需重点关注的数据处理流程。
一、常用数据分析工具
1. 数据分析工具
- Orange:可视化数据挖掘工具,无需coding;
- SPSS:数据统计软件,需较强的数据分析能力;
- Excel:数据统计软件,需入门级数据分析能力;
2. 数据来源工具
- 百度指数:数据分享平台,只用于PM参考,无开放API;
- 八爪鱼:爬虫工具,只用于PM参考,只支持windows平台;
3. 数据展示工具
- Echarts:数据可视化插件,自带代码,可与技术人员共享;
- Tableau:数据可视化分析、展示,可预设计动态数据界面;
- 易词云:词云生成器,词云样式丰富。
二、重点数据处理流程
1. 流程概览
- 重点数据提取
- 数据采集
- 数据评估与运维
- 数据展示
2. 具体执行
(1)重点数据提取
我们提取重点数据是为了形成数据指标。在结合其他资深数据产品建议与自身开发经验的基础上,这里介绍一种相对全面实用的数据指标的建设方法:
数据指标=指标名称+业务大类+维度+汇总方式+量度+关联维度+时间
提取重点数据,即建立数据指标的过程中,需要产品进一步梳理产品映射的业务逻辑,设计产品底层的数据分析策略。同时基于此,也可协助技术开发人员打开数据表创建思路,以便后台数据库搭建(包括数据仓库建设)。
建立数据指标需重点把握业务大类和维度——
业务大类,一方面可直接按照B/G端客户的实际业务逻辑进行梳理,另一方面源自产品开发前期的需求分析内容——业务需求之外的其他需求,比如2G数据产品经常关注的舆情方面。在此过程中,需要细化信息颗粒度,全面覆盖需求进行汇总,再按照重要程度、业务内容进行取舍分类,形成业务大类。
维度,一般按照时间、空间、主体进行划分。
时间即指年月日以及更小的时间单位,在横向的时间轴上,数据既要涵盖对历史情况的回溯,又要包含对未来事件的预判(需要数据建模)。
空间方面,2B/2G产品关注的空间通常反映为行政等级——国家、省、市、地方等,尤其是对G端产品,这种空间划分涉及到用户权限配置,比如省级监管局可看到对应省辖区内的所有数据内容。时间与空间在后期的产品使用中,一般应支持用户下钻,进行更细致的信息查询。
主体指的产品业务逻辑所涉及到的人、物等,在政府数据监管平台中,这里包括受监管的企业、产品。不同的主体一般都存着在复杂的业务联系,所以在设计数据模块时应考虑到用户对相关的主体维度的关注,在之中创建便捷的跳转方法。
根据数据指标的定义,数据产品应该支持多种组合查询,数据展示模块中应具备联动功能,如不同的业务+不同的维度查询,形成筛选器,支持用户自主查询。
(2)数据采集
数据采集通常有三种方法:录入、抓取、建模。
- 录入,支持用户通过产品后台进行数据录入,这种信息通常是通过系统抓取难以获取的,比如数据来源不确定的信息,需要人工进行录入。
- 抓取:系统对不同数据源的数据进行抓取分析,进行展示,这种信息常为内容类。
- 建模:区别与录入与抓取的直接展示,数据建模主要应用于数据预测,对数据的处理更为复杂,先建模再生成新数据,对原有数据形成补充,完善数据信息或者对未来趋势形成预测,以支撑决策。
(3)数据评估与运维
数据评估、运维从PM出发,提供两个参考的角度:质量把控和重要级排序。
质量把控方面严格来讲,通常大的数据平台,需要建立专门的数据质量管理系统,对于元数据、接口稳定性等内容进行细致管理监控。在此,PM可以从数据的来源可靠性、优化处理、工具利用方法等方面进行评估把控,如对抓取信息的网站进行评估筛选,保证数据来源安全可靠。
重要级排序,在没有真正用户使用产品的前提下,这种排序是很难进行设计与用户之间的双向确认的,所以我们可以在进行产品设计时,允许用户后期对dashboard等页面的功能模块进行自定义的拖拉组建,对我们已经预设的数据内容重要级排序进行修正。
(4)数据展示
这里从功能、数据呈现方式两方面进行说明。
数据展示需要的功能在前面的重点数据提取——维度建立已经提过,最重要的是联动与下钻,这要求数据在系统中形成一个完整的信息链路,既可统揽汇总,又可细化查看,真正做成一个好用的数据工具。