数据原则

2024-09-30

这是我自己在做数据工作的时候总结出来的一些原则,还待补充。

前言

本手册汇总数据工作的原则,包含数据整理、数据分析、数据可视化、数据开发等方面的内容。



数据整理

原则一:用实际数据,不用推测数据


原因

推测数据的准确性不高,需要考虑的因素太多,容易引起计算错误或引起误解。


做法

如果不确定是否有实际数据,应尝试与财务、人力、运营等部门沟通,确认是否有实际数据。


例子

你需要知道员工的4月平均薪酬数据。

❌不要:

✅要:


原则二:找最准确的数据


原因

通常而言,找到数据的方式不只一种。但是,不同来源同一标签的数据往往不一样。

比如,系统的“课时确认”与”课时汇总“都能导出课时,但是,”课时确认“与薪资挂钩,准确度较高。


做法

有的时候,获取准确数据会遇到很多问题,比如你要的数据,只能由各中心提交,但是时间紧迫,很难在规定的时间内完成任务。

我们还是需要做两手准备,一边收集最准确的数据,一边找其他方式。

但总而言之,我们需要最准确的数据。


例子

你需要知道员工的4月课时。

❌不要:

✅要:


原则三:总是显示单位


原因

根据不同的用途,数据的存储单位也不同。

比如薪酬计算时,我们可能按照小时计算。但是,客户服务时,可能以课时(45分钟)计算。

因为存在两套计算逻辑,因此不同数据源呈现的单位可能不一致,而数据源作者不一样注意得到。


做法

我们需要判断数据源的单位,并标注清楚,以防造成误解。


原则四:让对方付出最小努力


原因

收集数据时,特别是需要他人帮忙时,往往会碰到很多困难。

比如对方时间不够、对方合作意愿低、数据收集的规定时间太短等。


做法

我们能做的是,在要求数据准确的情况下,让对方付出最小努力。

比如合理规划,只需要对方提供必要的信息,或者减少对方需要思考的数据,提前把公式设定好。


原则五:重要数据保密


原因

我们会接触到核心数据,不管从公司利益出发,还是从职业道德考虑,你都不应该故意或无意泄露重要数据。

比如薪酬数据、个人隐私数据等等。


做法

涉及到此类数据,应对数据表格加密。


原则六:匹配唯一数据


原因

做数据匹配时,比如采用Excel的vlookup函数,会出现多个重复值,例如姓名重复。


做法

我们需要匹配唯一值,比如匹配工号,不要匹配姓名。

如果无法出现唯一值,可以考虑将两个字段结合,形成唯一值。比如员工A有三门课程,分别是中级、高级、资深。

我们可以将唯一值设定为A中级、A高级、A资深,这样也方便函数的查找,比如vlookup函数的查找。


原则七:保留原始数据


原因

数据收集完成,并不代表数据收集的终点。因为各种原因,已有的数据可能会出错(比如系统出错、人工出错等等)。

因此,我们必须保留原始数据,以便后续查验。


做法

尽量让保留表格中的原始数据,如果需要做计算,尽量用数据链接。

这样一来,未来原始数据发生变动,其他对应数据也能随之变动。


原则八:数据具体且可检查


原因

接收数据任务时,往往对方的需求会比较简单。比如某个中心的营收完成情况。

但是,有时候我们的数据源并非是准确的,常常需要和对方进行查验。这时候,我们就需要有明细的数据。

比如,某个中心的营收情况可能会涉及到多个课程,我们需要知道每个课程的营收情况,甚至每天每个人的营收情况。

这样,如果未来对方质疑数据的准确性,我们可以有一份可核对的数据,而不是”黑箱数据“。


做法

导出数据时,我们需要有数据明细,最好具体到几点几分,具体到每个人的贡献数值等等。