最近和小伙伴一起探索了一下双十一后闹得沸沸扬扬的一篇文章:“淘宝2009-2018年历年双十一销售额数据造假”。原文作者使用初中阶段学过的抛物线,就将每年的销售额增长趋势拟合得非常完美。
如果大家想学习如何画出上述的图像,可参见前面一篇博客:用 ggplot 重绘天猫双十一销售额图
同时在知乎上,这个问题也成功上了当时的热搜榜,各路大神云集,也发表了很多很有意思的观点:
如何看待有人质疑淘宝双十一数据造假,并在4月份成功预测今年销售额为2680亿?
看了很多大神的文章后,自己对这个数据也进行了一些探索,尝试看看能否发现一些不一样的有趣的事情。
我们先看看原文中提到的问题,这条直线拟合得过于完美了,在我们通常的认知中,如果某个指标随着年份发生变化,例如:销售额,增长率等,我们用一条非常规律的曲线去回归,是基本上不可能呈现这种没有波动的情况,一般会呈现下图这样的结果。
但从原文的图中我们可以看到,红色的散点近乎完美地点缀在拟合出来的曲线上。在现实生活中出现这种情况非常罕见,且极其神奇!
乍一看原文的内容和如此精妙的拟合,我也差点相信了。但仔细一想,就逻辑而言,原文这种断言是非常不严谨的。原作者有一个问题,那就是过于武断和过于依靠经验。举个栗子,有人没见过灰天鹅,就说所有的天鹅一定都不是灰色的,但只要有一只灰天鹅出现,就能推翻“天鹅一定不是灰色的”这个结论,这就是证伪。
同样,我们也不能因为某件事情出现的情况非常少,就直接说明这件事是有问题的。例如,每一期彩票中头奖的幸运儿,我们难道能说他们都是开了挂才中奖的吗?
事实上,在现实生活中,许多经济学原理都与发展阶段或增长率挂钩。那么,像原文那样完美拟合的情况会不会是一些经济学现象所引起的呢?如果我们能够通过理论验证它符合某些经济学规律,我们就有证据说明这样拟合的非常好的销售额曲线是因为服从这样的规律,才出现了这么巧合的现象,而不是因为数据造假。另一方面,如果我们通过验证发现它不符合经济学规律,那么也能从理论的角度说明原数据存在造假的嫌疑。
那么,我们来看看!
年份 | 销售额 | 增长率 |
---|---|---|
2009 | 0.5 | — |
2010 | 9.36 | 1772.00 |
2011 | 52 | 455.56 |
2012 | 191 | 267.31 |
2013 | 350 | 83.25 |
2014 | 571 | 63.14 |
2015 | 912 | 59.72 |
2016 | 1207 | 32.35 |
2017 | 1682 | 39.35 |
2018 | 2135 | 26.93 |
2019 | 2684 | 25.71 |
我们绘制了销售额增长率在这十年间的下降曲线:
其实从销售额增长率的角度而言,其是符合一些经济学规律的。具体的量化分析我们后面再进行更加深入 ,严谨的分析~
最后,本篇博文涉及的绘图,后面都会一个一个写个教程,手把手教大家进行绘制~
ggplot 添加左右两边的y轴(以天猫双十一销量与增长率为例)
以上就是R语言数据可视化分析天猫双十一销售额增长率的详细内容,更多关于R语言分析双十一销售额增长率的资料请关注好代码网其它相关文章!