我这次实习的部门是一家大数据征信公司的模型组。简单来说,这个组的工作就是在黑其他组员之余,利用贷款数据集分析具有哪些特质的贷款者还不上钱。翻译成统计问题,就是有许多许多列x,y是一个01变量,目标是建立一个分类模型。这件工作颠覆了我对于统计的诸多认识,在颠覆和思考之后,我也对统计的价值,以及如何成为更好的统计从业人员有了新的见解。
回过头来看,我实习之前对统计最大的误区在于过高估计了高级统计方法的价值。在实习之前,如果你问我同一个分类问题,用logistic regression,svm,random forest分别会怎么样,我一定会觉得模型性能稳步提升,因为方法用的越来越强大。但实习中的实际经验却与此相去甚远,三种方法对模型表现的影响几乎可以忽略不计,反倒是之前完全没考虑过的因素对模型表现影响很大,这些因素大多是engineering上的问题。
第一个重要因素是feature engineering,feature engineering是学校中不常遇到的问题,学校里的数据,全都是所有x给好,所有y给好的。但在现实生活中,x是要自己生成的,x的好坏直接决定了模型表现。比如现实问题是想分析京东的哪些用户容易流失,你有权限获得京东每个账号的全部信息,那么如何从客户消费流水中提炼x就是个大课题。一旦加入了好的x,不管用什么统计方法,模型性能都会显著提升。正所谓巧妇难为无米之炊,更何况logistic regression,svm,random forest三位巧妇的水平本来就差不多,所以最终决定饭的质量的是米的质量,生成好米很关键。
另一个没考虑过的因素是反欺诈,反欺诈的问题实际上就是筛选行的问题。假设好的贷款者和坏的贷款者在x上截然不同,很容易区分,但现在坏人借款时盗用了好人的身份。本来数据里只有10%的坏人,现在相当于把一半坏人的x改成好人的x了。如果不把这些身份盗用者揪出来,任你什么统计方法也没法区分。不过这个问题不属于统计研究的范畴,但又确实很重要,分析数据时不能不管。这个例子也从一个侧面说明了统计和数据科学的区分。总而言之,在处理实际问题时,统计方法没有想象的重要,反倒是一些engineering上的问题很重要。而提高engineering能力就要靠经验和对问题本身的把握了。
工作也促使我重新思考什么是有价值的统计。现在我认为,统计的价值在于帮助人们更好地认识世界,它的价值蕴含在它的工具性里。任何统计研究,都要有办法最终落回到有意义的应用上,直接或间接,现在或将来,只有这样的研究才是有价值的研究。统计最开始从对人口的研究中发展出一套理论,后来理论自身衍化,产生了一系列理论问题,这其中有些理论问题就开始脱离实际了。有些学者把统计做成了数学,在奇奇怪怪且脱离实际的setting下,如果满足这样这样的条件,那我可以这样这样估计,然后大样本时有这样这样的性质。统计不同于数学,数学可以问纯粹的理论问题,比如哥德巴赫猜想,统计则不同,统计最主要的意义是作为工具,统计上的理论问题最好也是要有实际指向的。统计,或者说数据科学,之所以成为当世显学,也是因为其工具性—-这个世界的数据太多了,人们要通过数据,定量地认识世界。值得强调,这里探讨的是有价值的统计, 这和对公司有价值的统计又不一样,在公司里,凡是符合公司利益的,都是有价值的。
在工作中,与他人沟通统计也十分重要。你需要让上级部门知道统计能做什么,让下游部门了解你做的模型怎么用,如果接触客户,还要给客户普及统计知识并让他们对你的工作满意。说到底,这关乎如何让不同人群理解你的结果。让别人理解你的结果实在是太重要了,它的重要性甚至等同于做出好结果本身,因为在公司里,统计只是业务链条中的一环,别人不能理解你的结果,业务就无法完成,这和没有结果导致业务无法完成没有区别。而让别人理解的关键在于降低理解难度。在业界,由于沟通对象不是统计专业出身,降低理解难度是必须,在学界,虽然听众都是行家,但降低理解难度也丝毫不能轻视。虽然学界的听众具备理解你需要的全部技术背景,但理解别人毕竟是要付出积极的脑力劳动的,而人们不愿意动脑子,在面对一团毫无头绪的信息时更是如此。降低理解难度就好比喂人吃水果,每个人都有到厨房自己拿水果自己洗着吃的能力,但把水果洗好切好,端到他面前喂他吃则可以增加他吃水果的几率。如果不这样做,别人就更容易错过你悉心培育的水果,苦的还是自己。
意识到降低理解难度的重要性是成功降低理解难度的第一步,剩下的就靠积累和磨练了。昨天一个同学和我讲他原来的老板是一个讲故事和给talk的高手,对统计作图有着执着的追求。他说R里默认纵轴标的数是横着的,他老板说这怎么能行,读者看岂不是需要phsically或者mentally扭一下头吗,于是要求他重画。我说这怎么画,然后同学大概给我讲了讲,用grid还是什么。先要有意识,再加了技术,最后再加上执着,降低理解难度才能达成,可能也正是这三者的结合才使得他老板成为他今天的老板吧。
工作的最后一点感受,是象牙塔里统计系的学生应该感受到提高实战水平的紧迫。现在数据科学的流行吸引了一大批人改行加入,公开课以及各种学习资源的普及消除了学习的技术壁垒,各种各样方便的R包极大地降低了建模的技术难度,但是统计系的教育并不强调分析实际的数据。统计系的学生应预见,未来工作市场上的竞争会很激烈,学校学来的那些你会的别人不会的八成用不上,用的上的你会的别人也会,你做的不一定有别人好,然后别人不会的你也不会。但还好数据科学入门容易精通难,刚入门比拼的是招式,那些实用的R包学学就会了,但精通需要内力,第一是到一定高度后,没有内力的支撑,招式就发展不上去了,第二是内力深厚了,对同样招式的理解也会更深,统计系同学坚实的数学基础和全面的统计知识就是内力,这是非科班出身者比不了的。希望统计系的同学们,如果想去业界工作的话,首先不要沉浸在“我会证明这个,我会推导那个”的优越感之中,然后在证明推导simulation之余提升自己实战水平,内外兼修,第一追求招式更多,第二追求同样的招式比别人打的更好,最终占领数据分析的高端人才市场。