Everyday sentence

Time is like a river, the left bank is unable to forget the memories, right is worth grasp the youth, the middle of the fast flowing, is the sad young faint. There are many good things, buttruly belong to own but not much. See the courthouse blossom,honor or disgrace not Jing, hope heaven Yunjuanyunshu, has no intention to stay. In this round the world, all can learn to use a normal heart to treat all around, is also a kind of realm!

分析师是个啥

我记得很久以前,我和一个同学聊起岗位的事儿,说有些岗位10:1,7:1,分析师这种岗位大几百比1,因为这种岗位要求很模糊,没有专业性,人人都觉得自己行,想去试一试,岗位需求可能也不大。我一笑了之,因为我觉得跟我肯定没关系,那个年头大家都想做算法,深度学习人工智能这种高大上的记录片咔咔一放,任谁都心向往之,我也不例外。后来我接触了之后其实打心里比较抗拒这种空中楼阁的感觉,于是想回到初心,做一名软件开发工程师,搞web后台开发。后来阴差阳错,第一份儿实习的title竟然是数据分析工程师,说实话我入职后才开始慢慢了解这到底是啥,绕了这么一圈竟然啪啪打脸?

我以前觉得分析师很空,有啥好分析的?为什么你有不可替代性?和程序员有啥区别?行,跟我一起捋一遍他的工作中的terms吧。

Tips

面对需求追根溯源,当面沟通,想得更全面,建立良好的逻辑树,然后进行提数,分析上一般考虑组成部分,数量比较,有何变化,各项分布,各项相关性,其他深层次挖掘

报告中图为主,结论前置,附件发送

以DAU日活跃用户(daily active users)为例

数据异常排查:亲自看,时间轴拉长,看和该指标相关联的其他核心指标是否也异常,找关键人物沟通

最大概率法则原因归类:假期效应,热点事件,活动影响,政策影响,底层数据故障,统计口径

闭环:持续跟踪,记录文档,邮件化

指标

PV是访问量(包含刷新),UV是独立访客(cookie),IP是独立IP数(按照广域网划分),session是会话次数(发起会话互动计作一次)

gmv网站成交金额,指的是拍下的订单金额,包括支付和未支付的金额

ctr点击通过率,等于实际点击次数除以广告的展现量

进入商品详情页后的加购 / 立即购买的转化率

渗透率是指企业实际销售量在市场潜量中的百分率

占有率是指企业实际销售额在所有这个品类产品中的份额

拆分思路

比如分析某月比同年上月的DAU上涨的原因,首先先看是否超过2/3标准差的浮动

短期和长期因素拆分,去除长期趋势增长量,然后再分析近期的社会事件和商业实践的影响

内外部变化拆分,内部因素是产品本身某个改动点获得认可,可以用A/B test,用户研究来检验。外部因素是市场环境,包括市场趋势和市场竞争

按时空拆分,将日活拆分为地区,城市的粒度,进而分析城市的渗透率看是否与业务推广有关

按用户群体拆分等等

3Q

流量波动,数据突然涨了怎么分析:判断波动属于什么水位,影响范围有多大(常识判断节假日,竞品数据,外部事件,产品变化,用户行为,数据问题)

常用的三个app:网易云音乐,微信读书,知乎。喜欢网易云音乐的每日推荐,最想吐槽的是很多时候通过搜索来选择听某歌,搜索栏里没有语音输入,同时下面的热门搜索和我的画像非常不准。看热门搜索的点击率有多少,把热门搜索功能和用户的画像匹配,同时加入语音输入功能。评估层面用小流量A/B测试,然后慢慢放量

商业化变现,以墨迹App为例,首页“天气” button是主流量入口,进行底部下拉时会出现资讯,而在资讯里面有较多广告app下载链接,所以这是一个app带量商业化实景button。同时推荐的app多为旅游景点,住宿类app,所以是高相关的商业化推荐。然后再说它的商业化收入来源和CPM,最后聊痛点和优化方案

常见方法论

A/B测试

最大概率法则

二八定律

幸存者偏差

题目实战

有几个是十分常见的,熵的计算公式(-求和plogp),贝叶斯公式,二次函数极值公式,期望公式

几何分布,假设每次成功的概率为p,直到第n次实验才成功。它的期望为1/p

样本均值的期望等于总体的期望,样本均值的方差等于总体方差除以n,样本方差的期望等于总体的方差(此时样本方差的定义上已经乘上了1/n-1,是无偏估计)

上面样本均值的方差是在重置抽样的条件下的,不重置的时候,样本均值的方差需要乘上(N-n / N-1)

同比和环比,同比是和同期进行比较,环比是和上期进行比较

机器学习分为生成式模型和判别式模型,生成式模型有(朴素贝叶斯,KNN,隐马尔可夫模型,贝叶斯网络,sigmoid信念网络,马尔可夫条件随机场,深度信念网络,LDA文档主题生成),判别式模型有(线性回归,逻辑回归,线性判别分析,支持向量机,CART,NN,高斯过程,条件随机场)

偏度和峰度,偏度是三阶中心矩,峰度是四阶中心距除以方差的平方之后减3

抽样估计的优良标准有三个:无偏性,一致性和有效性

影响时间序列的因素有四个:长期趋势,季节变动,循环波动,不规则波动

常见的聚类算法:

K-means聚类,K-中心点聚类,CLARANS算法,DIANA算法,BIRCH算法,Chameleon算法

EM算法

OPTICS算法、DBSCAN算法

衡量模块上线后对用户停留时长是否有提升的方案:分组对照实验,采集用户每天浏览时间,然后用假设检验的方法去评估,设定显著性水平,计算最小样本量,t检验计算p值

复合增长率:增长率的年方根

估算类

以终为始,先去想为什么要知道,确定需求方,目标和目前的需求。

然后明确问题,开始解构公式,树状图拆解,最后进行合理性复查。

问题预演

如果今日头条的人均使用量下降了,你会怎么分析

人均使用量 = 总使用量 / 使用人数,分析趋势判断是否存在问题。如果存在继续拆分问题维度,然后进行原因排查

怎么衡量版权给产品带来的价值

外卖配送比如饿了么和美团,要衡量每次配送的效果,应该怎么设计指标

饿了么和美团有什么区别,谈谈你的看法