30个数据分析师常见面试问题(下)
2019-01-11T10:11:00

16、解释什么是异常值?


异常值指的是出现在样本中较远且偏离总体模式的值。有两种类型的异常值:单变量异常值和多元变量异常值。


17、请解释层次聚类法。


层次聚类算法通过构建距离对现有的组进行组合和划分,创建一个层次结构,以显示组的划分或合并顺序。


18、请解释K-means 算法。


K均值是一种著名的划分方法。物体被归为K组中的一组,K组是预先设定的。在K-mean算法中,聚类结果是球形的且该数据点以该类为中心,集群的方差是相似的:每个数据点属于最近的类。


19、数据分析师需要具有哪些技能?


数据科学家必须具备以下技能:数据库知识、数据库管理、数据融合、查询、数据操作、预测分析、基本描述性统计、预测建模、先进的分析、大数据的知识、大数据分析、非结构化数据分析、机器学习、演讲技巧、数据可视化、洞察力、报表设计。


20、解释什么是协同过滤?


协同过滤是一种基于用户行为数据创建推荐系统的简单算法。协同过滤最重要的组成部分是用户-项目-兴趣。协同过滤的一个很好的例子是,当你在网上购物网站上看到像“推荐给你”这样的语句时,它会根据你的浏览历史弹出。


21、列举大数据中的常用工具。

 

Hadoop/Pig/Flume/Mahout/Sqoop


22、请解释KPI、实验设计和二八准则。

 

KPI:它代表关键性能指标,它是一个度量标准,由关于业务流程的电子表格、报告或图表的任何组合组成。

实验设计:是对你的数据进行分割、采样和建立数据进行统计分析的初始过程80/20法则:这意味着你80%的收入来自20%的客户。 23、你知道什么是Map Reduce?Map-reduce是一个框架,用于处理大型数据集,将它们划分为子集,在不同的服务器上处理每个子集,然后混合在每个服务器上获得的结果。


24、请描述你对于聚类的理解?聚类算法有哪些特性呢?

 

聚类是一种应用于数据的分类方法。聚类算法将数据集分为自然的组或簇。

聚类算法的属性可以是:层次聚类或者水平聚类,迭代聚类,硬聚类和模糊聚类,分隔聚类。

 

25、在数据分析中,常用的统计方法有哪些?

 


对数据科学家有用的统计方法是:贝叶斯方法;马尔可夫过程;空间和聚类过程;排序统计,百分位数,异常值检测;归责技术等。;单纯形法;数学优化。

 

26、什么是时间序列分析?

 


时间序列分析可分为频域分析和时域分析。在时间序列分析中,利用指数平滑法、对数线性回归法等多种方法,通过对已有数据的分析,可以对特定过程的输出进行预测。

 

27、解释什么是相关图分析?

  


相关图分析是地理学中常见的空间分析形式。它由一系列为不同空间关系计算的估计自相关系数组成。当原始数据表示为距离而不是单个点的值时,可以使用它来构造基于距离的数据的相关图。

 

28、请解释哈希表/散列表。

 


在计算中,哈希表是键到值的映射。它是用于实现关联数组的数据结构。它使用哈希函数将索引计算到槽数组中,从中可以获取所需的值。

  

29、什么是哈希表冲突?如何避免?

  


当两个不同的键哈希到相同的值时,就会发生哈希表冲突。数组中的两个数据不能存储在同一个槽中。解决这个问题常用的方法是:独立的链接和开放寻址。

 

30、解释一个好的数据模型的标准是什么?

  

好的数据模型的标准包括:

  • 它很容易被消费;
  • 好的模型中的大型数据更改应该是可伸缩的;
  • 它应该提供可预测的性能
  • 一个好的模型可以适应需求的变化

 



阅读44057
267
分享

超级简历 APP

从简历直达offer,快人一步拿高薪

简历模板
零经验实习简历模板
1,082,450人用过
适用于学生找实习,第一次工作,没有实习经历的同学
学生求职简历模板
2,380,349人用过
适用于学生找实习或全职工作,有一定实习经历的同学
申请研究生简历模板
662,198人用过
适用于学生申请国内及海外的研究生,或考研复试时使用
经典工作简历模板
2,897,160人用过
适用于工作经验一年以上,想要变动工作的人士,适用于全行业
投行咨询简历模板
699,419人用过
适用于寻求投行,咨询,四大或外企工作岗位的人士
产品经理简历模板
967,618人用过
适用于申请互联网行业的产品相关岗位,有针对性的模块和引导
程序员简历模板
861,024人用过
适用于互联网行业的程序员和技术求职者找全职工作、跳槽时使用
留学英文简历模板
225,624人用过
适用于高中生,申请国外本科留学,有针对性的英文案例和引导