©2021 超级简历WonderCV wondercv.com | 京ICP备17055181号
16、解释什么是异常值?
异常值指的是出现在样本中较远且偏离总体模式的值。有两种类型的异常值:单变量异常值和多元变量异常值。
17、请解释层次聚类法。
层次聚类算法通过构建距离对现有的组进行组合和划分,创建一个层次结构,以显示组的划分或合并顺序。
18、请解释K-means 算法。
K均值是一种著名的划分方法。物体被归为K组中的一组,K组是预先设定的。在K-mean算法中,聚类结果是球形的且该数据点以该类为中心,集群的方差是相似的:每个数据点属于最近的类。
19、数据分析师需要具有哪些技能?
数据科学家必须具备以下技能:数据库知识、数据库管理、数据融合、查询、数据操作、预测分析、基本描述性统计、预测建模、先进的分析、大数据的知识、大数据分析、非结构化数据分析、机器学习、演讲技巧、数据可视化、洞察力、报表设计。
20、解释什么是协同过滤?
协同过滤是一种基于用户行为数据创建推荐系统的简单算法。协同过滤最重要的组成部分是用户-项目-兴趣。协同过滤的一个很好的例子是,当你在网上购物网站上看到像“推荐给你”这样的语句时,它会根据你的浏览历史弹出。
21、列举大数据中的常用工具。
Hadoop/Pig/Flume/Mahout/Sqoop
22、请解释KPI、实验设计和二八准则。
KPI:它代表关键性能指标,它是一个度量标准,由关于业务流程的电子表格、报告或图表的任何组合组成。
实验设计:是对你的数据进行分割、采样和建立数据进行统计分析的初始过程80/20法则:这意味着你80%的收入来自20%的客户。 23、你知道什么是Map Reduce?Map-reduce是一个框架,用于处理大型数据集,将它们划分为子集,在不同的服务器上处理每个子集,然后混合在每个服务器上获得的结果。
24、请描述你对于聚类的理解?聚类算法有哪些特性呢?
聚类是一种应用于数据的分类方法。聚类算法将数据集分为自然的组或簇。
聚类算法的属性可以是:层次聚类或者水平聚类,迭代聚类,硬聚类和模糊聚类,分隔聚类。
25、在数据分析中,常用的统计方法有哪些?
对数据科学家有用的统计方法是:贝叶斯方法;马尔可夫过程;空间和聚类过程;排序统计,百分位数,异常值检测;归责技术等。;单纯形法;数学优化。
26、什么是时间序列分析?
时间序列分析可分为频域分析和时域分析。在时间序列分析中,利用指数平滑法、对数线性回归法等多种方法,通过对已有数据的分析,可以对特定过程的输出进行预测。
27、解释什么是相关图分析?
相关图分析是地理学中常见的空间分析形式。它由一系列为不同空间关系计算的估计自相关系数组成。当原始数据表示为距离而不是单个点的值时,可以使用它来构造基于距离的数据的相关图。
28、请解释哈希表/散列表。
在计算中,哈希表是键到值的映射。它是用于实现关联数组的数据结构。它使用哈希函数将索引计算到槽数组中,从中可以获取所需的值。
29、什么是哈希表冲突?如何避免?
当两个不同的键哈希到相同的值时,就会发生哈希表冲突。数组中的两个数据不能存储在同一个槽中。解决这个问题常用的方法是:独立的链接和开放寻址。
30、解释一个好的数据模型的标准是什么?
好的数据模型的标准包括:
超级简历 APP
从简历直达offer,快人一步拿高薪