30个数据分析师常见面试问题(上)
2019-01-11T09:56:00

 

1、你认为数据分析师的职责是什么? 

数据分析师的职责包括:

(1)为所有数据分析提供支持,并与客户和员工协调

(2)为客户解决与业务相关的问题,并对数据执行审计

(3)使用统计技术分析结果和解释数据,并提供持续的报告

(4)优先考虑业务需求,并与管理和信息需求紧密合作

(5)确定新的过程或改进机会的领域

(6)分析、识别和解释复杂数据集中的趋势或模式

(7)从主数据源或辅助数据源获取数据并维护数据库/数据系统

(8)过滤和“清理”数据,并检查计算机报告

(9)确定性能指标以定位和纠正代码问题

(10)通过确定用户访问级别来开发访问系统来保护数据库


2、成为一名优秀的数据分析师需要哪些能力?/你认为你有哪些能力可以让你成为一名优秀的数据分析师

 

技术方面:

(1)对报告包(业务对象)、编程语言(XML、Javascript或ETL框架)、数据库(SQL、SQLite等)有丰富的知识。

(2)具有数据库设计、数据模型、数据挖掘和分割技术方面的技术知识。

(3)具备分析大型数据集(SAS, Excel, SPSS等)的统计软件包知识。

能力方面:

  • 具备较强的分析、组织、收集、传播大数据的能力。
  • 负责细致,数据感受敏锐,逻辑思维强。


3、请描述数据项目中的主要流程和步骤。


分析项目中的各种步骤包括:问题定义—数据探索—数据准备—构造模型—验证的数据—实施和跟踪


4、你怎样理解数据清洗/数据预处理


数据清理也称为数据清理,用于识别和消除数据中的错误和不一致性,以提高数据的质量


5、你常用的数据清洗方法有哪些?/你通常在预处理阶段对于数据进行怎样的操作?

 

效果比较好的方法大概有以下几类:

(1)根据不同的属性对数据排序

(2)对于大型数据集,可以逐步对其进行清理,改进数据质量,直到符合期望。

(3)为了提高迭代速度,我常常将大数据集,将它们分解为小数据。

(4)对于常见的清理任务,创建一组实用工具函数/工具/脚本。它可能包括基于CSV文件或SQL数据库重新映射值,或者借用正则表达式进行搜索和替换,删除所有不匹配正则表达式的值。

(5)如果对数据的清洁度有问题,请按估计的频率排列它们,并解决最常见的问题

(6)从统计指标入手,分析每个列的汇总统计信息,像是标准差、平均值、缺失值等。

(7)跟踪每个日期清理操作,以便在需要时更改或删除操作


6、请解释logistic回归。

 

logistic回归是一种检验数据集的统计方法,其中有一个或多个定义结果的自变量。(或者说是多变量到单变量的映射,清晰合理即可。

 

7、你在进行数据分析时常用哪些工具?

 


Tableau/RapidMiner/OpenRefine/KNIME/Google Search Operators/Solver/NodeXL/io/Wolfram Alpha’s/Google Fusion tables

(结合个人能力,并注意数据分析不同阶段的软件最好都涉及到)

 

8、请说明数据分析(data profiling)和数据挖掘(data mining)之间的区别。

 


data profiling和data mining的区别在于

data profiling:它以单个属性的实例分析为目标。它提供各种属性的信息,如值范围、离散值及其频率、空值的出现、数据类型、长度等。

data mining:侧重于聚类分析、异常记录检测、相关性、序列发现、多个属性之间的关系保持等。

 

9、请列举数据分析师面临的一些常见问题。

 


数据分析师面临的一些常见问题是:常见的拼写错误;重复的条目;缺失值;非法值;不同的值表示;重叠数据的识别

 

10、你知道Apache为在分布式计算环境中处理应用程序的大数据集而开发的框架的名称吗?

 


Hadoop和MapReduce是Apache开发的用于在分布式计算环境中处理应用程序的大型数据集的编程框架。

 

11、描述通常观察到的值缺失的模式是什么?

 


通常被忽略的模式是完全随机缺失、随机缺失、这取决于缺失的值本身、这取决于未观察到的输入变量。

 

12、解释什么是KNN填补法?

 


在KNN注入中,缺失的属性值是通过使用与缺失的属性值最相似的属性值进行注入的。利用距离函数确定两个属性的相似性。

 

13、提到数据分析师使用的数据验证方法是什么?

 


通常,数据分析师用于数据验证的方法是:数据总览,数据验证。

 

14、如何处理可疑或缺失的数据?

 


(1)准备一份提供所有可疑数据信息的验证报告。它应该提供,失败的验证标准以及发生的日期和时间等信息。(这点常常被忽略)

(2)有经验的人员应检查可疑数据以确定其可接受性

(3)应该分配无效数据,并用验证代码替换

(4)对于缺失的数据,可以采用最好的分析策略,如删除法、单一归位法、基于模型的方法等。

 

15、提到如何处理数据多源问题?

 


为了解决多源问题,可以重构模式以完成模式集成,也可以标识类似的记录,并将它们合并到包含所有相关属性的单个记录中,避免冗余。

 


阅读46059
268
分享

超级简历 APP

从简历直达offer,快人一步拿高薪

简历模板
零经验实习简历模板
1,082,450人用过
适用于学生找实习,第一次工作,没有实习经历的同学
学生求职简历模板
2,380,349人用过
适用于学生找实习或全职工作,有一定实习经历的同学
申请研究生简历模板
662,198人用过
适用于学生申请国内及海外的研究生,或考研复试时使用
经典工作简历模板
2,897,160人用过
适用于工作经验一年以上,想要变动工作的人士,适用于全行业
投行咨询简历模板
699,419人用过
适用于寻求投行,咨询,四大或外企工作岗位的人士
产品经理简历模板
967,618人用过
适用于申请互联网行业的产品相关岗位,有针对性的模块和引导
程序员简历模板
861,024人用过
适用于互联网行业的程序员和技术求职者找全职工作、跳槽时使用
留学英文简历模板
225,624人用过
适用于高中生,申请国外本科留学,有针对性的英文案例和引导