笑脸相迎 香港科技大学·2022届
APP 内打开
分享
8
33

NLP面经回馈

虽然还没收获满意的offer,不过后面也没什么面试了,所以来回馈下(最近发帖比较多,我怕后面懒下来就不发了,所以趁现在赶紧发出来),放一些秋招面试的面试题,主要是nlp方向。有些公司当初忘了记了(阿里、考拉和依图)记了或者觉得没什么可记的(比如华为和vivo),记下来的如下:

网易互娱 - ailab - 人工智能研究工程师

一面50分钟


自我介绍

介绍腾讯实习内容

Attention机制的原理

介绍艾耕实习内容

Fasttext原理,相比于word2vec有什么优势

文本分类除了CNN和RNN还知道哪些方法?

BILSTM + CRF模型的原理

多任务学习和对抗网络了解不

给定两个命名实体识别任务,一个任务数据量足够,另外一个数据量很少,可以怎么做

隐马尔可夫模型了解吗,和CRF的区别

word2vec是有监督的还是无监督的?

思考题:有A(红)B(蓝)两瓶墨水,从A中取一勺倒到B中,混匀后,再从B中取等量墨水,倒到A中。问,是A中蓝墨水多还是B中红墨水多?


二面55分钟


自我介绍

摘要抽取怎么做的

命名实体的应用场景,泛化能力怎么样

CRF模型说一下,优化目标是什么,怎么训练的?

CRF和HMM的区别

HMM做了哪些独立性假设

HMM的训练方法

CRF的预测方法,维特比算法的过程

画Transformer的结构图,讲一下原理,为什么self-attention可以替代seq2seq

机器翻译的Attention机制,里面的q,k,v分别代表什么

Fasttext原理,cbow和skipgram的区别,分层softmax和負采样,負采样的采样原理,为什么要这样采样,Fasttext哈希规则,怎么把语义相近的词哈希到一个桶里。

讲一下腾讯的实习

模型怎么实现的,有没有优化矩阵的运算

为什么要用Fasttext做文本分类,是因为训练快还是预测快

推导lr

智力题:蓄水池采样


网易云音乐 - nlp算法工程师

一面50分钟

自我介绍

讲一下随机森林,GBDT,XGBoost

XGBoost相比于GBDT有哪些改进

Adaboost和XGBoost的区别

Adaboost和XGBoost是怎么进行预测的

讲一下Textcnn的运算过程

文本分类的评价指标

讲一下AUC

过拟合的解决方法

稳定和非稳定的排序算法有哪些

二分查找递归和非递归的时间和空间复杂度

手写冒泡排序,写完问这个程序要上线还需要考虑哪些东西


二面30分钟

劝退



拼多多 - 算法工程师

一面75分钟


全程讲实习

LDA的词表示和word2vec的词表示有什么区别;

Fasttext 原理,为什么用skipgram不用cbow,負采样怎么做到,公式是什么?

画Transform结构图

代码题:给定字符串 s ,求与 s 编辑距离为2的字符串集合。


二面45分钟

全程讲实习


代码题:一个圆被分成M个扇形,一共有N种颜色,相邻扇形不同色,一共有几种涂法?


三面hr


还在面哪些公司

有offer了吗

最理想的公司是哪?

选择offer最看重哪些因素

我们公司加班很多,你怎么看

女朋友去哪?(并没问是否单身就直接问了这个问题)

期望薪资多少?



追一科技 - 自然语言处理工程师

一面50分钟


讲实习

为什么Attention的结果和TextCNN的结果相差不大(不太明白什么意思,就讲了下两者对信息提取范围大小的区别)

Fasttext和word2vec的区别

Fasttext怎么做分类的

词向量用什么训练的,维度多大

XGBoost和随机森林的区别

XGBoost相对于GBDT的区别

XGBoost工程方面的改进有哪些?

XGBoost和随机森林的特征重要性是怎么计算的?

输入补全可以用哪个数据结构来做?(字典树)

假如有10亿条搜索请求,怎么找出最热的前10条?

问问题得到的信息:上海那边的部门主要是做金融保险业的定制化的智能客服,偏工程方向。主要工作内容有客服系统开发、知识图谱搭建、三元组抽取等,基本上会用到所有的NLP知识。。。

补充:梯度消失和梯度爆炸的原因,为什么rnn比cnn和全连接层神经网络更容易发生梯度消失或爆炸

补充:怎么判断过拟合,怎么防止过拟合,说一下dropout


二面30分钟

聊实习



百度 - 算法工程师

一面60分钟


讲项目

如果再给一次机会,你觉得这个项目还有什么可以改进的点?

代码题:二分查找

代码题:旋转数组的二分查找

代码题:给定长度为n的数组,求所有可能长度为m的排列组合的情况


二面60分钟

讲项目

讲fasttext,词向量,文本分类原理

文本分类CNN,LSTM和Attention的区别

代码题:有n枚硬币,每次从左边或右边拿一枚,一共拿m次,求能拿到的最高价值


三面60分钟

经理面

讲项目

讲比赛,现在来看有什么可以改进的点

智力题:圆盘涂色问题

一些hr题



英语流利说

一面20分钟


实验室方向

详细讲一下Transformer模型;transformer中句子的encoder表示是什么;怎么加入词序信息的。

讲一下BLEU;

怎么用数据处理的trick提升了NER的表现

摘要抽取可读性问题怎么回事?

二面60分钟


手撕代码:二叉搜索树转有序双向链表,要求不能创建新的节点

做过的nlp任务中,哪个任务最难?你觉得有哪些可以改进的点,怎么改进?

摘要生成怎么做的?

讲一下SVM

概率图模型,有向图模型和无向图模型分别作了哪些假设?CRF的训练目标是什么?

BILSTM+CRF的训练目标?状态转移矩阵是joint learn的吗?维度是多少?

维特比算法的时间复杂度

LSTM相比于传统RNN解决了什么问题?怎么解决的?

Attention模型和CNN 的区别?



欢聚时代

一面40分钟


讲一下tag提取怎么做的,讲一下LDA,讲一下隐狄利克雷分布,里面有个辛普森采样了解吗

讲事件分类。数据有多少,样本不平衡怎么解决的,CNN用在文本里和用在图像里有什么区别,用在文本里时卷积核的宽度代表什么,你怎么选的,为什么要这么选?CNN和LSTM都可以用于分类,两者用于分类有什么区别?说一下Attention,Attention有哪些变种,为什么Attention模型的F指标还比不上作为baseline的textCNN?最后为什么选择Attention模型?词向量用什么训练的,数据量有多少,怎么评价词向量的质量的?词向量的维度是多少,为什么要选这个维度?文本分类中的多义词问题可以怎么解决?

讲讲CRF。CRF和HMM的区别,从有向无向图的角度呢?从其他角度呢?。CRF和深度学习的结合还知道哪些?

讲讲python的垃圾回收机制,讲讲装饰器

发布时间:2020年07月19日
用户头像
我来说两句…
共 8 条评论
猪倩 广西大学·2022届
LDA都聊到吉布森采样了。不愧是zju大佬。随便问一下大佬。eigen科技在杭州好吗?
2020年07月22日 回复
郭七斤 上海交通大学·2022届
😂😂😂这也太难了吧。。。transformer问到我肯定一脸懵逼。。概率图模型那边也不熟。。
2020年08月18日 回复
Nick 天津理工大学·2022届
想请问下大佬当时进艾耕科技实习的笔试和面试的情况,不胜感激。
2020年08月10日 回复
球呆呆不是二维码 同花顺·风控
Attention做文本分类那个是HAN吗
2020年07月29日 回复
Great 广东财经大学·2022届
互娱两面竟然都没让你手撕leetcode hard题,我看到代码题瑟瑟发抖
2020年08月17日 回复
小白听听 澳大利亚国立大学·2022届
想问下大佬艾耕科技的情况,我可能要去实习
2020年08月17日 回复
陌上星宇 大连海事大学·2022届
大佬最后去了哪家公司?
2020年08月16日 回复
槑槑 湘潭大学·2022届
活捉一枚博士大佬
2020年08月05日 回复