数据工程师
25-30K · 15薪
数据工程师 25-30K · 15薪
北京
本科
经验不限
发布于 5月26日
职位亮点
技术前沿
职位描述
PythonHadoop人工智能爬虫
岗位职责:
1. 负责研究院数据采集工作,包括文本、图片、视频等多种类型数据,持续更新和扩大数据集规模;
2. 根据项目需求,快速进行数据抓取代码和清洗代码开发;
3. 协助研究团队对数据进行清洗、过滤、存储等处理工作;
4. 对数据平台存储的海量数据进行管理和维护。

任职要求:
1. 计算机相关专业,熟悉计算机基础知识,具有3年及以上爬虫与反爬工作经验;
2. 熟悉linux平台开发,精通Python,熟悉各种爬虫框架和工具;
3. 掌握验证码识别技术、js逆向等常用反爬技能;
4. 熟悉Socket网络编程,多线程/进程/异步code的开发,掌握TCP/IP,UDP及常见变种网络通信协议,熟练使用工具对网络协议进行报文分析和调试;
5. 熟练使用正则表达式,xpath等匹配方法,能够快速从原始数据中提取有用信息;
6. 熟练使用并可以大规模优化和集群化部署PhantomJS,webdriver,Selenium,Appium等自动化测试工具进行web/app的抓取;
7. 熟练掌握MySQL,MariaDB,Postgre等关系型DB,同时对Redis,MongoDB,ElasticSearch等非关系DB有深入的理解和工程使用;
8. 良好的沟通能力,抗压能力强,能独立解决开发过程遇到的各类问题;
9. 有大规模项目爬取工作经验优先。
工作地址
北京市海淀区智源大厦1