注意该招聘信息在 100 天前已发布,有可能已失效
0

申请人

全职 华兴资本逐鹿X招聘网络爬虫工程师

北京就是逐鹿科技有限公司 in 北京

公司简介

华兴资本是中国领先的服务新经济的金融机构,致力于为中国与全球资本市场对接提供独特、高效的金融平台,为中国新经济创业家提供一站式金融服务。 逐鹿X是专业高效的早期投融资平台,基于数据和算法为创业者和投资人之间建立匹配,解决早期投融资信息不对称的问题,提升投融资效率。目前,逐鹿X平台上已有来自2000多家投资机构的8100位投资人实名认证,精选项目4000余个,我们将以最专业的服务,帮创业者搞定融资。 官网:zhulux.com

基本要求:

1.精通网页抓取原理及技术,精通正则表达式以及XPath,擅长从结构化的和非结构化的数据中提取信息;
2.精通 Python/Ruby/Lua等脚本语言的一种或多种 编码基本功扎实;
3.熟悉 Scrapy/Redis/MongoDB/PostgreSQL/Elasticsearch/Solr/HBase/HtmlParser/Selenium等开源组件的一种或多种;
4.熟悉 Linux系统常规 Shell处理命令, 灵活运用 Shell做的文本处理和系统操作。

加分项:

1.熟悉常见反爬虫策略及其规避方案者;
2.熟悉 Haskell、 Lisp、 Clojure等函数式编程语言的一种或多种;
3.具有自然语言处理、 信息检索、 机器学习、 自动化测试等领域工作背景者;
4.了解分布式系统的设计,对于分布式存储、消息队列、网络通讯具有实践经验;
5.熟悉AWS、 GoogleCloud、阿里云等主流云平台的一个或多个 能够基于云服务(包括但不限于: VPC、 Lambda、 API Gateway等组件)打造Cloud-Native架构的分布式系统;
6.关注开源社区, 是开源项目的 Contributor。

描述
1.开发并持续优化爬虫系统, 解决数据抓取过程中遇到的常见问题;
2.对接第三方数据源,清洗入库;
3.编写数据分析脚本。

Why Us

华兴资本是国内TMT领域最顶尖的投资银行,亦是滴滴快的合并,京东、微博、陌陌上市,豌豆荚、摩拜单车、快手融资等等一系列互联网圈大案要案的「幕后推手」,市场上绝大多数领先的互联网公司都跟华兴资本有过合作,每年华兴参与超过数百亿美金的资本运作。
你的每一行代码,都旨在让整个真实世界的创业融资更有效率、将数以万计的人们从繁琐机械的重复劳动中解救出来,并基于此让整个世界变得更加美好。
我们提供最卓越的薪酬福利及工作环境:高于BAT的薪资、补充商业保险、每年10天年假、带薪病假、人体工学坐椅、顶配MBP、大屏显示器、零食饮料水果供应。

工作地址:北京东城 香河园路1号当代MOMA商务中心



« 返回分类
这是虚假的招聘信息? 报告   
推荐一位朋友
发布于 2017-05-04
查看1302