如果你想聘请一位专业的拥有多年经验的网络爬虫开发工程师,建议您考虑乐思网络信息采集系统,它在网络定向爬虫领域有10多年的经验,相信一定可以帮到你。
下面的招聘要求中粗体部分,都是乐思网络信息采集系统擅长的。
职位描述:
1、职位概述
负责国外亚马逊、淘宝、京东等电子商务网络爬虫的开发;网络爬虫架构设计、功能开发及优化;网页信息抽取等核心算法的研究和优化;高性能、分布式网络服务的开发。
2、主要职责
–参与分布式爬虫和数据采集系统的架构设计和研发;
–参与分布式爬虫模块服务架构和数据存储架构的设计和研发;
–参与公司自开发软件产品的架构设计和研发;
–参与部门设计评审与代码审核;
–以技术专家的身份解决项目中所遇到的核心技术问题;
3、岗位要求
本科或以上学历 ,计算机软件或相关专业
5年以上JAVA开发经验;至少3年以上中大型web应用系统架构设计经验
2年以上互联网或企业级网络爬虫开发经验;
熟悉Lucene/Nutch/Heritrix/HtmlParser等开源工具,熟练使用正则表达式;
精通Java,精通OOP、UML、设计模式能熟练使用Rose建模工具完成软件设计;
具备信息检索、自然语言处理、web挖掘等搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抽取的开发经验
具有大数据挖掘、自然语言处理、信息检索、机器学习背景的优先;
熟练使用mysql等常用的数据库系统,对数据库有较强的设计能力,同时对数据库连接池的使用,线程池技术等较为熟悉者优先考
熟悉OO分析和设计模式;
具有电子商务,互联网背景者优先。
职能类别:高级软件工程师 系统架构设计师
关键字:网络爬虫 爬虫
职位描述:
工作职责:
1. 负责网络爬虫产品的研发工作;
2. 负责各种核心算法的设计与开发;
3. 负责网络爬虫采集规则的编写;
4. 解决网页抓取、信息抽取等问题,构建高可用性、高扩展性网络信息收集平台;
5. 解决封账号、封IP采集难点攻克。
职位要求:
1. 计算机、信息技术或相关专业本科或以上学历;
2. 三年以上开发经验,熟悉linux平台;
3. 两年以上大规模网页爬虫开发经验;
4. 有分布式爬虫架构经验者优先;
5. 对算法设计和数据结构有深刻的理解;
6. 有很强的分析和解决问题的能力;
7. 强烈的责任心和良好的团队合作能力。
职能类别:软件工程师
职位描述:
岗位职责:
1.分析定向数据源,制定数据抓取方案;
2.定向爬虫的编写与数据抽取;
3.维护已有爬虫程序。
岗位要求:
1.精通Java 或者 Python, 了解Linux Shell脚本;
2.精通HTTP 及 TCP 底层协议;
3.有较强的整体布局思维,数据框架组合处理能力强,对分布式计算和储存有经验者优先;
4.具有网络爬虫.网页信息抽取.机器学习.web挖掘等搜索引擎等任何一种优势经验优先;
5.计算等相关专业,本科学历,一年及以上经验。
职能类别:软件工程师
职位描述:
工作职责:
1.编写大规模分布式网络爬虫(多线程、分布式调度、协议处理);
2.系统解决动态网页内容抓取、深度网页内容抓取的关键技术;
3.机器学习,信息检索,大规模数据挖掘等工作;
4.负责大数据高性能分布式处理系统的开发
5.数据清洗整理类产品的应用开发、优化;
6.构建和开发在海量数据下多维分析的数据分析平台
职位要求:
1.Java基础扎实,精通SSH等开源框架;
2.熟悉MySql、Oracle、MongoDB一种或多种数据库开发技术,有较好的数据库设计能力;
3.精通网页抓取原理及技术、深度抓取、动态网页技术抓取、浏览器模拟抓取技术,从结构化的和非结构化的数据中获取信息;
4.精通爬虫和反爬技术,精通http底层协议;精通深度抓取、动态网页技术抓取、浏览器模拟抓取技术等;
5.熟悉分布式系统、多线程
6.具有网络爬虫、网页信息抽取、数据挖掘、自然语言处理、信息检索、机器学习、web挖掘等搜索引擎等相关经验优先;
7.计算等相关专业,本科学历,两年及以上经验
职能类别:系统架构设计师 软件工程师
关键字:Java开发工程师 爬虫 数据
岗位职责:
1. 负责传统网页和微博及SNS网站信息高效采集与正确解析;
2. 负责网页爬虫架构设计与核心技术研发;
3. 负责互联网资源的特征挖掘,主要对网页特征、站点结构、资源变化趋势等进行数据分析和特征建模;
4. 设计策略和算法,提升网页抓取的效率和质量,进一步解决系统的网页排重、垃圾控制、资源划分等问题;
5.负责美的网络爬虫平台的维护、改正、完善、升级等工作;
岗位要求:
1. 计算机、信息技术或相关专业本科或以上学历;
2. 有三年以上软件设计与开发经验;
3. 精通Java语言编程,熟悉linux平台;
4. 熟悉XML、JSON、http协议;
5. 精通网页爬虫、分布式、多线程开发技术者优先;
6. 有搜索相关领域如网页抓取/解析、信息挖掘、统计分析等研发经验者优先;
7. 具有很强的分析和解决问题的能力,攻克难题的强烈兴趣,善于学习。
职位描述:
工作职责:
1.进行网页的实时爬取和结构化。
2.维护爬虫系统
3.对爬虫系统进行统计和监控
4.优化爬虫效率
职位要求:
1.精通http协议,各种web认证机制。
2.一年以上java或python工作经验
3.为人细心,认真负责。
4.较强的维护能力,想法灵活,有较强的学习能力和团队合作精神。
职能类别:互联网软件开发工程师
职位描述:
爬虫工程师
工作地点:深圳
工作职责:
1.负责爬虫程序的设计与实现;
2.现有爬虫系统的改进;
3.爬虫正文抽取算法的改进。
工作要求:
1.计算机软件及相关专业有三年以上的爬虫程序设计开发经验;
2.拥有分布式爬虫经验优先;
3.熟悉Nutch、Hetrix优先;
职能类别:高级软件工程师 软件工程师