找项目 找团队就上我要外包网! 请登录免费注册
客服热线:010-58408369
同城外包信息服务平台
找项目
首页>找项目>办公自动化OA

基于baidu/google的网络爬虫

  • 项目序号: 51waibao458
  • 项目分类: 办公自动化OA
  • 项目预算: 2000-6000元
  • 所在城市: 北京市 东城区
  • 开发周期: 15到30 天
  • 竞标结束: 项目已过期
  • 发布时间: 2009-12-07 20:28:39
  • 招标截止时间: 2009-12-25 00:00:00
  • 项目状态: 项目已审核
  • 分享到:
我要外包网声明:

我要外包网致力于打造诚信的同城外包服务平台,不会从中间收取发包方任何费用。请选择同城的团队,以便最大程度保护交易成功。

请核实团队信息!请谨慎交易风险!

联系方式:我要外包网致力于打造诚信的同城外包信息服务平台,需团队资料认证才能查看项目联系方式

项目介绍

要求4周内完成。

1、给定关键词和目标网站,爬虫每次取一个关键词,使用site参数,到baidu、google中进行搜索。支持定时采集、增量采集。

2、存下所有的搜索结果链接。

3、按每个链接,获取到标题、正文、元数据等。

4、生成xml

特别要求:正文抽取需要完全采用自动的方式,不需要人工定义任何的标签,根据网页内容,自动抽取标题、时间、正文、作者等标签。
需要考虑到普通网站、新闻网站、博客、论坛几种情况,给定的网站中,可以给出目标网站的类型。
是否需要采用几种不同的内容抽取算法,以适应不同的网站类型,这个可按开发者自行决定。