如何采集百度新闻中的文章
的有关信息介绍如下:本文主要讲用火车采集器采集百度新闻中的文章,不讲如何发布到网站上,只讲采集到本地。主要包括两大步骤,一个是采集新闻列表,然后是采集具体内容。
在左侧控制面板中点击右键,选择新建分组,分组名为test
选择test分组,右键,选择新建任务,弹出如下对话框
比如采集手机游戏的文章,可以先在百度新闻里面搜索 “手机游戏”
为了方便比较网址的规律,将网址复制到word中,点下一页,复制网址到word中,多复制几个,寻找规律从上图可知,第一页没规律,从第2页开始,&pn=是20递增
点击添加网址,由于首页网址规律不一样,可以先添加首页网址,如下:
按规律批量添加其他网址,有变化的地方用(*)代替,递增的数列为20,如下:
查看百度新闻列表的源代码,发现这些新闻列表中新闻内容的网址规律如下:
添加采集内容网址规律
测试一下采集网址规则,看能采集到相关网址列表说明:如果测试结果中有很多无效网址的话,可以在写内容网址规则的时候,写排除哪些规则的网址
双击下面的测试列表中的网址,写内容规则
采集文章标题和内容,有需要的也可以采集文章时间等其他参数,先点开这个网址,查看源代码,可以了解到标题都是在
采集文章内容,新版本的火车采集工具,有一个正文提取功能,可以直接提取正文内容,这样很方便,自己可以过滤掉一些不用的css,或其他html标签
测试采集结果
测试好后保存好规则
选择百度新闻采集任务,然后右键,选择采集。
采集内容中,采集新闻可以使用正文提取 ,如果正文提取不行的话,需要使用其他方式,如前后截取,正则等。。
采集结果要多选几个网址测试一下,过滤掉一些无用内容。
现在要商业版才能使用正文提取
本文谢绝转载