您的位置首页生活百科

如何采集百度新闻中的文章

如何采集百度新闻中的文章

的有关信息介绍如下:

如何采集百度新闻中的文章

本文主要讲用火车采集器采集百度新闻中的文章,不讲如何发布到网站上,只讲采集到本地。主要包括两大步骤,一个是采集新闻列表,然后是采集具体内容。

在左侧控制面板中点击右键,选择新建分组,分组名为test

选择test分组,右键,选择新建任务,弹出如下对话框

比如采集手机游戏的文章,可以先在百度新闻里面搜索 “手机游戏”

为了方便比较网址的规律,将网址复制到word中,点下一页,复制网址到word中,多复制几个,寻找规律从上图可知,第一页没规律,从第2页开始,&pn=是20递增

点击添加网址,由于首页网址规律不一样,可以先添加首页网址,如下:

按规律批量添加其他网址,有变化的地方用(*)代替,递增的数列为20,如下:

查看百度新闻列表的源代码,发现这些新闻列表中新闻内容的网址规律如下:

添加采集内容网址规律

测试一下采集网址规则,看能采集到相关网址列表说明:如果测试结果中有很多无效网址的话,可以在写内容网址规则的时候,写排除哪些规则的网址

双击下面的测试列表中的网址,写内容规则

采集文章标题和内容,有需要的也可以采集文章时间等其他参数,先点开这个网址,查看源代码,可以了解到标题都是在标签中,规则设置如下 :先测试一下,看看结果。发现后面有一些多余的内容,可以选择过滤掉,如果有其他不需要的也可以另外过滤

采集文章内容,新版本的火车采集工具,有一个正文提取功能,可以直接提取正文内容,这样很方便,自己可以过滤掉一些不用的css,或其他html标签

测试采集结果

测试好后保存好规则

选择百度新闻采集任务,然后右键,选择采集。

采集内容中,采集新闻可以使用正文提取 ,如果正文提取不行的话,需要使用其他方式,如前后截取,正则等。。

采集结果要多选几个网址测试一下,过滤掉一些无用内容。

现在要商业版才能使用正文提取

本文谢绝转载