怎样用百度等搜索引擎找某个网站可供下载的文件
的有关信息介绍如下:一些网站会提供一些可供下载的文档,但是,由于网站分栏多,且面对的用户群庞杂,有的时候,我们很难找到所有的入口,且网站本身没有搜索功能或是搜索功能不完善,让我们难以找到这些文件。这个时候,百度搜索引擎的高级搜索就有用武之地了。
各个搜索引擎都有高级搜索功能,具体的搜索表达式语法可能不一样,但是大体原理是一致的,本文选百度为例进行讲解,其他搜索引擎请大家同理参考即可。而要寻找的可下载文件的网站,本文选网易为例。
我们先用百度的站内搜索来检验一下,看看我们需要寻找可下载文档的网站,是否有被百度收录内容。我们先确定要寻找网站的域名,然后用形如“site:***.xxx”的站内搜索表达式进行搜索,***.xxx代表的是要搜索的网站的域名,***代表被搜索网站的主域名(既可以是网站的一级域名,也可以是二级域名,或者是更多级次的域名),xxx代表网站的顶级域名。注意,表达式里的冒号是半角符号(英文输入法状态下的冒号),且冒号前后不带空格。例如下图1所示,我们检验网易全站是否有内容被百度收录,表达式里的网站就用网易的全站域名,结果证明网易全站被百度索引的内容很丰富。
如果我们只要检验网易新闻的被索引内容,则为了精确搜索,我们可以把搜索表达式里的域名调整为网易新闻的域名,而不是用网易全站的域名,如下图2所示,我们可以看到网易新闻也很多内容白百度索引了,且返回结果比单纯网易全站检索要少很多。
经过站内搜索检验,我们知道了该网站是否有内容被百度索引。如果经过检验发现目标网站没有内容被百度索引,那我们就不能再用下文的方法了,也没必要了。经过确认有很多内容被百度索引了,接着我们就确定所需要寻找的文件的文件格式(扩展名),因为百度高级搜索里的文档搜索表达式“filetype:文件扩展名”里需要用到文件格式的内容。假如我们要在网易全站寻找可供下载的word文档,那我们可以用如下图3所示的表达式进行搜索,可以看到轻易找到了大量网易可供下载的doc文档。要注意,搜索表达式里的冒号是半角符号,且冒号前后不带空格,两个表达式之间要带一个空格。
返回的结果太丰富了,我们可以考虑根据寻找目标再加一个关键词进行精确搜索,去掉一部分不是我们所需的文件,例如下图4所示。注意,关键词和表达式之间要加一个空格。
如果我们需要找的文件是多个文件类型的,那我们可以用百度高级搜索里的布尔或运算,其搜索表达式形如“关键词1 | 关键词2 | ……”。若是我们要在网易下寻找doc文件和pdf文档,可以用例如下图5这样的方法。注意,或运算表达式要用一个括号括起来,且括号是半角符号,且括号内的表达式之间要用一个竖杠分隔,竖杠前后都要带一个空格。
需要注意的是,百度的文档检索功能,能有效检索的文件主要是txt、doc、pdf、xls、ppt和rtf,其他类型的文件,基本无能为力。之所以会出现这种情况,是因为txt、doc、pdf、xls、ppt和rtf等文件是日常生活和办公的主流文档格式,且有成熟的解决方案可以轻易在网站上实现在线浏览和下载。例如下图6所示,我们可以看到连常见的jpg图片格式都无能为力。
运用本文方法,请先检验目标网站的内容是否被搜索引擎索引收录,如果内容没有被索引,那接下来再用本文方法就没有意义了。
如果目标文件是txt、doc、pdf、xls、ppt和rtf等文档,则可以用本文方法,如果是其他类型的文件,请考虑用其他方法。
请注意搜索表达式里的冒号括号等是半角符号,且表达式及关键词之间需要带空格。