位置 > 首页 > 图解小知识

爬虫是什么

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。

Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源，很多大型的网络搜索引擎系统都是基于Web数据采集的搜索引擎系统，由此可见Web网络爬虫在搜索引擎中的重要性。

在网络爬虫的系统框架中，主过程由**器、解析器、资源库三部分组成。**器的主要工作是负责给多线程中各个爬虫线程分配工作任务；解析器的主要工作是下载网页，进行网页的处理，处理的内容包括JS脚本标签、CSS代码内容、空格字符、HTML标签等内容。资源库是用来存放下载到的网页资源，一般会采用大型的数据库存储，并对其建立索引。

花开了，我就以为我等到了春天，但是，花是开了，而我等到的是秋天。

本站声明：本站部分文章来自网络，由用户上传分享，如若内容侵犯了您的合法权益，可联系我们进行处理。文章仅供大家学习与参考,不**本站立场。

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

精美图文推荐

作者信息

凉初丨
(0)赞

2022-02-22 01:03:40