Python学习网络爬虫主要分3个大的版块:抓取,分析,存储
另外,比较常用的爬虫框架 ,这里最后也详细介绍一下。
首先双重一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:
当我们在浏览器中输入一个网址后回车,后台会发生什么?比如说你输入 ,你就会看到宁哥的小站首页。
简单来说这段过程发生了以下四个步骤:
发现域名对应的IP地址。
向IP对应的服务器发送请求。
服务器响应请求,发回网页内容。
浏览器解析网页内容。
网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定网址,