最近也是学习了一些爬虫方面的知识。以我自己的理解,通常我们用浏览器查看网页时,是通过浏览器向服务器发送请求,然后服务器响应以后返回一些代码数据,再经过浏览器解析后呈现出来。而爬虫则是通过程序向服务器发送请求,并且将服务器返回的信息,通过一些处理后,就能得到我们想要的数据了。
以下是前段时间我用python写的一个爬取TX新闻标题及其网址的一个简单爬虫:
首先需要用到python中requests(方便全面的http请求库)和 BeautifulSoup(html解析库)。
通过pip来安装这两个