欢迎光临
我们一直在努力

csdn是什么网站(csdn个人网址在哪)

1、突然闲来无事想要爬取博客,顺便温习下相关技术点。爬取的主要的数据已经在上用红线图标出来了,主要可分为两部分。

2、所有博客的八个统计数据,原创的博客数、你的粉丝数、博客获得的赞、博客的评论数、博客等级、访问量、积分和排名。每篇博客的具体信息,如标题、发布时间、阅读数、评论数。浏览器12开发者工具查看网页结构,比较简单,如下图所示。网站虽然是一个技术性博客,但是貌似它的反爬措施做的不那么优秀,举个例子,我在分析网页结构的过程中发现它的评论数不是通过动态渲染的,而新浪新闻做到了这一点,也许是因为新闻类的实时性要求较高而技术博客类没这个必要吧。

3、我看到许多爬虫教程都是用的2等比较过时的爬虫库来获取网页信息,一来2马上停止支持,2时代的2的凸现出来的毛病会越来越多且无法得到官方的修复;二来无论是基于2的2还是3的3,过程都稍显繁琐,不如库简明,而且2/3能做的都能做,干嘛不用呢。()接收两个关键字参数,第一个就是我们要爬取网页的,第二个就是请求头,用于模拟浏览器访问服务器,不然的服务器会拒绝连接,不懂的可以百度补一下计算机网络相关知识。()返回的是一个对象,通过它的属性可以得到网页的源码,字符串类型,这样以后我们就能通过方便地解析网页获取我们想要的信息了。

4、其实解析网页最直接的办法是利用这个库写正则表达式提取信息,优点是正则是万能的,所有的字符串提取都可以通过字符串提取,只有改变匹配的规则就行了,不过缺点是学习起来费劲,最好还是要掌握的,毕竟每个语言的匹配规则都是类似的,在学的匹配规则照样可以用在中,只是语法不同,稍有差异,第三方解析库有、等,学习这些库前最好已经掌握选择器的一些语法规则,再学这些解析库就事半功倍了,个人感觉最好用的是库。安装需要在在命令行下输入:。拿到网页源码后得到一个对象,其中参数就是网页源码-”)来得到标签下为-的标签下的所有标签,返回的仍是一个对象,如果的标签不止一个,我们可以通过。

5、()把这个对象转乘一个生成器,通过来迭代获取每一个标签,同样地,迭代出来的每一个子项还是对象。|:—:|:—:|。|()|得到标签下属性的属性值,字符串类型|。|()/()|得到标签的父/子标签|。

1、|()|得到标签的文本|。更多的可以参考:官方教程。另外的,假设一个对象,通过(“”),可以对里的标签再选择,所以这种选择过程可以是多重嵌套的,一个容易忘记的选择器语法是(“[=]”),用来选择标签下属性的属性值为的所有标签。如下图所示,所有的功能目标已经实现。

2、其中就是想要爬取博主的,可以去博主的主页看。2019/01/21,代码如下:。

3、代码最新更新在我的:爬虫集合之爬虫。同时可以关注我的爬虫专栏:3爬虫实战。

赞(0)
未经允许不得转载:梦马网络 » csdn是什么网站(csdn个人网址在哪)
分享到

登录

找回密码

注册