249045439
网站设计

企业网站设计爬虫“黑洞”

发表日期:2023-10-14   作者来源:www.guide2breastenhancement.co   浏览:0   标签:    

爬虫黑洞。爬虫在搜集藏文网页的过程中, 需要考虑可能出现的黑洞状况。 爬虫黑洞是指, 在抓取一张网页的链接时, 链接本身是一个无限循环, 致使爬虫抓取时跟着循环, 浪费资源。有时一些URL看着不同, 但实质指向同一张网页, 也会使爬虫陷入重复抓取的境地。 为了防止爬虫误入黑洞, 通常采取两种方案。一是爬虫回避动态网页, 由于动态网页常常会把爬虫带入黑洞。辨别动态网页时, 仅需判断URL中是不是出现问题, 含问号的就是动态网页。二是用Visited表记录已经访问过的URL, 但凡遇见新的URL存在于Visited表, 就舍弃对该URL的继续处置。比如:当遇见abcdce如此的环路链接, 爬虫就会掉进来, 反复抓取c、d对应的页面。用Visited表, 就能防止这个问题。

如没特殊注明,文章均为建站精灵 原创,转载请注明来自http://www.huijianjun.com/news/3/4460.html