您的位置 首页 php

码农写了个爬虫,看到抓回来的文字笑了,网友:不封ip已很友好!

想必有部分程序员也写过一些爬虫程序吧,不论是 java 语言还是php语言还是 python 等,都可以轻松实现,用php一行代码就可以抓取一个网页,不过后续要处理的细节还是蛮多,各种去噪处理什么的,另外还要注意的一点就是要遵循一定的规则,有的网站是不希望被抓取的,在网站的根目录下会有一个robot.txt之类的文件,爬虫要遵守这个规则,如果不遵守这个规则就算是比较流氓的做法了,近期一个程序员就给我们分享了他的一个遭遇。

这名程序员写了一个爬虫程序,他写的这个程序可能就没有遵守爬虫规则,他试图去抓取对方的网站后却抓来一行文字(傻逼,你爬个锤子!),看到这行文字后令他哭笑不得,他感觉对方是在挑衅,这名程序员就发出如下的感慨:“对爬虫能不能友好点,这么挑衅,就得搞死你,尊严问题,不是数据的问题了,都是开发,何必呢”,针对这名程序员网友的这种情况,让我们一起看看其他网友们都是怎么看待的吧!

网友一 :我觉得这种还好,我们识别到爬虫都是不封接口故意给错误数据的…………

上世是朵花 :这名网友他们的做法是不封接口,给错误数据,不过楼主的情况,给的数据具有挑衅的性质,更容易让对方攻击。

网友二 :可以幽默一点嘛

上世是朵花 :是的,来一个搞笑风格的会好一点,这样不至于得罪对方,也委婉的拒绝了对方爬取数据。

网友三 :死循环请求搞奔他

网友回复网友三 :你以为人家傻么?你根本就到不了应用服务器就被拦了

上世是朵花 :技术这个东西,道高一尺魔高一丈,看有没有必要,需要花多大的成本看具体情况了,攻和防都是无上限的。

网友四 :这很容易得罪别人,小心被攻击

上世是朵花 :如果得罪一个高手,估计就真的与他们进行一次技术较量一下了。

网友五 :这种是常见的手段了

上世是朵花 :是的,这种做法是比较常见,都是返回一个错误数据,不过这个语言稍微有点挑衅,倒是觉得挺有意思的。

网友六 :分布式爬虫来一套

上世是朵花 :关键是他也没有那么多资源可以利用,没必要,就当一个笑话看就行了。

网友七 :哈哈哈,DDOS他

上世是朵花 :对方既然敢这么说,想必也有一定的技术实力可以防备的。

网友八 :我笑了

上世是朵花 :我想大部分人都会笑吧,遇到被拒绝抓取的情况是挺多,不过来这么一句话的就感觉挺逗的,不免让人看了一愣。

看了这样一种情况,大家都是觉得挺逗的,是吧,通过这个案例,我们也不难得出这样的结论,在写爬虫的时候也是需要讲究一点规则的,比如要遵守robot.txt,还有是要控制访问频次什么的,比如对方的服务器比较弱,访问的过于频繁,势必对对方的网站造成影响,这样就不是很友好了,另外,作为网站方,如果发现有不遵守规则的爬虫过来抓数据,就给一个反馈就好了,不要反馈带有挑衅的语言,如果碰上一个气不过的人,可能会真盯上网站了,这样的事情,双方都有需要注意的地方,双方都是开发人员嘛,要正确处理这样的事情,保持友好共处。

以上所有图片均来之互联网

大家好,我是“上世是朵花”。如果你有什么好的看法或者观点可以在评论区展现你的才华,互动交流,如果想进一步了解我,那就关注我吧!

文章来源:智云一二三科技

文章标题:码农写了个爬虫,看到抓回来的文字笑了,网友:不封ip已很友好!

文章地址:https://www.zhihuclub.com/151718.shtml

关于作者: 智云科技

热门文章

网站地图