标签：爬虫

Java爬虫之HTTPClient和Jsoup解析

今日寄语爬虫学的好，监狱进的早，爬虫学的6，牢饭吃个够。

java 2023年4月29日点赞(2)评论关闭阅读(210)

在工作中，我们经常需要去获取一些数据，但是这些数据可能需要从第三方平台才可以获取到。这个时候，爬虫系统就可以帮助我们来完成这些事情。提到爬虫系统，很多人都会想到使用python。

java 2023年4月28日点赞(0)评论关闭阅读(124)

网络爬虫网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。聚焦爬虫工作原理以及关键技术概述网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。

java 2023年4月26日点赞(1)评论关闭阅读(99)

hon爬虫，“爬”特价机票、“爬”人脸识别监控、“爬”支付宝、“爬”12306、“爬”微信、爬论坛…

java 2023年3月20日点赞(1)评论关闭阅读(119)

一、网络爬虫的基本知识网络爬虫通过遍历互联网络，把网络中的相关网页全部抓取过来，这体现了爬的概念。爬虫如何遍历网络呢，互联网可以看做是一张大图，每个页面看做其中的一个节点，页面的连接看做是有向边。

java 2023年3月12日点赞(0)评论关闭阅读(88)

来源：公众号平头哥的技术博文，作者平头哥说起网络爬虫，大家想起的估计都是 Python ，诚然爬虫已经是 Python 的代名词之一，相比 Java 来说就要逊色不少。

java 2023年3月6日点赞(1)评论关闭阅读(90)

前言爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。现在比较适合写网络爬虫的应该是Python，今天给大家介绍一下java编写网络爬虫的简单案例。

java 2023年3月5日点赞(1)评论关闭阅读(274)

其次，如果是网络爬虫或者网络采集，可能需要做大量的URL地址收集和分析，所以需要通过NoSQL数据库来提高执行的效率，Redis、Memcache、BerkeleyDB都是不错的选择。

java 2023年1月10日点赞(3)评论关闭阅读(138)

介绍大数据环境下，数据分析已由业务驱动转变为数据驱动，网络数据资源呈指数级增长，且散落在不同的数据源之中。

java 2022年12月7日点赞(0)评论关闭阅读(75)

在我们调试爬虫程序的时候，单线程爬虫没什么问题，但是当我们在线上环境使用单线程爬虫程序去采集网页时，单线程就暴露出了两个致命的问题：采集效率特别慢，单线程之间都是串行的，下一个执行动作需要等上一个执行完才能执行对服务器的CUP等利用率不高，想想我们的服务器都是 8核16G，32G

java 2022年12月7日点赞(1)评论关闭阅读(400)