您现在的位置是:主页 > Web前端技术 > Web前端技术

java网络爬虫的基础知识有哪些编程语言

IDCBT2022-01-07服务器技术人已围观

简介这篇文章主要介绍“java网络爬虫的基础知识有哪些”,在日常操作中,相信很多人在java网络爬虫的基础知识有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,

这篇文章主要介绍“java网络爬虫的基础知识有哪些”,在日常操作中,相信很多人在java网络爬虫的基础知识有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”java网络爬虫的基础知识有哪些”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

1、有 “道德” 的爬虫

我为什么会把这一点放在最前面呢?因为我觉得这一点比较重要,什么叫有 “道德”  的爬虫呢?就是遵循被爬服务器的规则,不去影响被爬服务器的正常运行,不把被爬服务搞垮,这就是有 “道德” 的爬虫。

经常有人讨论的一个问题就是爬虫合法吗?知乎一下你看到的将是这样的

答案千千万,在这众多答案中,我个人比较赞同下面的这个回答

爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析,正如水果刀本身在法律上并不被禁止使用,但是用来捅人,就不被法律所容忍了。

爬虫违不违法?取决于你做的事情违不违法,网络爬虫的本质是什么?网络爬虫的本质是用机器代替人工去访问页面。我查看公开的新闻肯定不犯法,所以我去采集公开在互联网上的新闻也不犯法,就像各大搜索引擎网站一样,别的网站巴不得别搜索引擎的蜘蛛抓取到。另一种恰恰相反的情况是去采集别人隐私的数据,你自己去查看别人的隐私信息这就是一种违法的行为,所以用程序去采集也是违法的,这就像答案中所说的水果刀本身不违法,但是用来捅人就违法啦。

要做到有 “道德” 的爬虫,Robots 协议是你必须需要了解的,下面是 Robots 协议的百度百科

在很多网站中会申明 Robots 协议告诉你哪些页面是可以抓取的,哪些页面是不能抓取的,当然 Robots  协议只是一种约定,就像公交车上的座位一样标明着老弱病残专座,你去坐了也不违法。

除了协议之外,我们在采集行为上也需要克制,在 『数据安全管理办法(征求意见稿)』的第二章第十六条指出:

网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

这条规定指出了爬虫程序不得妨碍网站正常运行,如果你使用爬虫程序把网站搞垮了,真正的访问者就不能访问该网站了,这是一种非常不道德的行为。应该杜绝这种行为。

除了数据的采集,在数据的使用上同样需要注意,我们即使在得到授权的情况下采集了个人信息数据,也千万不要去出卖个人数据,这个是法律特别指出禁止的,参见:

标签:

很赞哦! ()

本栏推荐