绅士漫画爬虫

前言

绅士漫画是一个免费的漫画网站,里面收录了大量的本子资源,包含汉化本,生肉本,以及韩漫,都由汉化组或者搬运工上传,不二压。

最近一直在使用E绅士(e-hentai.org),这应该是全世界最大的本子网站了,而且其丰富的tag可以让你轻松找到符合自己XP的本子。但是不幸的是E站每天都会接收到大量的版权投诉,导致大量的画廊被删除。

虽然E站的服务器遍布全球,并不在美国境内,所以也不需要遵守美国法律,有的服务器甚至是抗DMCA的,但是E绅士仍会接受这些版权投诉,并把对于的画廊删除。
详见:https://forums.e-hentai.org/index.php?showtopic=246653

即便如此,版权内容还是会被不断上传,并不断的被删除。
我觉得这挺荒诞的,但这就是E站的做法,他们肯定也考虑了很多,我作为一个看本子的只会觉得很可惜。irodori什么时候死啊
总结一下:

天下苦版权炮久矣!
一姬表情6.webp

但在偶然之间,发现了绅士漫画这个网站(www.wnacg.com),这是一个免费的在线的漫画网站,里面收录的本子也不少,最重要的一点是,这里没有版权炮,不必担心上一秒还在鉴赏的本子,下一秒就被删除了。
标签系统虽然没有E站那么丰富,但提供标签也能够查找到自己喜欢的作者,而且免登录,免费下载。

但是对于我这样的lsp而言,漫画只能单本下载是不足以满足我的,批量下载漫画是必须的,于是写了这个爬虫。
搭配之前搭建了一个在线的漫画阅读的项目(详见:Docker搭建Komga漫画库)
就可以做到把喜欢的本子统统下载下来了!
一姬表情02.webp

简介

下载

点此下载:
wnacg.py
requirements.txt

功能

查找可用域名(详见发布页:绅士发布页) 通过漫画的url下载 通过关键词下载 批量下载 单本下载 解压或打包
之前写的yande爬虫,实际上是有许多弊端的,虽然有一个友好的gui,但实际上却忽略了许多问题:比如如何在mac上运行,如何在Android上运行,如何在linux上运行等等。
后来我想通了,一个爬虫下载的脚本,只需要使用最基本的命令窗即可。

食用方法

安装并配置python环境略去,不了解的可以自行百度。
下载wnacg.py文件,以及requirements.txt。
放在同一路径下,运行
python pip install -r requirements.txt
安装依赖,运行py脚本。
python python wnacg.py
运行成功后会自动创建一个config.ini 配置文件模板,默认不用管。47e320697cc9d3131bcf11ff557265b6.png

提示需要输入绅士漫画发布页,默认回车即可。 提示输入下载目录,输入下载路径或者回车即可,如E:\wnacg,留空回车将会在当前文件夹生成output文件夹存放下载的漫画。 提示输入是否解压为文件夹。 自动检测可用的域名,并选择其中一个。(没有什么区别,仅域名不同,某些域名ban日本IP)48c0ec80d4d268657fa08d68c2ed1d0b.png 输入关键词,列出可下载漫画列表。可以下载单本,下载整页或者下载全部漫画。c945e716d65b4e3a4005a2a00d5fd6c2.png 输入链接下载单本漫画,只能是photos-index-aid格式URL,其他格式不支持。21ee4326184b8d16659ef8fbd5232613.png

碎碎念

代码写的很长很乱,目前能用就是赢!感兴趣的小伙伴可以自行修改。

这个爬虫主要是写了两种下载的实现。

第一种是调用漫画界面的自带的打包下载 另一种是请求每一页的图片并获取图片地址。

第一种形式很方便,但是绅士的打包是交由上传者决定的,不打包的漫画无法通过这个方法下载(我觉得这么做意义不明就是了),只能每一张图片请求了。

那么最后祝愿诸君都能在新的一年里找到自己喜欢的本子~

一姬新年初诣表情1.webp

image.png

绅士漫画爬虫最先出现在krkr2(beta)。

文章来源:

Author:vce1
link:https://www.krkr2.xyz/1530/