s4kura0ne 发表于 2021-1-21 22:43

写个了e/ex站的calibre本子信息爬虫...

初来乍到... 链接一下这个帖子..么的回复权限 [分享] [用了三年的更新]分享一下本子的管理方法 @2517君

对于从e/里站下载的本本,我全网搜了一遍发现除了正则,其他也没什么信息搜刮器..然而官网上的信息(tag, 作者, 标题, 评分, 语言, 原页面)倒是很全,也已经有爬虫脚本了..然后我就做了个打包进cbz文件的脚本。calibre也支持按tag检索, 这下子就方便多了。
https://github.com/xiazeyu/hentaiTagger4calibre

https://www.hualigs.cn/image/600992f439efa.jpg

ChengChung 发表于 2021-1-21 23:40

脚本使用流程还是太长了一点点。。
如果能整合成一键(下载zip+meta)就好了(逃
提供一个想法,把导出info.json的脚本里的createGalleryPageDownloadLink函数稍微改一下,
const node = document.querySelector("#gn");
      const zip_title = (node !== null ? node.textContent.trim() : null);

      link.setAttribute("download", `${zip_title}.info.json`);

这样本子下载下来的zip名字会和info.json的名字有匹配之处而且不会重名,虽然说到底还是一个一个下载,但就不必每次都进行改名字了,还需要拉进zip里面再解压出来这种操作了
之后遍历下载文件夹下的zip和info.json,进行名称匹配,我感觉解压和重建calibre的文档都可以写在同一个脚本里了,而不是跑三次脚本

不过我还没想过如果标题里有奇怪的字符是否能真的匹配上

hsyg 发表于 2021-1-21 23:42

这种能不能爬到已经删掉的画廊的种子或者本体

borrowface 发表于 2021-1-22 09:55

先收藏

—— 来自 Xiaomi Mi 10, Android 10上的 S1Next-鹅版 v2.4.4

aji47 发表于 2021-1-22 12:00

绞刑架 发表于 2021-1-22 14:11

马克思佩恩,目前我是一周下一次种子,基本上好的新本都有种,老本种子没了确实需要些工具

MMIno 发表于 2021-1-22 14:39

问一下,这个用法是在三个脚本的目录下面放置漫画的压缩包,然后挨着运行脚本,最后再把压缩包放到cailber里面吗?
页: [1]
查看完整版本: 写个了e/ex站的calibre本子信息爬虫...