标签 笔趣阁 下的文章 - 云戈云
首页
关于
Search
1
油猴脚本,解锁CSDN VIP、超级VIP免费文章
401 阅读
2
大师兄影视 v3.3.8 1080P画质,极速点播,可缓存,解锁会员去广告纯净版
130 阅读
3
【引流必备】全平台全功能引流软件大全,解放双手自动引流【永久脚本+使用教程】
114 阅读
4
解密导出 微信 本地聊天记录 WechatBakTool v0.9.7.6
90 阅读
5
手机号码中间四位补齐工具
76 阅读
软件仓库
安卓端
电脑端
苹果端
开源软件
模块系列
root系列
教程教学
建站知识
逆向教程
技术教程
网络技术
技巧教程
游戏教程
网站源码
站长必备
卡网必备
主题免授
付费源码
易码源码
游戏源码
商业源码
网站插件
普通源码
付费项目
网赚课程
技术课程
Java系列
前端系列
引流必备
福利仓库
免费知识
脚本插件
油猴脚本
登录
/
注册
找到
1
篇与
笔趣阁
相关的结果
2024-12-15
Python利用无头浏览器爬虫爬取笔趣阁小说教程
正文 前言 笔趣阁作为一个免费的小说阅读网站,其动态加载的内容为许多读者提供了便利。但由于反爬措施和JS生成的内容,传统的Python爬虫(如requests或BeautifulSoup)已经难以应对。本教程通过使用类似Selenium的无头浏览器——pyppeteer,实现笔趣阁小说的批量爬取并保存为Word文档的方法。 教程步骤 步骤1:下载安装Chromium 下载方式一:通过 Chromium官网下载 下载最新安装包。 安装完成后,确保能正确运行浏览器。 步骤2:确认Chromium安装路径 安装路径在代码中会用到。例如: C:\Users\AW\AppData\Local\Chromium\Application\chrome.exe 根据自己的系统用户调整路径。 步骤3:编写代码 爬虫代码使用了pyppeteer和python-docx两个主要库,需要提前安装: pip install pyppeteer python-docx 以下为完整代码示例: import asyncio import os from docx import Document from pyppeteer import launch # 禁用自动下载 Chromium os.environ["PYPPETEER_SKIP_CHROMIUM_DOWNLOAD"] = "true" async def main(): wordName = "小说1~3章.docx" netName = "https://www.22biqu.com" firstPagePath = "/biqu5251/5259122.html" endPagePath = "/biqu5251/5259124.html" catchUrl = netName + firstPagePath pageCount = 0 endFlag = False while True: try: doc = Document(wordName) except: doc = Document() browser = await launch(executablePath=r'C:\Users\AW\AppData\Local\Chromium\Application\chrome.exe', headless=True) page = await browser.newPage() await page.goto(catchUrl) title_element = await page.querySelector('h1.title') if title_element: title_text = await page.evaluate('(element) => element.innerText', title_element) doc.add_heading(title_text, level=1) content_element = await page.querySelector('#content') if content_element: paragraphs = await content_element.querySelectorAll('p') for p in paragraphs: text = await page.evaluate('(p) => p.innerText', p) doc.add_paragraph(text) next_url_element = await page.querySelector('#next_url') if next_url_element: next_url = await page.evaluate('(element) => element.getAttribute("href")', next_url_element) catchUrl = netName + next_url else: print("未找到下一页链接,结束爬取。") endFlag = True await browser.close() doc.save(wordName) if endFlag or catchUrl.endswith(endPagePath): break pageCount += 1 print(f"已完成页码:{pageCount}") asyncio.run(main()) 步骤4:参数设置与注意事项 文件名:wordName,建议以章节范围命名,例如小说1~3章.docx。 起始页与结束页路径:firstPagePath 和 endPagePath,根据小说章节的具体URL填写。 分段爬取:由于文档太大可能导致卡顿,建议每次爬取几章,分批保存。 步骤5:运行代码并开始爬取 完成参数设置后,运行代码开始爬取小说内容。如爬取《宿命之环》第1~5章,可按以下参数设置: python 复制代码 firstPagePath = "/biqu5251/5259122.html" endPagePath = "/biqu5251/5259126.html" 运行后,Word文档会自动保存小说内容,章节名作为标题。 步骤6:查看爬取结果 打开生成的Word文档,章节名已生成导航,可以点击快速定位到对应章节,阅读体验更加流畅! 结语 以上是幽络源基于Python无头浏览器爬虫的完整教程。如果需要更高效的方式,可以进一步优化为GUI程序(如使用PyQT)。希望本教程能为大家提供便捷的解决方案!
技术教程
# 教程
# py
# 技术
# 爬虫
# 笔趣阁
教主
12月15日
0
34
1
易航博客