采集wordpress | 蜗牛之路

最新

更多 »

Home > 网站开发 > 采集wordpress

网站开发

采集wordpress

0

18,07,2020 | dengwen168 |

目标网站：https://kinsta.com/knowledgebase/what-is-taxonomy/

一、如何同时采集h2,h3,p标签？
使用下面的方法可以，不过如果使用get_text()，连p标签也去掉了。

from urllib.request import urlopen #获取请求打开网页的库
from bs4 import BeautifulSoup #获取解析网页的库

def get_detail(url):
    # artitle = []
    # html = getHTMLText(url)
    print("正在获取文章详情页的信息......")
    # 爬取网页源代码信息
    html=urlopen(url)#获取html结构与内容
    bs0bj=BeautifulSoup(html,'html.parser')
    # 标签参数tag
    tagList=bs0bj.findAll({"h2","h3","p"})#返回一个包含HTML文档h1标题标签的列表
    print(tagList)
    # print(tagList[0].get_text())

参考：https://www.jianshu.com/p/22fe0112b061

暧昧帖

本文暂无标签

发表评论点击这里取消回复。