目标网站:https://kinsta.com/knowledgebase/what-is-taxonomy/
一、如何同时采集h2,h3,p标签?
使用下面的方法可以,不过如果使用get_text(),连p标签也去掉了。
from urllib.request import urlopen #获取请求打开网页的库
from bs4 import BeautifulSoup #获取解析网页的库
def get_detail(url):
# artitle = []
# html = getHTMLText(url)
print("正在获取文章详情页的信息......")
# 爬取网页源代码信息
html=urlopen(url)#获取html结构与内容
bs0bj=BeautifulSoup(html,'html.parser')
# 标签参数tag
tagList=bs0bj.findAll({"h2","h3","p"})#返回一个包含HTML文档h1标题标签的列表
print(tagList)
# print(tagList[0].get_text())
参考:https://www.jianshu.com/p/22fe0112b061