Home >  > 采集wordpress

采集wordpress

0

目标网站:https://kinsta.com/knowledgebase/what-is-taxonomy/

一、如何同时采集h2,h3,p标签?
使用下面的方法可以,不过如果使用get_text(),连p标签也去掉了。

from urllib.request import urlopen #获取请求打开网页的库
from bs4 import BeautifulSoup #获取解析网页的库

def get_detail(url):
    # artitle = []
    # html = getHTMLText(url)
    print("正在获取文章详情页的信息......")
    # 爬取网页源代码信息
    html=urlopen(url)#获取html结构与内容
    bs0bj=BeautifulSoup(html,'html.parser')
    # 标签参数tag
    tagList=bs0bj.findAll({"h2","h3","p"})#返回一个包含HTML文档h1标题标签的列表
    print(tagList)
    # print(tagList[0].get_text())  

参考:https://www.jianshu.com/p/22fe0112b061

本文暂无标签

发表评论

*

*