Home >  > GoGo闯SEO视频笔记(BeautifulSoup)

GoGo闯SEO视频笔记(BeautifulSoup)

0

一、进度
第1章 已经完成
第2章 已经完成 May-20-2020
第3章 已经完成
第4章 已经完成
第5章 已经完成
第6章 python入门 全部学完
第7章 全部学完
第8章 全部学完
第9章 已经完成。
第10章 已经完成。
第11章 已经完成。

从5月8日购买课程,到5月21日全部学完,几乎花了半个月的时间,不过学到的东西还是挺多的。

二、小知识
1.

2.使用了whoosh来创建索引

https://www.jb51.net/article/175965.htm

3.使用七牛云存图片
https://www.jianshu.com/p/9fea18d668b8

4.仿网站
原来可以通过浏览器打开,检查元素,再删除不需要的代码。

5.音频转文字。

喜马拉雅FM专辑下载工具

录音啦 转文字

6.判断蜘蛛

7.一些代码

img = "<img src = '{}'> alt='{}'".format(image,keyword)


bd_xgss = open("bd_xgss").readlines()

10

去除html
https://www.jb51.net/article/78833.htm

三、一些有用的网站
http://www.baijingapp.com/exchange/
https://www.bfseo.com/
http://www.ping.pe/

http://www.91vps.com/bohao.asp 拨号vps

http://www.innojoy.com/search/home.html 专利搜索 PA = '%百度%' and TI='点击'

十一、代理IP
芝麻代理:http://www.zhimaruanjian.com/ (138 P k4)
按次提取(http://h.zhimaruanjian.com/getapi/)
好一点的:https://www.abuyun.com/ (d8Pk4)(只能按天,按月交费,对我不合适)

https://scrapinghub.com/crawlera
https://www.2808proxy.com/ 获取代理,比芝麻代理好。但是现在无法注册 只支持企业用户。

github:
https://github.com/a631381602

笨方法学python:
https://www.bilibili.com/video/BV1aE411V7xc?from=search&seid=10644831406964451443

Python3爬虫从入门到精通 - 崔庆才
https://www.bilibili.com/video/BV1a7411f76Z?from=search&seid=14608294082970297983

三、中国Seo的一些牛人:
https://seofangfa.com/seo-mingren/seo-hero.html

十、BeautifulSoup
1.我们常用到的方法,见下:

  • 提取标签文本:soup.{标签名}.get_text()
  • 提取包含某属性值的标签文本:soup.find("{标签}", {属性}="{属性值}").get_text()
  • 匹配多项,以list形式返回:soup.find_all
  • ,比如soup.find_all('p')就是查找所有p标签

  • 配合正则:soup.find("{标签}", {属性}=re.compile("{正则表达式})").get_text()
  • # 正则匹配
    import re
    html2 = '<p  ka="click">测试文本<a href="https://www.domain.com">这里是链接</a></p><p ka="click now">这里是另一段文本</p>'
    soup = BeautifulSoup(html2)
    soup.find_all("p",ka=re.compile(r'click'))
    

    2.基本用法

    from urllib.request import urlopen,HTTPError
    from bs4 import BeautifulSoup
    
    
    url = input("which page would you like to check?:")
    keyword = input("what is your seo keyword?")
    
    keyword = keyword.casefold()
    
    try:
    	html = urlopen(url)
    except HTTPError as e:
    	print(e)
    
    data = BeautifulSoup(html,"html.parser")
    
    def seo_title(keyword,data):
    	if keyword in data.title.text.casefold():
    		status = "Found"
    	else:
    		status = "Not Found"
    	return status
    
    print(seo_title(keyword,data))
    
    

    参考:
    https://www.youtube.com/watch?v=IhLhARwStpk

    3.基本用法2

    import requests
    from bs4 import BeautifulSoup
    
    html = requests.get(url,proxies=proxies).text
    soup = BeautifulSoup(html,'lxml')
    x = soup.find_all('p')
    
    本文暂无标签

    发表评论

    *

    *