Home >  > GoGo闯SEO视频笔记(BeautifulSoup)

GoGo闯SEO视频笔记(BeautifulSoup)

0

一、进度
第1章 已经完成
第2章 已经完成 May-20-2020
第3章 已经完成
第4章 已经完成
第5章 已经完成
第6章 python入门 全部学完
第7章 全部学完
第8章 全部学完
第9章 已经完成。
第10章 已经完成。
第11章 已经完成。

从5月8日购买课程,到5月21日全部学完,几乎花了半个月的时间,不过学到的东西还是挺多的。

二、小知识
1.

2.使用了whoosh来创建索引

https://www.jb51.net/article/175965.htm

3.使用七牛云存图片
https://www.jianshu.com/p/9fea18d668b8

4.仿网站
原来可以通过浏览器打开,检查元素,再删除不需要的代码。

5.音频转文字。

喜马拉雅FM专辑下载工具

录音啦 转文字

6.判断蜘蛛

7.一些代码

img = "<img src = '{}'> alt='{}'".format(image,keyword)


bd_xgss = open("bd_xgss").readlines()

10

三、一些有用的网站
http://www.baijingapp.com/exchange/
https://www.bfseo.com/
http://www.ping.pe/

http://www.91vps.com/bohao.asp 拨号vps

http://www.innojoy.com/search/home.html 专利搜索 PA = '%百度%' and TI='点击'

十一、代理IP
芝麻代理:http://www.zhimaruanjian.com/
好一点的:https://www.abuyun.com/ (d8Pk4)

https://scrapinghub.com/crawlera
https://www.2808proxy.com/ 获取代理,比芝麻代理好。但是现在无法注册 只支持企业用户。

github:
https://github.com/a631381602

笨方法学python:
https://www.bilibili.com/video/BV1aE411V7xc?from=search&seid=10644831406964451443

Python3爬虫从入门到精通 - 崔庆才
https://www.bilibili.com/video/BV1a7411f76Z?from=search&seid=14608294082970297983

三、中国Seo的一些牛人:
https://seofangfa.com/seo-mingren/seo-hero.html

十、BeautifulSoup
我们常用到的方法,见下:

  • 提取标签文本:soup.{标签名}.get_text()
  • 提取包含某属性值的标签文本:soup.find("{标签}", {属性}="{属性值}").get_text()
  • 匹配多项,以list形式返回:soup.find_all
  • 配合正则:soup.find("{标签}", {属性}=re.compile("{正则表达式})").get_text()
  • # 正则匹配
    import re
    html2 = '<p  ka="click">测试文本<a href="https://www.domain.com">这里是链接</a></p><p ka="click now">这里是另一段文本</p>'
    soup = BeautifulSoup(html2)
    soup.find_all("p",ka=re.compile(r'click'))
    
    本文暂无标签

    发表评论

    *

    *