Scrpy的第八个爬虫慕课网(下载图片)

0
一、抓取jobbole网站 1.scrapy调试 在项目根目录自己写一个main.py,调用命令行。 from scrapy.cmdline import execute import sys import os sys.path.append(os.path.dirname(os.path.abspath(__file__))) execute(["scrapy","crawl","jobbole"]) 并将settings.py中的robot设为False Robotstext_obey = False 2.将列表页中的缩略图传递给request meta={&q ...

pipenv教程

0
之前一直用virtualenv,今天在听慕课网视频的时候,老师推荐pipenv,在网上一查,很多人都推荐这个,于是就试用了一下。 我觉得讲得好的还是刘江的博客及教程:http://liujiangblog.com/blog/18/ 比如: 我从github上面下载了别人的项目,里面已经有了Pipfile和Pipfile.lock文件,则使用pipenv install会使用pipfile文件创建虚拟环境。 另外,这个pipenv install命令在不同的情况下有不同的作用: 如 ...

Requests与Xpath搭配

0
今天发现使用Requests与Xpath还是挺搭的,而且配合chrome的xpath插件与scrapy shell,操作起来非常简单: Updated: 其实可以使用浏览器的copy xpath功能。 附代码: import requests from lxml import etree def getResult(i): url = "http://www.xuetu123.com/space-uid-{}.html".format(i) r = requests.get(url) selector = etree.HTML(r.text) userName = selector.xpath(&q ...

前端模板

0
自己折腾的一个模板: 效果预览: 代码: <!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no"> <meta name="description" content=""> <meta name="author&qu ...

Scrpy的第七个爬虫Travelcity(调试及异步写入SQLite)

0
一、知识点: 1.urljoin response.urljoin():将相对网址拼接成绝对网址。 比如: url = response.body_as_unicode() url = response.urljoin(url) 这样就能在url前拼接上https: 二、步骤 1.新建爬虫 scrapy startproject travalcity cd travalcity scrapy genspider travelspider travel.cn 2.新建Item (决定抓取哪些项目) class TravalcityItem(scrapy.Item): # define the fie ...

股票网站

0
一.安装django 直接看这里 在settings.py中的apps中添加刚刚建立的app 二.建立一个数据库,名称为stock 三、修改settings.py INSTALLED_APPS = [ 'django.contrib.admin', 'django.contrib.auth', 'django.contrib.contenttypes', 'django.contrib.sessions', 'django.contrib.messages', 'django.contrib.staticfiles', 'GP' ] DATABASES = { 'default': ...

Vn.py学习记录四–日内交易时间段代码

0
一、其他 def onBar(self,bar): #更新策略执行的时间(用于回测时记录发生时间) #从datasource拿到的bar.datetime是bar的结束时间,比如:9:00-9:05的time就是9:05=curDatetime因为策略中已经将9:05调整为9:00,所以这里要加回来。 self.curDatetime = bar.datetime + timedelta(seconds = self.lineM5.barTimeInterval) #2 计算交易时间和平仓时间 self.__timeWindow(bar.datetime ...

《Python网络爬虫实战》笔记(Xpath及正则)

0
一、Python命名规则 二、正则 三、xpath用法: 这里的下标是从1开始的,不是0 第五章 scrapy爬虫框架 1. __init__.py文件,它是个空文件,作用是将它的上级目录变成了一个模块,,可以供python导入使用。 2. items.py决定抓取哪些项目,wuhanmoviespider.py决定怎么爬的,settings.py决定由谁去处理爬取的内容,pipilines.py决定爬取后的内容怎么样处理。 3. <h3>武汉<font color=&quo ...

宝塔部署Django(Navicat传数据)

0
这次尝试在服务器上使用宝塔,这样不但部署django网站比较简单,还可以同时使用django和wordpress。 一.安装宝塔及插件 (1)安装宝塔 在宝塔官网看到说“务必使用centos7.x 系统”,所以我不得不放弃以前用得比较熟的ubuntu系统。 yum -y install tmux #美国节点安装 yum install -y wget && wget -O install.sh http://128.1.164.196:5880/install/install_6.0.sh && sh install.sh ...

网站开发(六)财务网开发一

0
既然用现有的源码无法搭建,那就自己写吧。 一、环境搭配 这个不多说了,和以前一样。按这里操作,一直到可以显示django首页就可以了。 用pycharm打开项目,然后配置虚拟环境: File -- Setting -- Project Interpreter -- Show all -- add 其实配置好之后,这里可以显示已经安装的包 二、django-allauth同时实现本地和第三方认证 1.安装django-allauth pip install django-allauth 2.修改配置文件se ...