- 浏览: 374806 次
- 性别:
- 来自: 四川
文章分类
- 全部博客 (247)
- 数据库以及sql (11)
- java (48)
- 爬虫学习 (20)
- java编程 (28)
- python编程以及安装和配置 (27)
- oracle数据库 (32)
- mongodb基本操作 (4)
- linux学习 (7)
- easyUI (2)
- nodeJs (8)
- python学习 (16)
- 其他 (13)
- hadoop (1)
- svn (1)
- 汉字 (1)
- windows (2)
- jsp (5)
- fiddler (1)
- ETL (1)
- teamviewer (1)
- maven (4)
- GIT (2)
- datagrip (1)
- ocr (1)
- redis (3)
- mysql (3)
- linux (1)
- 数据服务 (0)
最新评论
1.
您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中(比如否F:/demo),运行下列命令:
scrapy startproject tutorial
2.在eclipse中创建一个python项目 ,在F:/demo目录下 把刚创建的项目 tutorial 和scrapy.cfg配置文件拷入 eclipse下的python项目中
3.在python项目下tutorial/spiders下创建一个py文件(例如:myblog.py)
代码:
# -*- coding: utf-8 -*-
import scrapy
from tutorial.items import IteyeItem #导入item
from scrapy.selector import HtmlXPathSelector
class MyblogSpider(scrapy.Spider):
name = "myblog"
allowed_domains = ["886.iteye.com"] #服务器 post
start_urls = (
'http://886.iteye.com/',
'http://st4024589553.iteye.com/'
)
def parse(self, response):
lis = response.xpath("//div[@class='blog_main']/div[1]/h3") #增加xpath
item = IteyeItem()
for li in lis:
title= li.xpath('a/text()').extract()[0]
print li.xpath('a/text()').extract()[0]
item['title']=title
item['link']=li.xpath('a/@href').extract()
yield item
4.在tutorial下创建 cmdline.py 文件
代码:
# coding=utf-8
'''
Created on 2017年2月5日
@author: chenkai
'''
import scrapy.cmdline
'''
cmdline.py用于启动scrapy项目,其中argv第三个参数为启动爬虫的名字。如下图
'''
if __name__ == '__main__':
scrapy.cmdline.execute(argv=['scrapy','crawl','myblog']) #myblog myblog.py中name
5.
代码编辑好后,右键cmdline.py -->Debug As -->Run config.... -->右键Python Run-->new
-->project 选择你创建的python项目 --》Main Module 选择项目下的cmdline.py文件即可
apply一下
6.编辑tutorial/items.py 文件
代码:
# -*- coding: utf-8 -*-
import scrapy
class IteyeItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
7.
(1)现在可以直接运行cmdline.py文件 run 输出信息
(2)也可以在提示符窗口里运行,cmd -->scrapy crawl myblog 同样可以启动
您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中(比如否F:/demo),运行下列命令:
scrapy startproject tutorial
2.在eclipse中创建一个python项目 ,在F:/demo目录下 把刚创建的项目 tutorial 和scrapy.cfg配置文件拷入 eclipse下的python项目中
3.在python项目下tutorial/spiders下创建一个py文件(例如:myblog.py)
代码:
# -*- coding: utf-8 -*-
import scrapy
from tutorial.items import IteyeItem #导入item
from scrapy.selector import HtmlXPathSelector
class MyblogSpider(scrapy.Spider):
name = "myblog"
allowed_domains = ["886.iteye.com"] #服务器 post
start_urls = (
'http://886.iteye.com/',
'http://st4024589553.iteye.com/'
)
def parse(self, response):
lis = response.xpath("//div[@class='blog_main']/div[1]/h3") #增加xpath
item = IteyeItem()
for li in lis:
title= li.xpath('a/text()').extract()[0]
print li.xpath('a/text()').extract()[0]
item['title']=title
item['link']=li.xpath('a/@href').extract()
yield item
4.在tutorial下创建 cmdline.py 文件
代码:
# coding=utf-8
'''
Created on 2017年2月5日
@author: chenkai
'''
import scrapy.cmdline
'''
cmdline.py用于启动scrapy项目,其中argv第三个参数为启动爬虫的名字。如下图
'''
if __name__ == '__main__':
scrapy.cmdline.execute(argv=['scrapy','crawl','myblog']) #myblog myblog.py中name
5.
代码编辑好后,右键cmdline.py -->Debug As -->Run config.... -->右键Python Run-->new
-->project 选择你创建的python项目 --》Main Module 选择项目下的cmdline.py文件即可
apply一下
6.编辑tutorial/items.py 文件
代码:
# -*- coding: utf-8 -*-
import scrapy
class IteyeItem(scrapy.Item):
title = scrapy.Field()
link = scrapy.Field()
7.
(1)现在可以直接运行cmdline.py文件 run 输出信息
(2)也可以在提示符窗口里运行,cmd -->scrapy crawl myblog 同样可以启动
发表评论
-
python中将unicode(u'\u7684') 转中文字符
2018-08-16 16:16 4018ddd=u'\u7684' ddd=ddd.encode(&q ... -
python中的开放运算
2017-07-06 09:39 1046要点: 将整数用浮点数表示:由于Python的整数除法,为了 ... -
Python多线程爬取网站image的src属性实例
2017-05-16 11:18 1723# coding=utf-8 ''' Created on 2 ... -
windows安装scrapy框架步骤
2017-05-12 13:05 611Scrapy简介 Scrapy是一个快速,高效的网页抓取Pyt ... -
python操作mongoDB
2017-05-12 10:04 1058#coding=utf-8 from pymongo impo ... -
windows下安装Scrapy框架(python)
2017-03-22 14:39 7561、下载安装Python2.7.6, ... -
python "\xc5\xc0\xb3\xe6" 转汉字
2017-03-10 10:10 5359print "\xc5\xc0\xb3\xe6&qu ... -
python_GUI应用程序代码
2017-03-03 10:06 668# coding=utf-8 ''' Created on 2 ... -
python读写excel
2017-03-03 10:05 1057# coding=utf-8 ''' Created on 2 ... -
python标准异常分类
2017-03-01 16:09 447ppython标准异常分类 BaseException ... -
python在linux、windows下执行命令的方法
2017-02-22 16:52 1059windows下: import os cmdres= os. ... -
python中selenium 滚动条下拉 操作
2017-02-22 11:16 6753方法一)使用js脚本直接操作,方法如下: js=" ... -
python+BeautifulSoup+selenium+mysqldb完成数据抓取
2017-02-21 14:28 933# coding=utf-8 ''' Created on 2 ... -
python+selenium浏览器调用(chrome、ie、firefox)
2017-02-20 14:35 1955#coding=utf-8 from selenium im ... -
windows下安装beautifulsoup
2017-02-14 10:57 8761.去beautiful soup官网上去下载最新版本是4.3 ... -
windows下casperjs安装以及配置
2017-02-14 10:20 417下载casperjs,解压后命名为casperjs 添加环境变 ... -
wingdows下安装phantomjs
2017-02-14 10:19 426下载phantomjs后解压,重命名为phantomjs 添加 ... -
python下安装beautifulsoup4-4.3.1
2017-02-07 16:18 5951.去beautiful soup官网上去下载最新版本是4.3 ... -
python中的正则表达式,python
2017-02-07 10:20 658# coding=utf-8 ''' Created on 2 ... -
python时间格式
2017-01-17 10:35 4961. 日期输出格式化 datetime => strin ...
相关推荐
创建Scrapy项目 在Eclipse的根目录中创建一个新的Scrapy项目。可以通过命令行来创建项目,例如: ``` scrapy startproject myproject ``` 接着在项目的`settings.py`文件中进行必要的配置,例如: ```python ROBOTS...
创建Scrapy项目非常简单。打开Eclipse,创建一个新的PyDev项目,然后在项目根目录下运行`scrapy startproject tutorial`。这将生成一个名为“tutorial”的Scrapy项目结构,包含默认的设置文件和模块。 在项目中创建...
1. **创建Java项目**:首先在开发环境中(例如Eclipse)创建一个新的Java项目,命名为`crawler`。 2. **目录结构设置**: - 在项目根目录下创建一个名为`web`的文件夹。 - 在`web`文件夹下新建`WEB-INF`文件夹。...
### Python安装教程及...通过上述步骤,您可以顺利完成 Python 的安装、相关库的配置、Eclipse 的 PyDev 插件安装以及 Scrapy 项目的创建过程。这些基础知识对于初学者来说非常重要,能够帮助快速上手 Python 编程。
Scrapy是一款用于Web爬虫项目的开源框架,适合用于数据抓取和处理。 - 安装Scrapy命令如下: ``` sudo -H pip3 install scrapy ``` #### 九、Eclipse IDE的安装 Eclipse是一款功能强大的集成开发环境(IDE),...
在本项目"Python_大众点评网站数据爬虫"中,我们主要探讨如何使用Python作为编程语言,结合Eclipse和PyDev开发环境,实现一个非Scrapy框架的数据爬虫,以获取大众点评网站上的相关数据。这里我们将深入讲解Python...
在本项目中,可能使用了Python的Scrapy框架或Java的Jsoup库,它们能够解析HTML结构,提取所需的数据,如新闻标题、内容、来源等。网络爬虫需要遵守robots.txt协议,并尊重网站的抓取限制,确保合法且道德的网络数据...
创建一个新的 Java 项目,然后将 Jsoup 库添加到项目的构建路径中。编写 Java 代码后,可以通过 Eclipse 的内置编译器和运行环境进行测试。 7. **学习 Web Scraping 和 HTML**: Web scraping 是一项关键技能,...
2. 数据获取:通过学习Scrapy框架,学生将了解网络爬虫的工作原理,学会创建爬虫项目,收集网络上的结构化和非结构化数据。 3. Hadoop基础:深入理解Hadoop的分布式文件系统(HDFS)和计算模型(MapReduce),包括...
前端开发工具如Eclipse或Visual Studio Code(Vscode)是必备的,Eclipse适合Java开发,Vscode则更适合多语言和前端开发,具备强大的插件支持。 6. **NPM和Node.js**:前端构建和运行可能需要Node.js环境,通过NPM...
这包括下载安装、环境变量设置、项目创建等环节。 6. **程序实现与运行** 编写一个简单的Python程序,展示如何在你的环境中运行。例如,你可以创建一个“Hello, World!”程序,附上源代码,并说明运行结果。 7. *...
尽管Python 2曾是许多项目的基础,但自2020年起,Python 2已经不再更新和维护,建议新项目使用Python 3,因为它是目前的主流版本,拥有更多的更新特性和社区支持。 Python语言的特点包括: 1. **解释性**:Python...