`
haoningabc
  • 浏览: 1478487 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

scrapy的helloworld

阅读更多
http://scrapy.org/

安装python virlualenv
yum install libxslt-devel
yum install python-devel libffi-devel
cp /usr/lib64/python2.6/lib-dynload/bz2.so Scrapy/lib/python2.7/
否则可能汇报bz2的错误

pip install scrapy



from scrapy import Spider, Item, Field

class Post(Item):
    title = Field()

class BlogSpider(Spider):
    name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']

    def parse(self, response):
        return [Post(title=e.extract()) for e in response.css("h2 a::text")]

EOF
 scrapy runspider myspider.py


参考
http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html

scrapy shell "http://app.shafa.com/apk/baobaoanquanjiaoyu.html"


response.xpath('//title')
response.xpath('//title').extract()
response.xpath('//title/text()')
response.xpath('//title/text()').re('(\w+):')
response.xpath('//section[@class="app-info"]//div[contains(@class,"meta-info")][2]//div[@class="info-title"]/following-sibling::span[1]/text()').extract()

http://www.shumeipai.net/forum.php?mod=viewthread&tid=20894&highlight=%D0%A1%B3%B5
分享到:
评论

相关推荐

    hello-git-scraping:git scraping *的“ hello world”,并从Actions创建页面。 通过Github Actions渲染时间。 * https:simonwillison.net2020Oct9git-scraping

    1. **抓取数据**:使用Python的BeautifulSoup、Scrapy或其他类似的库从目标网站抓取信息。 2. **处理数据**:对抓取到的数据进行清洗、格式化或分析,转化为适合展示在静态网页上的格式。 3. **生成静态文件**:将...

    my-python-files.rar_python_python网络爬虫

    最后,`hello world.py`通常是编程初学者的第一个程序,它通常只打印出"Hello, World!"。然而,在爬虫的上下文中,这可能是一个简单的爬虫示例,用来演示基本的网页请求和数据抓取,可能是为了介绍Python网络爬虫的...

    python网络编程小例子

    path('', HelloWorldView.as_view(), name='hello'), ] ``` Python的网络编程还涉及到WebSocket、FTP、SMTP等其他协议的实现,以及异步I/O(如asyncio库)来提高高并发场景下的性能。此外,还可以使用第三方库,如...

    Python的第一天笔记

    一个简单的“Hello World!”程序如下: ```python if __name__ == '__main__': print("Hello World!") ``` 【Python运算符】 1. 数字运算符:如`+`、`-`、`*`、`/`用于基本的数学运算。 2. 赋值运算符:`=`用于...

    Python入门与人工智能基础

    ##### 3.1 打印“Hello World!” ```python print('Hello World!') ``` - **注意事项**:确保所有符号均为英文半角符号;引号需成对出现;括号和引号由开发环境自动补全。 ##### 3.2 变量 - **定义**:变量用于...

    python实现通过flask和前端进行数据收发

    1. `'/'`:这是默认的欢迎页面,返回 "Hello World!"。 2. `'/index'`:渲染名为 'index.html' 的模板。在本例中,这将是前端页面。 3. `'/test_post/nn'`:这个路由用于处理GET和POST请求。当前端发送数据时,它会...

    关于Python爬虫基础知识、爬虫实例和反爬机制

    <p class="content">Hello, world! """ soup = BeautifulSoup(html_doc, 'html.parser') print(soup.find('p', class_='content').text) ``` ##### 示例3:使用Scrapy爬取网站 ```python import scrapy class ...

    python语言概述和开发环境

    在交互式环境中,直接输入`print("Hello World")`即可输出“Hello World”。如果希望在文件中编写程序,需创建`.py`文件,然后在命令行输入`python filename.py`运行。在编写Python程序时,每个语句通常占用一行,若...

    python爬虫基础知识.docx

    <h1>Hello, World! <p>This is a paragraph. ''' soup = BeautifulSoup(html, 'html.parser') title = soup.h1.text paragraph = soup.p.text print(title) print(paragraph) ``` 3. **数据持久化** ...

    编程小白的第一本python入门书

    - 第一个Python程序:通过编写简单的“Hello World”程序来熟悉Python开发环境。 2. **Python基本语法** - 数据类型:数字(整型、浮点型)、字符串、列表、元组、字典等。 - 变量与常量:变量的定义与使用,...

    Python使用PDFMiner解析PDF代码实例

    HelloWorld HelloWorld HelloWorld HelloWorld ``` - **支持中日韩文字**:如果需要支持中日韩文字,需要额外步骤进行编译和安装: - 运行`make cmap`命令生成字符映射表。 - 执行`python tools/conv_cmap....

    html内容获取

    例如,`element.html("<p>Hello world!</p>");`将替换元素的内容。 6. 清理HTML:Nsoup还提供了解析后清理HTML的功能,如`Jsoup.clean(html, Whitelist.basic());`可以移除不安全的HTML标签和属性。 Nsoup的性能...

    ## 爬虫基础知识、爬虫实例与反爬机制详解

    <p class="content">Hello, world! """ soup = BeautifulSoup(html_doc, 'html.parser') print(soup.find('p', class_='content').text) ``` 此例中,我们使用了BeautifulSoup库解析HTML文档,并通过`.find`方法...

    python输入输出python输入输出python输入输出python输入输出python输入输出python输入输出

    print("Hello, World!") ``` 或者: ```python num = 123 print("数字是:", num) ``` 2. `sys.stdout.write()`:这个方法可以直接将内容写入到标准输出,不自动换行。例如: ```python sys.stdout.write...

    python学习(基本语法,爬虫,Web)-python.zip

    如果它是代码示例,你可能会看到如"hello_world.py"这样的基础脚本,用于展示如何打印"Hello, World!";或者"web_app"子目录,里面包含了使用Flask或Django搭建的Web应用实例;还有可能是"scraping"目录,包含使用...

    pycharm安装教程

    >>> print("Hello, World!") Hello, World! >>> exit() ``` #### 三、创建新项目 1. **启动PyCharm**: - 双击桌面上的PyCharm快捷方式或通过开始菜单启动。 - 阅读并接受许可证协议,点击“Continue”。 2....

    Python编程基础教学大纲.pdf

    2. Python基础:从"Hello, World!"开始,学习基本语法,如变量、内存管理、输入输出、运算符与表达式,以及条件语句(if)和循环语句(while和for)。 3. Python数据类型:深入理解字符串、列表、元组、字典和集合...

    python学习教程.docx

    print(' '.join(['Hello', 'World'])) ``` 列表和字典是Python两种常用的数据结构。列表是有序元素集合,可以包含不同类型的元素;字典是无序的键值对,可以通过键来访问值。如: ```python my_list = [1, 2, 3, ...

    python入门教程及常用模块下载地址

    对于初学者,快速入门Python的一个经典例子是“Hello, World!”程序。在Python的IDLE环境中,你可以直接输入`print("Hello, World!")`,按下回车,就能看到输出。这是学习任何编程语言的第一步,它展示了语言的基本...

    创新创业Python开发期末测试题(1).docx

    例如,`print("Hello, World!")`会在控制台显示"Hello, World!"。 2. **Python语法特点**:Python的语法与PHP不同,它更接近英语,且支持多种编程范式,如面向对象、过程化和函数式编程。Python可用于Web开发,如...

Global site tag (gtag.js) - Google Analytics