Scrapyd日志输出优化 - - ITeye博客

`

zhimaruanjian

浏览: 33030 次
性别:

最近访客更多访客>>

fkueje001

qqpkat2

then

orangehome

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (64)

社区版块

存档分类

2018-03 ( 11)
2018-02 ( 16)
2018-01 ( 23)
更多存档...

最新评论

Scrapyd日志输出优化

阅读更多

现在维护着一个新浪微博爬虫，爬取量已经5亿+，使用了Scrapyd部署分布式。

Scrapyd运行时会输出日志到本地，导致日志文件会越来越大，这个其实就是Scrapy控制台的输出。但是这个日志其实有用的部分也就是最后那几百行而已，如果出错，去日志查看下出错信息就好了。

所以现在可以写一个脚本，来定时更新日志文件，将最后的100行保存下来就好了。

Scrapyd默认的日志目录是在用户文件夹下的logs目录。

所以在这里我们指定dir=~/logs

新建bash脚本，内容如下：

#!/bin/sh

clean() {
  for file in $1/*
  do
    if [ -d $file ]
    then
      clean $file
    else
      echo $file
      temp=$(tail -100 $file)
      echo "$temp" > $file
    fi
  done
}

dir=~/logs
clean $dir

新建这样的一个脚本，然后命名为 clean.sh，我的直接放在了用户文件夹下。

然后crontab创建定时任务。

执行

crontab -e

我们想要一分钟清理一次日志文件。

输入

*/1 * * * * /bin/sh ~/clean.sh

然后退出之后，crontab就可以每隔一分钟执行一次clean.sh，清理日志了。

这样我们就不怕日志文件大量占用主机空间啦~

分享到：

Python爬虫入门之爬虫基础了解 | TensorFlow MNIST初级学习

2017-12-29 10:08
浏览 1625
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Go-scrapyd-admin方便快捷动态部署scrapyd的管理工具: 3. **日志查看**：支持查看服务器上的爬虫运行日志，便于诊断和调试问题。 4. **版本控制**：管理Scrapy项目的不同版本，便于回滚到之前的稳定版本。 5. **服务器监控**：可能提供了对Scrapyd服务器的监控功能，如...

SpiderAdmin 一个集爬虫Scrapy+Scrapyd爬虫项目查看和爬虫任务-SpiderAdmin.zip: 总之，SpiderAdmin是Scrapy和Scrapyd用户的理想工具，它简化了爬虫项目的管理和监控工作，让开发者能更专注于爬虫的开发和优化，而不是繁琐的运维工作。结合Scrapy的强大功能和Scrapyd的分布式能力，SpiderAdmin在...

scrapydweb：用于Scrapyd集群管理，Scrapy日志分析和可视化，自动打包，计时器任务，监控和警报以及移动UI的Web应用程序。演示: ScrapydWeb：用于Scrapyd集群管理的Web应用程序，支持Scrapy日志分析和可视化。 Scrapyd :cross_mark: ScrapydWeb :cross_mark: LogParser :open_book: 推荐读物 :eyes: 演示版 :star: 特征查看内容 :...

Python-在scrapyd基础上新增权限验证爬虫运行信息统计界面重构并增加排序筛选过滤等多个API: 在"Python-在scrapyd基础上新增权限验证爬虫运行信息统计界面重构并增加排序筛选过滤等多个API"这个主题中，我们将深入探讨如何扩展和优化Scrapyd的功能，以提升其在实际应用中的效率和安全性。首先，**权限验证**...

scrapydweb：实现 Scrapyd 服务器集群监控和交互，Scrapy 日志分析和可视化.zip: scrapydweb：实现 Scrapyd 服务器集群监控和交互，Scrapy 日志分析和可视化.zip,Web app for Scrapyd cluster management, Scrapy log analysis & visualization, Auto packaging, Timer tasks, Monitor & Alert, ...

Python-ScrapydWebPython爬虫框架Scrapyd集群管理的全功能webUI: 这个工具旨在优化Scrapyd的管理和监控，使得爬虫项目部署、调度和监控变得更加便捷。Scrapyd本身是一个分布式服务，用于管理和运行Scrapy爬虫项目，而ScrapydWeb则为它添加了丰富的图形化操作界面。在Python开发...

python_scrapyd_api-2.1.2-py2.py3-none-any.whl: python_scrapyd_api

spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项-spider-admin-pro.zip: 4. **日志查看**：查看爬虫运行的日志，帮助调试和优化爬虫。 5. **数据可视化**：可能包含数据分析和可视化组件，方便用户快速了解爬取结果。 6. **配置管理**：配置Scrapy项目的设置，如请求头、代理IP、下载延迟...

scrapyd 安装包: Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架，任何人...

docker-scrapyd:用于构建运行scrapyd的镜像的Dockerfile: 跑步 $ docker run -p 6800 scrapyd如果要保留日志或抓取的项目导出文件，请在运行 scrapyd 时创建一个仅数据容器并链接到它： $ docker run -v /var/lib/scrapyd -v /var/log/scrapyd -name scraped-data busybox ...

scrapyd项目部署1: Scrapyd 的优点： 1. 支持多个爬虫管理，每个爬虫可以有多个版本。 2. 可以通过 http 命令方式发布、删除、启动、停止爬虫程序。 3. 可以同时管理多个爬虫项目。在部署 Scrapyd 项目时，我们需要考虑到以下几点： ...

Scrapy项目部署使用scrapyd.pdf: 配置文件中需要添加服务器运行的监听地址、端口、日志文件路径、项目保留时间、数据库路径等信息。例如，可以设置scrapyd服务监听本地地址***.*.*.*，并将HTTP服务端口设置为6800，关闭调试模式，允许服务最大运行...

scrapyd的安装与部署: Scrapyd是一个Python项目，用于管理和调度Scrapy爬虫项目。本文主要介绍如何在不同的操作系统环境下安装和部署Scrapyd，以及如何配置和使用相关的工具和库。首先，要安装Scrapyd及其依赖，需要使用Python的包管理...

DJango跟Scrapy爬虫框架实现-ScrapydAPI: 6. **错误处理和优化**：考虑到网络问题、爬虫速度限制和网站结构变化，应添加适当的错误处理机制和优化措施，如重试策略、延迟设置、IP代理池等。 7. **测试与部署**：完成所有开发后，进行详尽的测试，确保所有...

Python-scrapydweb是一个用于监视和控制Scrapyd服务器集群的全功能WebUI: scrapydweb 是一个用于监视和控制 Scrapyd 服务器集群的全功能 Web UI，支持 Scrapy 日志分析和可视化

数据抓取中gerapy的安装，超详细的教程。包括gerapy，scrapy，scrapyd，nginx配置等等。: 在Gerapy中添加Scrapyd主机，通过"主机管理"->"创建"，输入Scrapyd的相关信息，包括目录、命令、日志文件路径等。配置完成后，Gerapy可以管理和调度部署在Scrapyd上的爬虫。最后，安装Scrapy库`pip install scrapy...

nginx+scrapyd Dockerfile: 将scrapyd服务打包为镜像，并使用nginx + htpasswd启用登录鉴权

Scrapy + Scrapyd + Django + React分布式爬虫服务管理系统源码: 2. **日志监控**：系统能够实时显示爬虫运行状态和日志，方便开发者查看和调试。 3. **结果存储**：Scrapy抓取的数据可以被持久化存储，可能支持多种数据库（如MySQL、MongoDB等）。 4. **项目部署**：用户可以上传...

scrapyd-playground:开始使用scrapy和scrapyd: 一个是持久化数据容器，其中蜘蛛/日志/等。将被存储。第二个是scrapyd服务器。跳到Deploying the tutorial spider部分开始抓取！在不带图的 Docker 中运行scrapyd 如果您想构建自己的容器， docker build -t...

Scrapyd-Django-Template:运行ScrapyD + Django并将其保存在Django模型中的基本设置。您只需几分钟即可启动并运行: Scrapyd-Django-Template 运行ScrapyD + Django并将其保存在Django模型中的基本设置。您只需几分钟即可启动并运行。该模板包括Django项目的基本结构。易碎的基本结构。配置scrapy以便访问Django模型对象。基本...

Global site tag (gtag.js) - Google Analytics