现在维护着一个新浪微博爬虫,爬取量已经5亿+,使用了Scrapyd部署分布式。
Scrapyd运行时会输出日志到本地,导致日志文件会越来越大,这个其实就是Scrapy控制台的输出。但是这个日志其实有用的部分也就是最后那几百行而已,如果出错,去日志查看下出错信息就好了。
所以现在可以写一个脚本,来定时更新日志文件,将最后的100行保存下来就好了。
Scrapyd默认的日志目录是在用户文件夹下的logs目录。
所以在这里我们指定dir=~/logs
新建bash脚本,内容如下:
#!/bin/sh clean() { for file in $1/* do if [ -d $file ] then clean $file else echo $file temp=$(tail -100 $file) echo "$temp" > $file fi done } dir=~/logs clean $dir
新建这样的一个脚本,然后命名为 clean.sh,我的直接放在了用户文件夹下。
然后crontab创建定时任务。
执行
crontab -e
我们想要一分钟清理一次日志文件。
输入
*/1 * * * * /bin/sh ~/clean.sh
然后退出之后,crontab就可以每隔一分钟执行一次clean.sh,清理日志了。
这样我们就不怕日志文件大量占用主机空间啦~
相关推荐
3. **日志查看**:支持查看服务器上的爬虫运行日志,便于诊断和调试问题。 4. **版本控制**:管理Scrapy项目的不同版本,便于回滚到之前的稳定版本。 5. **服务器监控**:可能提供了对Scrapyd服务器的监控功能,如...
总之,SpiderAdmin是Scrapy和Scrapyd用户的理想工具,它简化了爬虫项目的管理和监控工作,让开发者能更专注于爬虫的开发和优化,而不是繁琐的运维工作。结合Scrapy的强大功能和Scrapyd的分布式能力,SpiderAdmin在...
ScrapydWeb:用于Scrapyd集群管理的Web应用程序,支持Scrapy日志分析和可视化。 Scrapyd :cross_mark: ScrapydWeb :cross_mark: LogParser :open_book: 推荐读物 :eyes: 演示版 :star: 特征 查看内容 :...
在"Python-在scrapyd基础上新增权限验证爬虫运行信息统计界面重构并增加排序筛选过滤等多个API"这个主题中,我们将深入探讨如何扩展和优化Scrapyd的功能,以提升其在实际应用中的效率和安全性。 首先,**权限验证**...
scrapydweb:实现 Scrapyd 服务器集群监控和交互,Scrapy 日志分析和可视化.zip,Web app for Scrapyd cluster management, Scrapy log analysis & visualization, Auto packaging, Timer tasks, Monitor & Alert, ...
这个工具旨在优化Scrapyd的管理和监控,使得爬虫项目部署、调度和监控变得更加便捷。Scrapyd本身是一个分布式服务,用于管理和运行Scrapy爬虫项目,而ScrapydWeb则为它添加了丰富的图形化操作界面。 在Python开发...
python_scrapyd_api
4. **日志查看**:查看爬虫运行的日志,帮助调试和优化爬虫。 5. **数据可视化**:可能包含数据分析和可视化组件,方便用户快速了解爬取结果。 6. **配置管理**:配置Scrapy项目的设置,如请求头、代理IP、下载延迟...
Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人...
跑步 $ docker run -p 6800 scrapyd如果要保留日志或抓取的项目导出文件,请在运行 scrapyd 时创建一个仅数据容器并链接到它: $ docker run -v /var/lib/scrapyd -v /var/log/scrapyd -name scraped-data busybox ...
Scrapyd 的优点: 1. 支持多个爬虫管理,每个爬虫可以有多个版本。 2. 可以通过 http 命令方式发布、删除、启动、停止爬虫程序。 3. 可以同时管理多个爬虫项目。 在部署 Scrapyd 项目时,我们需要考虑到以下几点: ...
配置文件中需要添加服务器运行的监听地址、端口、日志文件路径、项目保留时间、数据库路径等信息。例如,可以设置scrapyd服务监听本地地址***.*.*.*,并将HTTP服务端口设置为6800,关闭调试模式,允许服务最大运行...
Scrapyd是一个Python项目,用于管理和调度Scrapy爬虫项目。本文主要介绍如何在不同的操作系统环境下安装和部署Scrapyd,以及如何配置和使用相关的工具和库。 首先,要安装Scrapyd及其依赖,需要使用Python的包管理...
6. **错误处理和优化**:考虑到网络问题、爬虫速度限制和网站结构变化,应添加适当的错误处理机制和优化措施,如重试策略、延迟设置、IP代理池等。 7. **测试与部署**:完成所有开发后,进行详尽的测试,确保所有...
scrapydweb 是一个用于监视和控制 Scrapyd 服务器集群的全功能 Web UI,支持 Scrapy 日志分析和可视化
在Gerapy中添加Scrapyd主机,通过"主机管理"->"创建",输入Scrapyd的相关信息,包括目录、命令、日志文件路径等。配置完成后,Gerapy可以管理和调度部署在Scrapyd上的爬虫。 最后,安装Scrapy库`pip install scrapy...
将scrapyd服务打包为镜像,并使用nginx + htpasswd启用登录鉴权
2. **日志监控**:系统能够实时显示爬虫运行状态和日志,方便开发者查看和调试。 3. **结果存储**:Scrapy抓取的数据可以被持久化存储,可能支持多种数据库(如MySQL、MongoDB等)。 4. **项目部署**:用户可以上传...
一个是持久化数据容器,其中蜘蛛/日志/等。 将被存储。 第二个是scrapyd服务器。 跳到Deploying the tutorial spider部分开始抓取! 在不带图的 Docker 中运行scrapyd 如果您想构建自己的容器, docker build -t...
Scrapyd-Django-Template 运行ScrapyD + Django并将其保存在Django模型中的基本设置。 您只需几分钟即可启动并运行。 该模板包括Django项目的基本结构。 易碎的基本结构。 配置scrapy以便访问Django模型对象。 基本...