首先配置文件:
[wusx@centos245 gather]$ cat config
start=359822
end=550000
threads=15
output=/home/wusx/gather/output
log=/home/wusx/gather/_wget.log
然后运行脚本:
[wusx@centos245 gather]$ cat wget.sh
#!bin/sh
#执行下载任务
#
#Threads=10;
#i=100000;
#max=999999;
filename=/home/wusx/gather/config
eval `cat $filename | awk -F '=' '{print $1"="$2}'`
i=$start
max=$end
Threads=$threads
#echo $i $max $Threads $output $log
while(( 1 ));
do
url="http://www.abc.com/$i/cc.html";
out="$output/$i.info"
wget -q --user-agent='Baiduspider' -O $out $url > /dev/null &
i=$(($i+1));
#将当前下的文档序列,写回config文件。
sed -i "1s/start=$(($i-1))/start=$i/" /home/wusx/gather/config
echo $url >> $log
Running=$(ps -ef| grep $$ | grep 'Baiduspider' | grep -v 'grep' | wc -l)
while [ $Running -ge $Threads ]; do
#echo "Threads:${Running} >= ${Threads},sleep 30 seconds..."
sleep 2
Running=$(ps -ef| grep $$ | grep 'Baiduspider' | grep -v 'grep' | wc -l)
done
if [ $i -ge $max ];then
break;
fi
done
分享到:
相关推荐
2. **递归下载**:wGet能够根据网页中的链接自动跟踪并下载相关页面,创建一个完整的网站结构,这称为“递归下载”。 3. **断点续传**:如果下载中断,wGet可以记住进度并在稍后继续下载,无需从头开始,这对于大...
wget.exe 是一个命令行工具,主要用于在Windows操作系统中下载网页、文件和其他互联网资源。它源自于开源的GNU项目,功能强大且高度可配置,适用于自动化批量下载任务。wget支持HTTP、HTTPS和FTP协议,同时也能够...
在Windows 10系统中,wget同样表现优秀,用户可以通过命令行界面进行文件的下载操作,尤其适合自动化脚本或者无人值守的批量下载任务。 HTTPS(Hypertext Transfer Protocol Secure)是一种安全的网络通信协议,它...
`wget`的特点在于其非交互式操作、后台运行以及能够继续中断的下载,这使得它在自动化脚本和低带宽环境下的下载任务中非常有用。 **wget的基本用法:** 使用`wget`时,通常在命令行输入URL即可开始下载。例如,要...
wget是互联网上广泛使用的命令行工具,用于从Web服务器上下载文件,尤其适用于非交互式环境,例如自动化脚本或计划任务。这个版本1.21.4可能是该软件的某个稳定更新,包含了错误修复、性能优化或者新功能。 在描述...
关于标签中的“spider”(蜘蛛),`wget`在默认情况下会递归地下载网页链接,这使得它在构建网站镜像或爬取网页内容时非常有用。然而,为了进行并发压测,通常我们会限制这种递归行为,以免对目标服务器造成过大的...
Python中的`wget`模块是用于下载网页或文件的工具,其功能类似于命令行工具wget。在Python编程中,我们可以通过构建自己的脚本来模拟wget的功能,这通常涉及到HTTP、HTTPS等网络协议的处理以及文件的保存操作。下面...
`wget` 的主要功能是能够非交互式地从互联网上下载文件或整个网站,这使得它在自动化任务和脚本中非常有用。它的优点在于即使网络连接不稳定,也可以通过断点续传的方式继续下载,确保大文件的完整获取。 使用 `...
### 脚本下载 在Linux脚本中使用wget,可以实现自动化批量下载。例如,你可以编写一个bash脚本来下载一系列URL列出的文件。 ### 源代码分析 `src`目录包含了wget的源代码文件,如`main.c`是主程序,`url.c`处理URL...
用户可以通过命令行参数指定URL,wget会按照指定的设置下载网页、图片、文件等资源。它支持HTTP、HTTPS和FTP协议,甚至可以在代理服务器上工作。这个压缩包中的wget.exe允许Windows用户在没有图形界面的情况下进行...
Wget以其非交互式、可后台运行、断点续传和递归下载等特性而受到青睐,常用于自动化脚本或批量下载任务。 **主要功能** 1. **非交互式操作**:Wget可以在没有用户交互的情况下运行,非常适合在命令行环境下或者...
例如,要下载一个网页,可以输入 "wget [URL]",其中[URL]替换为实际的网页地址。 在日常工作中,wget 1.11.4 可用于自动化脚本、备份远程文件、创建本地网站副本等多种用途。对于需要高效、稳定且灵活下载方式的...
4. **递归下载**:`wget`可以按照网页链接关系,下载整个网站或者特定目录,这对于镜像网站非常有用。 5. **时间戳和文件校验**:`wget`可以通过比较本地文件的时间戳和服务器上的文件修改时间来决定是否需要重新...
当我们需要在PHP脚本中实现自动化下载任务时,可以调用shell命令来执行`wget`。 ### PHP调用WGET 1. **使用`exec()`函数**:在PHP中,我们可以使用`exec()`函数来执行系统命令,包括`wget`。例如,下面的代码会...
`Wget`是一个强大的命令行下载工具,尤其适用于Linux系统,它可以用来批量下载网页、文件,甚至整个网站。以下是对`Wget`命令各部分参数的详细解释: **启动类参数** 1. `-V,--version`:显示`Wget`的版本信息,...
标题中的“Get cookies google 插件”指的是一个用于获取Google网站cookies的Chrome浏览器插件,它的主要作用是帮助用户在进行wget下载时更加便捷。wget是一个命令行工具,常用于在Linux系统中从互联网批量下载文件...
对于Linux用户来说,了解并熟练掌握wget是十分必要的,它不仅在日常工作中能提高下载效率,还可以在自动化脚本和系统管理中发挥重要作用。wget-1.19.5的稳定性和丰富的功能使其成为许多系统管理员和开发者的首选工具...
1. **非交互式操作**:`wget` 是一个非图形化的命令行工具,这意味着用户只需在命令提示符输入指令即可启动下载,非常适合自动化脚本和无人值守的下载任务。 2. **断点续传**:如果下载过程中因网络问题中断,`wget...
在日常工作中,wget常用于备份网站数据、下载大文件、自动化脚本中的资源获取等场景。通过熟练掌握其各种选项,可以大大提高工作效率,尤其是在没有图形界面的服务器环境下。 总之,wget是Linux世界中不可或缺的...
3. **自动化脚本**:在批处理脚本或自动化流程中,wget可以作为可靠的下载组件。 总结来说,wget 1.20.3为Windows用户提供了一个强大且灵活的下载解决方案,它的功能丰富,适合各种下载需求。无论是简单的文件获取...