要做一个网络爬虫,抓取网页上的特定内容。以前有高年级研究生学长写过一个,但是老师嫌弃时间太久,上千个数据而已,竟然要用一夜,这次要我来做,我想先进行一下可行性的研究,要用到R语言进行统计。
这次试验的难点有两个,或者说实际上就只有一个,那就是数据的规范化表示。以前没用过php进行文件读写操作,这是头一次。需要考虑的是文件读写的频率,虽然只是一个实验,但是效率还是要考虑的。过于频繁的文件读写,对磁盘过于耗时的操作,是个大问题。所以这个要考虑。其实是数据的格式问题,以什么样的格式存储。要考虑后续R语言处理的问题,R语言可以处理纯文本,数据之间可以使用分隔符,比喻逗号、甚至是制表符。所以文件里面的数据打算用逗号分隔了。
首先贴上PHP代码
<?php
include ("php_lib/LIB_http.php");
error_reporting(E_ALL^E_NOTICE);
$target ="http://www.*****";
$ref = "http://www.*****";
$filename = 'sitevisitors.txt';
$first=microtime(get_as_float);
for($n=0;$n<5000;$n++){
$betime=microtime(get_as_float);
$return_arry = http_get_withheader($target,$ref);
$finidown = microtime(get_as_float);
$resulttime = $finidown - $betime;
$count[$n] = $resulttime;
//echo $count[$n]."\n";
echo"\n".$n;
}
$fp = fopen("data.txt", "a");
//fputs ($fp, "$count[0]");
for($n=0;$n<5000;$n++){
fputs($fp, "\r\n".$count[$n]);
}
$last=microtime(get_as_float);
$result=$last-$first;
fclose ($fp);
echo"\nend this test";
echo"\n the time is:".$result;
?>
由于这个网站不便公布,所以上连接地址和主机地址用*号代替,还请谅解。程序会先设计一个5000个元素的数组,然后发5000次http请求,记录下每次的时间。http报文中好像会有这个时间,但自己记不真切了,所以用的是microtime()函数,注意要加上get_as_float才可以做减法,而且加上include ("php_lib/LIB_http.php");屏蔽掉所有的php notice.
所有的数据全都写进data.txt文件,要注意的是,文件数据格式应该是矩阵,就算只有一个数据源,即只有一列,也要每个数据独占一行,不能连着写,比如不能1,2,3,4……,而应该是:
1
2
3
4
……
之所以这么做是因为R语言的缘故,R语言是对矩阵进行读写,所以这么写最方便(也有可能有更好的办法,只是我不知道而已)。
得到时间后,打开R语言环境,接着做统计:
①读取数据:
data<-read.table("data.txt",header=FALSE,sep=",",col.names=c('num'))
②求平均值:
mean(data[,1])
注意不能是 mean(data),否则会出现如下警告:
[1] NA
警告信息:
In mean.default(data) : 参数不是数值也不是逻辑值:回覆NA
data[,1]表示矩阵data的第一列(其实这里也就仅有一列,但也要这么写)。
③想画出散点图,但是坐标精度太小,分辨不出,这还要继续研究:
c<-data[,1]
mydata<-rbind(c,c)
mydata<-as.data.frame(mydata)
namse(mydata)<-c("x","y")
with(mydata,plot(x,y,pch=19,main="the result"))
图倒是画出来了,但是坐标精度只到小数点后2位,如何提高坐标精度,目前正在研究,options(digits)是不行了。接着想吧。
分享到:
相关推荐
5. **需求分析**:首先分析了足球资讯网站的背景,明确用户需求,这是整个项目的基础。通过业务流程梳理和问题分析,确定了系统的功能需求。 6. **系统建模**:基于需求分析的结果,进行了系统建模,包括实体关系图...
- **性能数据分析**:提供详细的性能指标,如事务响应时间、CPU和内存使用率等。 **2. 并发用户数量计算** 并发用户数量是性能测试中的关键参数,其计算公式为: \[ \text{并发数} = \frac{\text{业务量}}{\left...
1. **性能提升**:PHP 5.6在性能上相对于之前的版本有所优化,能够更快地处理代码,提高网站的响应速度,为用户提供更好的体验。 2. **新功能引入**:PHP 5.6引入了`finally`语句,这使得异常处理更加规范和简洁。...
1. **数据库设计**:包括实体-关系模型(E-R模型),数据库模式设计,确保数据的一致性和完整性。 2. **SQL语言**:用于创建、查询、更新和删除数据库中的数据。例如,CREATE TABLE用于创建表,SELECT语句用于查询...
在本压缩包“PHP结课作业.rar”中,我们可以预见到一份关于PHP编程语言的学习成果展示,这很可能是学生在课程结束时提交的项目或练习。PHP是一种广泛应用于Web开发的服务器端脚本语言,它使得开发者能够创建动态、...
通过执行`chown -R root`和`chgrp -R mysql`命令调整所有者和组权限。之后,启动MySQL服务:`./bin/mysqld_safe --user=mysql &`。 3. **检查MySQL服务状态**:使用`ps aux | grep mysql`命令确认MySQL服务是否已...
2. **使用安全的编程实践**:避免直接使用用户输入构建HTTP响应头,而是使用安全的库或函数,如PHP的`header()`函数的`replace`参数,防止覆盖现有头。 3. **限制响应头大小**:设置服务器配置以限制响应头的大小,...
- 创建MySQL用户并设置权限:`useradd -M -o -r -d /var/lib/mysql -s /bin/bash -c "MySQL Server" -u 27 mysql` - 启动MySQL服务:`/usr/local/mysql/bin/safe_mysqld &` - 登录MySQL:`mysql -uroot` 若遇到连接...
【标题】"THP.rar" 是一个压缩包文件,它包含了一个名为 "Internet/网络编程_PHP THP_THP_cst" 的...深入分析源代码和相关文件将揭示更多关于HTTP通信、PHP编程技巧、时间处理算法以及可能的数据库集成等方面的知识。
在IT行业中,PHP(Hypertext Preprocessor)是一种广泛使用的开源服务器端脚本语言,尤其适合Web开发。本文将深入探讨PHP程序设计的基础知识,帮助初学者快速掌握PHP的核心概念和编程技巧。 PHP的设计目标是使创建...
1. 调试技巧:学会使用var_dump、print_r等工具分析变量,以及使用Xdebug等扩展进行代码调试。 2. 性能优化:理解PHP的内存管理,学习如何减少内存占用,提高执行效率。 3. 安全性:了解SQL注入、XSS攻击等常见Web...
系统采用Ajax+Json进行数据通信,毫秒级的响应速度; 全平台兼容性:Win、Linux、Apache、Nginx、IIS; 支持中英文目录名及文件名; 强大的文件管理功能足以媲美专业的FTP软件; 将项目放入服务器后输入:...
【标题】"up_1023308_phpext_7gs0r.rar" 提供的是一份关于 PHP 源码的压缩包,其中包含了一个名为 "phpext" 的目录,以及两个文本文件:"12508a31154476100e656114d6b454b2.txt" 和 "fileinfo.txt"。这个压缩包的...
5. **日期与时间**:`date`格式化当前日期和时间,`time`获取当前Unix时间戳,`strtotime`解析日期/时间字符串。 6. **文件操作**:`file_get_contents`读取文件内容,`file_put_contents`写入文件,`fopen/fclose`...
`print_r`用于打印变量结构,`var_dump`用于详细地显示变量的信息,`strlen`计算字符串长度,`strpos`查找子串在字符串中的位置,`date`处理日期和时间,`include`或`require`引入其他PHP文件等。学习和熟练掌握这些...
5. PHP的HTTP请求和响应:理解GET和POST请求,以及如何获取和设置HTTP头。 6. 简单的数据库交互:如果项目中涉及到,可以学习如何使用PHP连接MySQL数据库,进行查询和更新操作。 7. 错误处理和调试:了解如何使用`...
如果数据不为空且不匹配预设的正则表达式(用于排除可能的脚本注入),则使用`eval_r`函数(此处的用法并不推荐,因为它可能存在安全风险)来解析JSON数据,并将`data.count`的值赋给ID为`count`的HTML元素。...
本文全面覆盖了从需求分析、系统设计、实现到测试的全过程,展示了基于PHP的药品推广网站的构建方法,对于理解Web开发流程和PHP应用具有实际指导意义。通过本系统的实施,不仅可以提升药品信息的传播效率,也为医药...