`
hanbaohong
  • 浏览: 407766 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

采集他人网站新闻的ASP代码

    博客分类:
  • ASP
阅读更多

下面的代码是采集人民网基础教育的前10条新闻

<%@LANGUAGE="VBSCRIPT" CODEPAGE="936"%>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>采集测试</title>
<style type="text/css">
<!--
body,td,th {
	font-size: 9pt;
	line-height:20px;
}
-->
</style></head>

<body>
<%
'常用函数
'1、输入url目标网页地址,返回值getHTTPPage是目标网页的html代码
function getHTTPPage(url)
dim Http
set Http=server.createobject("MSXML2.XMLHTTP")
Http.open "GET",url,false
Http.send()
if Http.readystate<>4 then 
exit function
end if
getHTTPPage=bytesToBSTR(Http.responseBody,"GB2312")
set http=nothing
if err.number<>0 then err.Clear 
end function

'2、转换乱玛,直接用xmlhttp调用有中文字符的网页得到的将是乱玛,可以通过adodb.stream组件进行转换
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objstream.Open
objstream.Write body
objstream.Position = 0
objstream.Type = 2
objstream.Charset = Cset
BytesToBstr = objstream.ReadText 
objstream.Close
set objstream = nothing
End Function

'下面调用
Dim Url,Html
Url="http://edu.people.com.cn/GB/xiaoyuan/80060/index.html"
Html = getHTTPPage(Url)
startStr="<table width=""400"" border=""0"" align=""center"" cellpadding=""0"" cellspacing=""0"" class=""d2j_17"">"
start=instr(Html,startStr)
start=instr(start,Html,"<td>")
endlc=instr(start,Html,"<br>·")
Html=mid(Html,start+4,endlc-start)
Html=replace(Html,"/GB/","http://edu.people.com.cn/GB/")
Response.write Html
%> 
</body>
</html>

 

分享到:
评论

相关推荐

    万能asp采集器

    在ASP采集器中,开发者可以通过编写ASP代码来定义如何解析目标网页,提取特定的数据元素,如文章标题、作者信息、发布时间等。这使得开发者无需深入了解HTML、CSS或JavaScript,就能实现高效的数据抓取。 万能ASP...

    asp版本信息采集程序

    此"asp版本信息采集程序"可能是用于从互联网上抓取特定的ASP应用程序的相关信息,比如服务器配置、ASP版本、使用的库或组件等,这在安全分析、网站维护或研究中可能非常有用。 首先,我们需要理解ASP的基础知识。...

    ASP.NET-[新闻文章]NewsDig(新闻自动采集系统)源代码v1.0.com14104412905.zip

    7. **安全性与合规性**:新闻采集需遵循robots.txt协议和网站的抓取政策,尊重版权,避免侵犯他人权益。此外,系统还应考虑安全措施,如防止SQL注入、XSS攻击等。 8. **性能优化**:对于大量新闻数据的处理,可能...

    ASP实例开发源码——曲阳热线互联网新闻采集系统 v1.0.zip

    10. **版权与合规性**:新闻采集需要遵守网站的robots.txt文件规定,尊重版权,避免侵犯他人权益。 通过分析这个源码,开发者不仅可以学习到ASP编程的基础,还能深入理解网络新闻采集系统的架构和工作原理,这对于...

    网站小偷程序自动采集asp

    网站小偷程序,也被称为网页抓取或网页爬虫,是一种自动采集网络上信息的工具。...同时,对于ASP网站的特定需求,可能需要了解一些基础的ASP语法和服务器配置知识,以便更好地定制和调整采集程序。

    电影站源码带采集

    电影站源码是一种用于搭建在线电影分享或观看网站的程序代码,它包含了网站的基本结构、功能模块以及数据处理...然而,需要注意的是,使用采集规则时需遵守相关法律法规,确保不侵犯他人版权,尊重原网站的数据所有权。

    伪静态版ASP文章小偷(采集)程序

    标题中的“伪静态版ASP文章小偷(采集)程序”是指一种基于ASP编程语言开发的网页数据抓取工具,主要用于自动收集互联网上的文章内容。这种程序通常被用于网站内容的快速填充,但也可能引发版权和道德问题,因为它...

    27758电影采集 v4.0 -ASP源码.zip

    《27758电影采集 v4.0 ASP源码》是一个专为电影网站内容采集设计的程序,基于经典的服务器端脚本语言ASP(Active Server Pages)开发。这个版本是4.0,意味着它经过了多次迭代和优化,旨在提供更高效、稳定且功能...

    基于ASP的游戏私服发布网站采集插件 v1.0.zip

    【ASP游戏私服发布网站采集插件 v1.0】是一个专为游戏私服发布网站设计的自动化数据采集工具,主要用于从目标网站抓取相关信息并进行处理,以满足游戏服务器运营者快速发布更新、公告或者游戏资源的需求。...

    采集百度,google,yahoo的搜索图片,asp.net破图片防盗链

    ASP.NET是微软推出的一种用于构建Web应用的框架,而图片防盗链是为了防止他人未经许可直接引用网站上的图片资源。常见的防盗链技术包括检查HTTP Referrer头、设置HTTP Header的Cache-Control和ETag、使用Token验证等...

    马克斯采集插件 v3.0-ASP源码.zip

    【马克斯采集插件 v3.0-ASP源码.zip】是一个包含ASP源代码的压缩文件,主要用于数据采集功能。ASP(Active Server Pages)是一种由微软开发的服务器端脚本环境,它允许开发者创建动态、交互式的Web应用程序。在这款...

    搜索音乐网站系统源代码--003

    7. 安全性:自动采集他人网站数据需谨慎,以免触犯版权法规。同时,网站自身也应有防止SQL注入、XSS攻击等的安全措施,保护用户和自身系统不受损害。 8. 性能优化:对于大型音乐网站,处理大量数据和高并发访问是个...

    FLASHZ网小偷带采集(直接生成HTML) -ASP源码.zip

    【标题】"FLASHZ网小偷带采集(直接生成HTML) -ASP源码.zip" 提供的...然而,需要注意的是,任何未经许可的数据采集都可能违反网站的使用条款,因此在实际应用中,应确保遵循合法和道德的采集原则,尊重他人的知识产权。

    QQ空间代码在线克隆工具 v1.1 ASP版源码.rar

    QQ空间代码在线克隆工具V1.1 ASP版源码是一个基于ASP(Active Server Pages)技术的程序,用于帮助用户快速复制或克隆QQ空间的布局和设计代码。ASP是一种微软开发的服务器端脚本环境,它允许开发者通过HTML、...

    基于ASP的小说采集爬虫源码.zip

    【ASP技术介绍】 ASP(Active Server Pages)是微软公司推出的一种服务器端脚本环境,用于创建动态交互式网页。它允许开发人员在HTML代码中嵌入脚本语言,...在没有授权的情况下,不要随意抓取和使用他人网站的数据。

    lekee小游戏联盟极速采集(asp)[带后台].zip

    【描述】"lekee小游戏联盟极速采集(asp)[带后台].zip" 是这个系统的压缩包文件,其中包含了所有必要的源代码和可能的配置文件。用户下载后,可以通过解压来获取全部程序,并在适当的服务器环境中部署运行。由于是ASP...

    ASP.NET源码——风车通用Web采集程序在线版.zip

    9. **安全性和隐私保护**:采集程序应遵循互联网道德规范,尊重网站的robots.txt文件,不进行恶意爬取,同时对采集到的数据进行合理的处理和存储,防止侵犯他人隐私。 10. **性能优化**:对于大规模采集,程序可能...

    ASP.NET-[小偷采集]万能小偷程序v1.0beta.zip

    1. **版权与合法使用**:确保你的采集行为符合法律法规,尊重网站的robots.txt文件,并避免侵犯他人的版权。 2. **性能优化**:合理控制请求频率,防止对目标网站造成过大的访问压力,以免被封IP。 3. **数据安全*...

    EexeNet文章采集插件 v1.0 For PJBLOG -ASP源码.zip

    《EexeNet文章采集插件 v1.0 For PJBLOG -ASP源码》是一款针对PJBLOG系统设计的文章采集工具,其核心是基于ASP语言编写的。ASP(Active Server Pages)是微软开发的一种服务器端脚本环境,用于创建动态交互式网页。...

    ASP实例开发源码-精美图片采集爬虫 免费版.zip

    6. 限制与合规性:在进行图片采集时,必须遵守网站的robots.txt协议,尊重版权,不侵犯他人的知识产权。此外,频繁或大规模的爬取可能引起服务器的反感,导致IP被封禁,因此合理的爬取速度控制也很重要。 7. 使用...

Global site tag (gtag.js) - Google Analytics