0 0

快速抓取网页数据入库0

抓取了网页的html代码保存在一个文本文件里,如何将其table表格里的数据快速定位并入库,高手降临指教!!!
---------------------- 以下就是抓取存在文件里的内容
<html>
<head>
<title>****</title>
<link href="layout2.css" rel="stylesheet" type="text/css" />
</head>
<body>
<div id="container">
  <div id="header"></br><h1>5806系统后台</h1></div>
<div id="menu">
<ul >  
<li><a href="">对账结果</a></li>
<li><a href="">订购查询</a></li>
  
<li><a href="">退出登录</a></li>
</ul>
</div>

  <div id="mainContent">
    <div id="sidebar">
   
    </div>
    <div id="content">
        <table width="90%">
    <tr><td></br><h1>订购查询</h1></td></tr>
    <tr><td>
    <table width="90%" border="0" bordercolor="#FFFFFF" cellspacing="0" cellpadding="0">

             共分1页显示,当前是
                 1页.
                 <form id='form6' name='form6' method='post' action=''>  <label>跳转到第<select name='pageid' id='pageid'>
<option value='1'>1</option>
  </select>页</label>  <input type='submit' value='提交' /></form>

</hr>
<tr>
<td>名称</td>
<td>时间</td>
<td>代码</td>
<td>代码</td>
<td>总数</td>
<td>总金额</td>
<td>小计</td>
</tr>
<tr class="trlist">
<td>104&nbsp;&nbsp;</td>
<td>2012-10-02 00:00:00.0&nbsp;&nbsp;</td>
<td>022&nbsp;&nbsp;</td>
<td>103&nbsp;&nbsp;</td>
<td>1&nbsp;&nbsp;</td>
<td>2&nbsp;&nbsp;</td>
<td>&nbsp;&nbsp;</td>
</tr>
<tr class="trlist">
<td>&nbsp;&nbsp;</td>
<td>&nbsp;&nbsp;</td>
<td>&nbsp;&nbsp;</td>
<td>&nbsp;&nbsp;</td>
<td>&nbsp;&nbsp;</td>
<td>&nbsp;&nbsp;</td>
<td>2&nbsp;&nbsp;</td>
</tr>
</table>
</td></tr></table>
</div>
  </div>
  <div id="footer">
<p>&nbsp;</p>
CopyRight 2011-2015</p>

  </div>
</div>
</body>
</html>
2012年12月05日 14:51

3个答案 按时间排序 按投票排序

0 0

采纳的答案

考虑使用下jsoup吧 类似于css/jquery语法

2012年12月05日 15:10
0 0

你就是想要<tr class="trlist"> </tr>之间的数据呗?

那就解析你的文本,找到此部分,一个一个取

2012年12月06日 10:11
0 0

用htmlparser解析好了

2012年12月05日 15:04

相关推荐

    数据自动采集以及后续和处理

    这可以包括网络爬虫抓取网页信息、传感器收集物理世界的数据、API接口调用获取第三方服务的数据等。LabVIEW(Laboratory Virtual Instrument Engineering Workbench)是一种图形化编程语言,常用于科学实验和工程...

    asp.net 远程抓取数据生成静态页面Demo

    数据抓取是指从互联网上的各种源获取信息,通常是通过HTTP请求和解析HTML或JSON等格式的响应。在Asp.NET中,我们可以使用HttpClient类来发送HTTP请求,然后使用HtmlAgilityPack或Newtonsoft.Json等库来解析和处理...

    基于PHP的简单采集数据入库程序

    这个过程实质上是模拟用户浏览网页的行为,通过程序自动抓取网页内容,并从中提取有价值的数据。 2. PHP中的文件操作函数file_get_contents:这个函数用于从指定的URL获取数据,相当于在浏览器中输入URL回车获得...

    网站内容抓取

    此外,WebSpider具备广泛的适用性,能抓取任何网页数据,即使在需要登录或有防盗链防护的网站上也能有效工作。它还具备快速处理能力,高精度的数据校验,支持断点续抓,以及多语种支持等功能。页面深度抓取和分步...

    网址采集软件直接采集入库

    【标签】:“网址采集软件”表明这个软件专注于网页数据的采集。常见的数据采集方法有爬虫技术和API接口调用。爬虫技术通过模拟浏览器行为,遵循HTTP/HTTPS协议,逐页抓取网页内容;API接口调用则是向网站提供的公开...

    通过网络爬虫将网络数据爬取下来并进行解析清理,之后对数据进行处理,处理后将关键数据展现给客户

    它通过发送HTTP或HTTPS请求到目标网站,获取网页的HTML或其他格式的源代码。Python中的BeautifulSoup、Scrapy等库是常用的爬虫框架,它们能够帮助开发者构建高效的爬虫程序。在爬取过程中,需要设置爬虫策略,如深度...

    垂直搜索引擎抓取数据的采集系统

    2. **数据清洗与入库**:在数据进入数据库之前,系统需进行数据清洗,去除无用的信息,统一数据格式。清洗后的数据会按照预设的结构插入到对应的数据库表中,便于后续的索引和查询。 四、异常处理与重试机制 1. **...

    PHP100视频教程83:PHP开发通用采集入库程序二.rar

    1. **网页数据采集**:在互联网上,数据采集是获取所需信息的有效方式,它可以自动化地从各种网页抓取数据。在PHP中,常用的数据采集库有Simple HTML DOM Parser、Goutte等。通过分析HTML结构,我们可以定位到需要的...

    直接修改首页,入库js翻页源码

    标题中的“直接修改首页,入库js翻页源码”指的是在网页开发中,特别是ASP(Active Server ...对于想要采集数据的用户,可以直接利用这些源码快速搭建一个能够处理大量数据并支持翻页的网页,从而简化数据抓取的过程。

    数据采集数据仓库.zip

    例如,"sjcj-master"可能包含用于抓取网页信息的爬虫代码,或者用于收集服务器日志的脚本。 数据仓库则是数据采集后的重要目的地,它是专门为分析和报告而设计的大型数据库。数据仓库通过整合来自不同业务系统的...

    C# 数据采集系统 智能采集 数据分析 整套源码

    C#可以与多种数据库系统(如SQL Server、MySQL、MongoDB)无缝对接,SmartSpider可能实现了高效的数据库操作接口,确保数据的快速入库和检索。 5. **数据分析模块** 数据采集的目的是为了获取有价值的信息,因此...

    dotnet-RuiJiNet是一个C开发的分布式抓取框架

    对于需要处理大量网页数据的企业或个人开发者,RuiJi.Net无疑是一个强大的助手,能够帮助他们快速、高效地获取网络上的有价值信息。 总结,dotnet-RuiJiNet是一个强大的C#分布式抓取框架,它的自托管和分布式特性...

    jtopo拓扑图实例代码

    它能够清晰地展示各种设备、网络节点以及它们之间的连接关系,帮助运维人员快速理解网络结构并进行故障排查。jtopo就是这样一个专用于绘制Java拓扑图的库,它提供了丰富的API和功能,使得开发者可以轻松创建出复杂的...

    基于python的IT行业招聘数据分析与岗位推荐系统 .doc

    总之,基于Python的IT行业招聘数据分析与岗位推荐系统结合了网络爬虫、数据库技术和数据可视化,为解决招聘信息的获取和分析难题提供了有力的支持,对于优化招聘流程,提升就业效率具有重要意义。

    资源数据采集技术方案..pdf

    * 网络爬虫技术:使用 Java 语言实现网络爬虫,能够快速抓取网站数据。 * 数据分析技术:使用数据挖掘算法和机器学习算法来分析和过滤数据。 * 数据解析技术:使用 XML、HTML、JSON 等格式来解析数据。 * 数据存储...

    面向电商网站的分布式爬虫系统开发.pdf

    在技术实现方面,本文提到系统使用了Scrapy框架,这是一种高效的爬虫框架,能够快速抓取网页数据,并使用Redis进行数据缓存。为了处理JavaScript动态加载的内容,系统集成了Selenium插件来控制浏览器模拟用户行为,...

    答辩pptjava jsp ssm mysql 004仓储系统出入库模块设计.ppt

    - 随着21世纪互联网的普及,企事业单位对信息化管理的需求日益增长,传统的管理模式已无法满足快速获取和处理信息的需求。 - 开发仓储出入库管理系统可以提升企业形象,适应网络时代的发展,加强服务质量和效率。 ...

    终点采集规则-书阁网

    HTTP协议则决定了如何与服务器进行通信,获取网页内容。 其次,我们需要选择或编写合适的爬虫工具。Python中的BeautifulSoup库或Scrapy框架是常见的选择,它们提供了方便的接口来解析HTML和管理请求。对于初学者,...

    爬虫_数据提取值xpath和lxml模块学习

    在IT领域,网络爬虫是一种自动化程序,用于从互联网上抓取信息,而数据提取则是爬虫技术的核心部分。在这个“爬虫_数据提取值xpath和lxml模块学习”的主题中,我们将深入探讨如何利用Python的XPath和lxml库进行高效...

    基于大数据的舆情分析系统架构.pdf

    其次,原始网页数据需进行预处理,转化为结构化数据。这包括抽取文章标题、摘要等关键信息,如果涉及商品评价,还需提取有效点评。这一阶段的目标是将非结构化的网页内容转换为便于分析的形式。 接下来,结构化数据...

Global site tag (gtag.js) - Google Analytics