`
benni82
  • 浏览: 123309 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

当当页面数据抓取备案

 
阅读更多

1.使用MetaStudio和DataScraper工具抓取当当图书畅销版内数据(书名,作者,出版社等)

 

工具下载地址  http://www.gooseeker.com/cn/node/download/front  按说明文档定制脚本

 

2. 抓取的数据为xml文件格式,每个xml文件对应一张页面的数据

 

3. 需要将所有xml文件合并成一个excel文件

使用宏

 

Sub xml2excel()
    Dim oxmlDoc As DOMDocument
    Dim Node As IXMLDOMNode
    Dim oXmlNodes As IXMLDOMNodeList
    Set oxmlDoc = New DOMDocument
    oxmlDoc.async = False
    'Rows("1:1").Select
    m = Dir(ThisWorkbook.Path & "\*.xml")
    Do While m <> ""
        oxmlDoc.Load ThisWorkbook.Path & "\" & m
        Set oXmlNodes = oxmlDoc.SelectNodes("/extraction/新书热卖榜/item")
        For j = 0 To oXmlNodes.Length - 1
           j2 = Range("a65536").End(xlUp).Row + 1
           For i = 0 To oXmlNodes(j).ChildNodes.Length - 1
              Cells(j2, i + 1) = oXmlNodes(j).ChildNodes(i).Text
           Next
        Next
        m = Dir
    Loop
            For i = 0 To oXmlNodes(0).ChildNodes.Length - 1
            Cells(1, i + 1) = oXmlNodes(0).ChildNodes(i).nodeName
            Next
End Sub

 

需要依赖Microsoft XML, 否则回报“用户自定义未找到”错误。

通过vba  工具--引入 选项完成依赖。

 

 

分享到:
评论

相关推荐

    当当购物车页面_当当购物车页面_html网页购物车_js当当购物车_

    3. JavaScript(JS):JavaScript是动态网页的核心,用于处理用户交互、更新页面内容、验证数据等。在购物车页面中,JavaScript的主要作用包括: - 动态更新:当用户修改商品数量或选择商品时,JavaScript可以实时...

    京东卓越当当图书信息抓取工具

    在这个项目中,C#代码构建了一个特定于图书信息的网络爬虫,它能够按照预定的规则访问京东、当当和卓越的图书页面,收集需要的数据。 2. **HTTP请求与响应**:爬虫需要模拟浏览器向服务器发送HTTP请求,获取服务器...

    当当网数据(1.1G)快速检索

    标题中的“当当网数据(1.1G)快速检索”指的是一个项目,目标是设计并实现一个系统,能够高效地搜索当当网的大量数据。这个数据集可能包含了商品信息、用户评价、销售记录等多种类型的数据,总大小为1.1GB,这在...

    一个简单的当当网购物车页面,可以实现简单购物

    【标题】:“一个简单的当当网购物车页面”是指一种基于网页技术实现的模拟当当网购物车功能的示例项目。这个项目旨在帮助初学者理解购物车逻辑以及相关前端和后端技术的运用。 【描述】:这个简单购物车页面能够...

    当当网页面源码

    这是我自己写的当当网页面代码,里面是我自己设计的,希望能帮到大家!

    练习2:访问当当购物车页面节点

    进一步地,如果你需要从服务器获取购物车数据并渲染到页面上,可以使用JSP的EL(Expression Language)和JSTL(JavaServer Pages Standard Tag Library)。EL简化了表达式语法,而JSTL提供了各种标签来处理常见任务...

    当当网注册页面网页作品

    学习作品《当当网注册页面》帮助页面,北大青鸟项目实战2

    Jquery练习1:制作简易的当当购物车页面.zip

    在本实践项目中,我们将利用jQuery库来创建一个简单的当当购物车页面。jQuery是一个流行的JavaScript库,它简化了HTML文档遍历、事件处理、动画和Ajax交互等任务。通过这个练习,我们可以深入理解jQuery的基本用法...

    《初识HTML5—当当网图书分类页面》上机作业.rar_html作业当当_当当htmlcss_当当网_当当网html_当当网图书

    这是一个当当网主页的HTML+CSS代码实现,希望对大家有用

    html+css静态页面当当网案例

    3. **导航栏**:当当网的页面通常有一个顶部导航栏,这可以通过`&lt;nav&gt;`元素实现,包含链接到其他页面的`&lt;a&gt;`元素。 4. **段落与标题**:HTML提供了`&lt;h1&gt;`到`&lt;h6&gt;`的一系列标题元素,以及`&lt;p&gt;`元素来组织文本内容。 ...

    作业:完善当当购物车页面.zip_js_mud6y7_site:www.pudn.com_完善当当网页_完善当当购物

    新的文化文化部vwasxwerhrd撒擦SaaS

    当当网HTML页面(练习)

    这个名为"当当网HTML页面(练习)"的压缩包文件为初学者提供了一个极好的学习和实践平台,尤其是对那些刚接触网页设计的人来说。下面我们将详细探讨HTML、CSS和JavaScript这三种技术,以及如何通过它们来模仿和练习...

    采集当当网图书数据.zip

    标题中的“采集当当网图书数据.zip”表明这是一个关于从当当网抓取图书信息的项目,可能包含源代码、配置文件或者数据记录。描述提到的内容涉及到“大数据”、“数据采集”和“数据集”,这暗示了项目的核心是通过...

    仿当当网页面

    根据给定的信息,我们可以从标题、描述以及部分代码中提炼出与“仿当当网页面”相关的知识点。接下来,我们将详细地对这些知识点进行解析。 ### 知识点一:HTML与CSS基础知识 #### 1.1 HTML标签基础 - **`&lt;html&gt;`*...

    当当图书榜_当当图书榜html_当当图书榜_当当网图书html_html当当网_numberd77_

    这些标签不仅凸显了当当网作为数据来源的重要性,还表明了网页设计是围绕当当网的图书销售数据进行的。至于“numberd77”,它可能指向一个特定的版本标识或者项目编号,这有助于在多个迭代和版本的开发中追踪和区分...

    当当网机器学习图书数据(已清洗)

    该数据集来自当当网,包含600本图书,图书信息如下 价格、星级、评论数、作者、出版日期、出版社、书名、简介1、简介2

    scrapy爬取当当网数据

    scrapy爬取当当网数据

    2011最新当当网aspx页面

    如果这个文件确实是当当网的一部分,那么它可能包含了与当当网业务逻辑、用户交互或者数据处理相关的组件代码。 在ASP.NET中,开发者可以创建自定义控件、用户控件和类库来扩展功能。这个“COM.DANGDANG.SANZU”...

    大数据挖掘分析与管理—个性化精准营销方面的探索 当当在个性化推荐&amp;精准营销方面的探索 共25页.pdf

    为了解决这个问题,当当网引入了倒排索引和内存映射空间,这使得即使在处理几十GB数据时,也能将内存需求压缩到几百MB,并能在2小时内完成全量数据处理。此外,他们基于用户浏览历史推出了“买了还买了”和“看了还...

    当当网源代码

    - **页面逻辑**:研究ASP.NET控件和页面生命周期,理解页面间的跳转和数据传递。 - **服务接口**:分析API接口,了解前后端交互方式。 - **安全措施**:学习如何在实际开发中实现安全防护。 通过深入分析和理解当当...

Global site tag (gtag.js) - Google Analytics