`
cyl_python
  • 浏览: 2921 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

使用SGMLParser解析html页面小程序

阅读更多
最近公司任务不是太多,有时候就逛逛京东首页,看一下有没有需要买的而且打折的,但是看了两天感觉太麻烦,天天还要打开页面。然后就想写个小程序监控一下,想看的时候运行一下程序就行了,呵呵。不想多复杂,只需要有物品名和价格就行,本来以为挺简单的,简单写了一下,发现抓取回来的信息太乱,然后换了好几个小时才把无关的信息给过滤掉。拿出来供大家参考一下吧,呵呵。
分享到:
评论

相关推荐

    python解析html的几种方法

    Python在处理HTML文档时提供了多种方法,这些方法可以帮助...对于轻量级任务,可以使用内置的`HTMLParser`,而`SGMLParser`则适合对老式SGML文档进行解析。理解这些工具的特性和用法是提高Python处理HTML能力的关键。

    SGMLParser-sp1_3_4(win32)

    2. **pubtext**:此文件可能包含示例SGML文档或者是一些公开的文本资源,用户可以使用这些样本来测试SGMLParser的功能,理解其解析效果,也可以作为开发过程中的参考。 3. **bin**:这是可执行文件所在的目录,通常...

    SGMLParser-sp-1.3.4(linux)

    SGMLParser-sp-1.3.4(linux) 是一个专为Linux操作系统设计的SGML(Standard Generalized Markup Language)解析工具的版本1.3.4。SGML是一种早期的标记语言,它是XML(eXtensible Markup Language)的前身,用于结构...

    python提取html当中的信息.docx

    程序还使用 `urllib2` 模块的 `urlopen` 函数获取网页内容,然后使用 `ListName` 类的实例解析 HTML,最后打印出所有 `<h4>` 标签中的文本内容。需要注意的是,由于编码问题,使用了 `decode('gbk').encode('utf8')`...

    Python实现网络爬虫、蜘蛛.pdf

    这个示例代码使用了 SGMLParser 库来解析 HTML 文档,并提取其内容。其中,handle_data 方法用来处理文本数据,而 start_head 和 end_head 方法用来处理头部标签。 除了使用 SGMLParser 库以外,Python 还提供了...

    设计文档2

    - 使用`crawler.py`程序,该程序利用Python的HTMLParser和SGMLParser的子类MyHTMLParser和ListName来解析网页结构。 - 爬取范围限定在清华新闻网的news子域名下,通过正则表达式提取新闻的URL、标题、正文和时间...

    HTMLParser.jar

    HTMLParser库提供了多种解析策略,例如SimpleHTMLParser、SGMLParser和NekoHTMLParser等。每种解析器都有其特定的处理方式,适用于不同的场景。例如,SimpleHTMLParser适合基本的HTML处理,而NekoHTMLParser则基于...

    用Python实现网络爬虫、蜘蛛.doc

    - 对于更复杂的爬虫项目,可以使用像`BeautifulSoup`或`lxml`这样的库解析HTML,它们提供了更友好的API来查找和处理HTML元素。 - 爬虫还需要考虑反爬策略,如设置代理、更换User-Agent、处理验证码等。 - 数据...

    Python抓取页面、Pthon爬虫参考资料

    2. **网页内容提取**:在上述代码中,`SGMLParser`是Python标准库`sgmllib`的一部分,用于解析HTML或SGML文档。`Html2txt`类是自定义的解析器,通过重写`handle_data`方法来处理HTML中的文本内容。`start_head`和`...

    sasgml:SGML的类似于SAX的API(Java的SGML解析器)-开源

    4. sgml-win64-0.0.2-SNAPSHOT.jar和sgml-win32-0.0.2-SNAPSHOT.jar:这两个是Java Archive(JAR)文件,包含sasgml的Java类和资源,适用于不同平台的Java应用程序使用。 结合以上信息,我们可以得出sasgml是一个...

    python爬虫.docx

    文章通过一个简单的例子展示了如何使用Urllib获取网页HTML,以及如何使用sgmllib的子类SGMLParser进行解析。读者可以通过创建自定义的解析类,重写其方法来处理HTML标签的开始和结束事件。 总的来说,Python爬虫...

    python爬虫.doc

    对于HTML解析,sgmllib库提供了一种基础方法,需要创建一个自定义类继承自SGMLParser,并重写其方法以处理特定的HTML标签。通过`.feed(data)`方法,可以将HTML内容传递给解析器进行处理。 总之,Python爬虫技术涉及...

    利用Python的Twisted框架实现webshell密码扫描器的教程

    这里用到了SGMLParser,一种用于解析HTML和XML的Python库,能够帮助开发者定位到form表单和input元素。 提到的urlopen是Python标准库中的一个方法,用于发起网络请求。文档中展示了如何使用urllib2构建一个带有...

    用python编写网络爬虫.docx

    作者使用了 SGMLParser 库来解析下载的网页,提取其中的链接。 4.toolbox_insight.py 文件的作用 toolbox_insight.py 文件是一个工具文件,提供了一些基础的工具函数,例如 Basegeturls 类、Newlist 类等。这些...

    Python实现网络爬虫、蜘蛛.docx

    - `SGMLParser` 类:Python 标准库中的 `sgmllib` 模块提供了 `SGMLParser` 类,用于解析 SGML(包括 HTML)文档。在示例的 `Html2txt` 类中,`handle_data` 方法用于处理 HTML 文档中的文本数据,`start_head` 和 ...

    python爬虫零基础入门.docx

    * 使用 sgmllib 解析 html 文本 * 自定义类继承 sgmllib 的 SGMLParser,复写 SGMLParser 的方法,添加自己自定义的标签处理函数 知识点七:爬虫技术的未来发展 爬虫技术的未来发展方向包括: * 单机爬虫到分布式...

    python爬虫

    在提供的代码示例中,使用了SGMLParser类(在旧版Python中)来解析HTML内容并提取文本。`Html2txt`类继承自`SGMLParser`,并重写了`handle_data`方法来收集在`<body>`标签内的文本。当解析到`<head>`标签时,`inbody...

    python网络爬虫代码资料

    2. **网页解析**:对于HTML内容的解析,示例代码使用了`sgmllib`模块的`SGMLParser`类。`Html2txt`类继承自`SGMLParser`,并在处理HTML数据时将文本内容保存到`text`变量中。`handle_data()`方法用于处理HTML标签间...

Global site tag (gtag.js) - Google Analytics