html抽取正文等 - 凌一木 - ITeye博客

`

ld362093642

浏览: 67681 次
性别:
来自: 武汉

最近访客更多访客>>

devcang

guhaorui

ZHAO_Beer

一个破名字

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

html抽取正文等

阅读更多

readability 学习中
朋友给的资源 https://github.com/selectingProcess/snacktory(侵删)

File f = new File("htmtmp/4186.htm");
    	Converter c = new Converter();
    	 ArticleTextExtractor extractors = new ArticleTextExtractor();
    	JResult res =  extractors.extractContent(c.streamToString( new FileInputStream(f)));
    	System.out.println(res.getText());

BufferedReader reader = new BufferedReader(new FileReader("htmtmp/1.htm"));
        String line = null;
        Set<String> existing = new LinkedHashSet<String>();
        while ((line = reader.readLine()) != null) {
            int index1 = line.indexOf("\"");
            int index2 = line.indexOf("\"", index1 + 1);
            String url = line.substring(index1 + 1, index2);
            String domainStr = SHelper.extractDomain(url, true);
            String counterStr = "";
            // TODO more similarities
            if (existing.contains(domainStr))
                counterStr = "2";
            else
                existing.add(domainStr);

            String html = new HtmlFetcher().fetchAsString(url, 20000);
            String outFile = domainStr + counterStr + ".html";
            BufferedWriter writer = new BufferedWriter(new FileWriter(outFile));
            writer.write(html);
            writer.close();
        }
        reader.close();

jsoup-1.7.2.jar (286.8 KB)
下载次数: 0

分享到：

jar程序运行内存溢出GC overhead limit ex ... | Java中去除字符串中的html

2014-09-18 12:09
浏览 773
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

用htmlparser分析并抽取正文: 总的来说，HTMLParser提供了处理和解析HTML文档的强大工具，通过智能地识别和处理HTML结构，可以有效地抽取正文。在进行正文抽取时，应考虑网页的多样性，不断调整和优化算法以适应各种HTML布局和内容。对于想要...

HTMLParser抽取Web网页正文信息.doc: ### HTMLParser抽取Web网页正文信息的关键知识点 #### 一、HTMLParser简介与应用 HTMLParser是一种用于解析HTML文档的工具，特别适用于从Web网页中提取有用的信息。它能够有效地识别和解析HTML标签，帮助开发者从...

从HTML文件中抽取正文的简单方案试验结果: 总的来说，从HTML文件中抽取正文是一个多步骤的过程，涉及到HTML解析、内容识别、文本清洗等多个环节。随着技术的发展，从规则匹配到深度学习，各种方法都在不断优化这个过程，以提高正文抽取的准确性和效率。对于IT...

HTMLParser抽取Web网页正文信息: HTMLParser 是一个强大的工具，用于解析和分析HTML文档，它能帮助我们从网页中抽取主要信息，排除掉无关的导航、广告和版权等噪音内容。这不仅能够优化用户体验，节省浏览时间，还能提高用户获取信息的效率，进而...

从HTML文件中抽取正文的简单方案.pdf: ### 从HTML文件中抽取正文的简单方案 #### 背景介绍随着互联网的快速发展，HTML文件成为了信息传递的主要载体之一。然而，在这些文件中，真正的内容往往被各种无关的元素如广告、布局表格、格式标记等所包围。为了...

基于统计的网页正文信息抽取: 在IT领域，网页正文信息抽取是一项重要的技术，它主要用于从大量的网页数据中提取出有用的信息，如新闻报道、产品描述等。"基于统计的网页正文信息抽取"是一种利用统计学方法来识别和提取网页主要内容的技术。本文将...

基于行块分布函数的通用网页正文抽取算法: 运用正则表达式能够精确的抽取某一固定格式的页面，但面对形形色色的HTML，运用规则处置难免捉襟见肘...能不能高效、精确的将一个页面的正文抽取出来，并做到在大范围网页范围内通用，这是一个直接关系上层应用的难题。

基于JerichoHTMLParser的html信息抽取.pdf: 在进行HTML信息抽取时，除了选择合适的解析器，还需要考虑如XPath和CSS选择器等工具，它们可以帮助定位和提取所需信息。此外，考虑到版权和隐私问题，进行网页抓取时必须遵守网站的robots.txt规则和其他相关法规。 ...

基于统计的网页正文信息抽取方法: 为此，《基于统计的网页正文信息抽取方法》一文提出了一种新的方法，旨在从中文新闻类网页中高效准确地抽取正文内容。这种方法不仅简化了传统网页内容抽取过程中的复杂度，而且提高了信息抽取的准确性。 #### 方法...

使用JSoup实现新闻网页正文抽取: 此外，为了使程序更具通用性，可以考虑实现一个接口或者抽象类，定义抽取正文的方法，然后为每个新闻网站创建对应的实现类。这样，如果遇到新的新闻网站，只需新增一个类并实现抽取方法即可。在Eclipse中，将项目...

点名器，名字随机抽取，四种不同类型: 四种代码均可伪随机名字抽取，但xxxx2.html的代码更多，更复杂，请使用时量力而行。根据类型分为“名字抽取”和“点名器”两种类型。名字抽取点击按钮随机抽取提前输入的名字，每点击一次抽取一个。点名器开始...

万金油正文抽取器体验版: 在使用时，只需输入待抽取正文的URL或复制粘贴文本，软件将自动执行正文抽取算法，呈现出提取的结果。这种工具对于研究人员、记者、编辑和内容管理者来说非常实用，能够帮助他们高效地处理大量文本信息。总的来说...

unity抽取html信息demo: "unity抽取html信息demo"就是这样一个示例项目，它演示了如何在Unity中处理HTML数据，虽然可能不是全自动化的解决方案，但它提供了从静态HTML页面中提取关键信息的基础方法。 Unity本身并不直接支持HTML解析，但...

Web新闻正文信息抽取技术研究: Web新闻正文信息抽取技术研究是一项专门针对网络新闻页面中正文内容、发布时间以及转载情况等关键信息进行抽取的技术。这一技术的实现涉及到多个领域的知识，包括但不限于自然语言处理、网络爬虫技术、数据挖掘以及...

HTML抽取器Xsoup.zip: Xsoup是基于Jsoup开发的HTML抽取器，提供了XPath支持。相比另一个常用的基于XPath的HTML抽取器HtmlCleaner，Xsoup有较大的性能优势，解析时间和抽取时间都只有HtmlCleaner的一半。同时Xsoup提供全面的XPath解析...

网页正文抽取正则表达式: ### 网页正文抽取正则表达式解析在网页数据抓取与处理的过程中，正则表达式的应用极为广泛，特别是在提取网页中的特定文本内容时。本文将详细解析一段用于网页正文抽取的正则表达式代码，并对其进行深入解读，帮助...

基于机器学习的HTML标题抽取.pdf: 【基于机器学习的HTML标题抽取】是研究如何利用机器学习技术从HTML文档中准确地提取出代表文档主题的标题信息。HTML文档中的标题通常在<Title>...标签中，但并非所有网页都能准确地将主要内容概括在Title标签内。...

Global site tag (gtag.js) - Google Analytics