使用ruby nokogiri从搜狐旅游新闻频道抓点东东做成分类的训练预料:
#!/usr/bin/ruby
#
# Author: fuliang http://fuliang.iteye.com
#
require 'open-uri'
require 'nokogiri'
link_xpath = "/html/body/div/div[4]/div[1]/div/ul/li/a"
content_xpath = '//*[@id="contentText"]'
10.upto(53) do |index|
url = "http://travel.sohu.com/lvyouxinwen_#{index}.shtml"
STDERR.puts "processing #{url}..."
Nokogiri::HTML(open(url)).xpath(link_xpath).each do |item|
link,title = item.attributes["href"], item.content
next unless link && title
title = title.gsub(/\s+|[<>]/,"")
contents = Nokogiri::HTML(open(link)).xpath(content_xpath)
next unless contents && !contents.empty?
content = contents[0].content.gsub(/\s+|[<>]/m,"")
puts "<TitleWords: %s><BodyWords: %s><category:TravelNews>" % [ title, content ]
end
end
分享到:
相关推荐
复旦大学谭松波中文文本分类语料库是一款广泛用于自然语言处理(NLP)领域,特别是文本分类任务的重要资源。这个数据集是由复旦大学的谭松波教授及其团队精心构建的,旨在促进中文文本的理解和分析能力的提升。在...
中文文本分类语料(复旦)-训练集和测试集 这个链接是训练集,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料...
《搜狗新闻分类语料:探索自然语言处理与新闻分类的深度学习之道》 搜狗新闻分类语料库,源自搜狗实验室,是研究自然语言处理(NLP)领域的一个重要资源,尤其在新闻分类任务中具有广泛的应用价值。这个语料库包含...
在这个场景下,我们有一个来自复旦大学的文本分类语料库,它包括了9833篇文档,用于帮助模型学习如何进行有效的文本分类。这个语料库被划分为两个部分:训练集和测试集。 训练集,标记为"train",包含了4902篇文档...
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。 语料库统计的意义:提供一个较大规模的标准中文文本分类...
【中文文本分类语料库(复旦)】是专门用于训练和评估中文文本分类模型的重要资源,由复旦大学提供。这个语料库在自然语言处理(NLP)领域具有广泛的用途,尤其对于机器学习和深度学习算法的研究者来说,它是不可或...
本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。(使用时尽量注明...
在这个例子中,使用的是搜狗提供的中文分类语料库。语料库通常包含已标记的文本样本,每条样本都有对应的类别标签。这里的文件如C000007.txt至C000014.txt,可能代表了不同的文本样本,每文件内部包含了对应的文本...
在这个场景下,"搜狗实验室文本分类语料"是一个专门为了训练和评估文本分类模型而设计的数据集。这个语料库包含了9个不同的类别:财经、互联网、健康、教育、军事、旅游、体育、文化以及招聘,每个类别有1990篇文本...
复旦大学谭松波中文文本分类语料库 中文文本分类语料(复旦大学)-训练集和测试集。测试语料共9833篇文档;训练语料共9804篇文档。
《搜狗实验室新闻分类语料库详解》 搜狗实验室新闻分类语料库是一个重要的数据集,主要用于自然语言处理和机器学习领域的研究,尤其是文本分类和信息检索方面。该语料库包含了丰富的新闻数据,共计50多万条记录,...
《中文文本分类与语料库建设详解》 中文文本分类是自然语言处理领域的重要研究方向,它涉及到机器学习、深度学习以及自然语言理解等多个技术。在这个任务中,计算机需要理解和识别文本内容,然后将其归类到预定义的...
实现文本分类的主要包括几个步骤文本分词处理,特征选择,特征权重计算,文本特征向量表示,基于训练文本的特征向量数据训练SVM模型,对于测试集进行特征向量表示代入训练得到的svm模型中进行预测分类,达到93%的...
《中文文本分类语料(复旦)训练集+测试集(100M)完整版》是一个广泛应用于自然语言处理(NLP)领域的大型数据集,由复旦大学提供,主要用于训练和评估文本分类模型。这个数据集包含了大量中文文本,涵盖了丰富的...
《搜狗实验室文本分类语料库深度解析》 在当今信息爆炸的时代,文本处理与分析技术成为了挖掘数据价值的关键工具。搜狗实验室推出的文本分类语料库,为研究者和开发者提供了一个宝贵的资源,用于进行文本开发和相关...
复旦大学发布的这个“NLP文本分类语料库”为这类任务提供了丰富的训练数据,对于模型的构建和优化至关重要。 语料库在NLP中的作用: 1. **数据驱动**:现代的NLP模型,尤其是深度学习模型,依赖大量的标注数据进行...
《中文新闻类分类语料库详解与应用》 新闻分类是自然语言处理领域的一个重要任务,它涉及到对新闻文本进行自动归类,以便快速检索、分析和理解信息。本资源提供了一个专门针对中文新闻的分类语料库,涵盖四个主要...
复旦大学中文文本分类语料.xlsx
复旦大学文本分类新闻语料库是一个广泛应用于自然语言处理领域的数据集,主要由测试集和训练集组成,用于帮助机器学习模型进行文本分类任务。这个数据集的编码格式为GBK,这意味着在处理前需要确保你的工具或程序...