抓取数据分类错误 - ITeye问答

问答首页 → Java企业应用

0 0

抓取数据分类错误20

今天，我很郁闷，刚刚到公司，就要开会，指出我小偷组偷数据不精确，类别乱放，我当时就这样回答他们，第一，我可能是分类错误，人工造成，第二，可能是它网站本来分类错误，导致我错误。这点我是不能避免的。然后提出来，抽取数据到网站时，需要加一步，人工干涉。这样网站就可以避免出现类别分错，还有垃圾信息。另外一个人说，可以做到自动去判断它是否属于该类别，当时，我第一个反应就是，如果实现自动，无非是给爬虫加大困难，让爬虫做了它不应该做的事情，我感觉不属于爬虫这个范围。但是我心里是这样想，没把我的想法告诉他，只是回答说，可以做，但是是抓取下来之后，进行分类，不能一边抓取一边进行判断，那是很可怕的事情。说了那么多，我想问一下，如果在抓取中，加一个识别类别的功能，真的很好吗？大家给个建议。谢谢！

2008年12月19日 10:03

lzj0470
134
0 0 2

3个答案按时间排序按投票排序

0 0

引用

如果在抓取中，加一个识别类别的功能，真的很好吗？

为了提高效率，抓取和识别最好分开，也符合单一职责原则，为以后程序的维护打好基础。

2008年12月21日 21:20

lewhwa
2963
0 0 0

添加评论

0 0

最好是，你连手都不要动。

做个音频接收器，你说说话就是下指令。程序自动运行抓取、自行分类.........

2008年12月20日 11:11

墓里活人
728
0 0 0

添加评论

0 0

引用

如果在抓取中，加一个识别类别的功能，真的很好吗？

这个不知道你的要求是怎么样的，如果是要求效率肯定是不能忍的，一个过滤器是很浪费时间的，那爬虫岂不成乌龟了

但是可以考虑下，抓取下来之后的适配

2008年12月19日 12:30

aidiyuxin
3
0 0 1

添加评论

相关推荐

C# 抓取数据: 在实际应用中，还需要考虑反爬虫策略、错误处理、数据存储等多个方面，才能构建出高效稳定的数据抓取系统。而DnspodApp可能是一个与DNS解析或域名管理相关的应用示例，这需要根据具体代码来进一步分析其功能和实现...

java httpclient 抓取数据和jar 包: 在本篇文章中，我们将深入探讨如何使用Java HttpClient来抓取网页数据以及如何打包成jar文件。 **一、Java HttpClient简介** Java HttpClient 是 Apache HttpClient 库的一部分，它提供了丰富的功能，包括连接管理...

web程序抓取各个网站的数据: 4. **批量抓取**：为了从多个网站或页面抓取数据，你需要设计一个循环或迭代机制，每次请求一个新页面并重复数据提取步骤。同时，要注意避免过于频繁的请求，以防止被目标网站封禁，可以设置延时或者使用代理IP。 5...

蜘蛛抓取网页数据: 网页抓取，也称为网络爬虫或数据抓取，是一种自动化技术，用于从互联网上搜集大量信息。在标题提到的“蜘蛛抓取网页数据”中，我们主要关注的是使用编程语言，如C#，实现这一过程。.NET框架提供了一个强大的环境来...

PYTHON网络抓取数据应用: 标题“PYTHON网络抓取数据应用”揭示了本次学习的主题，主要关注如何利用Python进行网络数据抓取，特别是在淘宝网站上获取商品数据。Python作为一种强大的编程语言，因其丰富的库支持和简洁的语法，常被用于网络爬虫...

java网络爬虫抓取网页数据: Java网络爬虫是一种自动化程序，用于从互联网上抓取大量数据。它的工作原理是模拟浏览器发送HTTP请求到服务器，接收响应，并解析返回的HTML或XML文档以提取所需信息。在这个过程中，HttpClient是一个常用的Java库，...

抓取链路层数据包: 链路层数据包抓取是网络分析中的一个重要环节，它主要涉及的是OSI模型的第二层，即数据链路层。在这个层次，我们能够获取到更底层的网络通信信息，如MAC地址、帧类型和错误检测等。在本文中，我们将深入探讨如何进行...

局域网数据包抓取程序: 2. **数据包结构**：每一个数据包都包含源地址、目的地址、协议类型、数据载荷等内容。通过分析这些字段，可以了解到数据的来源、去向以及所承载的信息。 3. **嗅探技术**：嗅探（Sniffing）是数据包抓取的关键技术...

点评网美食数据抓取代码--java 实现: 8. **数据清洗与预处理**：抓取到的数据可能存在格式不统一、缺失值等问题，需要进行数据清洗，包括去除空格、转换数据类型、填充缺失值等步骤，以便后续数据分析。 9. **合规性问题**：在进行数据抓取时，必须遵守...

安卓listview相关相关-使用jsoup异步抓取新闻数据装载listview(仿开源中国资讯列表.rar: 以下是使用Jsoup异步抓取数据的步骤： 1. **创建异步任务**：继承`AsyncTask, Void, List<String>>`，其中`List<String>`是你打算从网络获取并填充到ListView的数据类型。 2. **执行网络请求**：在`doInBackground...

java抓取数据包源代码Jpcap: Java抓取数据包源代码Jpcap是一种在Java平台上实现的数据包捕获和分析的工具。Jpcap库为开发者提供了强大的功能，可以用来获取网络层的数据包信息，包括IP、TCP、UDP、ICMP等协议的数据包。它是Java版的libpcap库，...

USB协议分析软件及抓取的数据: 通过阅读这些文档，我们可以理解USB设备如何初始化、如何建立连接、如何传输数据以及如何处理错误。在学习USB协议时，首先需要了解基本的USB架构，包括主机（Host）、设备（Device）、集线器（Hub）和端点...

第一个python项目使用requests抓取数据: 【标题】"第一个Python项目使用requests抓取数据"是一个初学者友好的教程，旨在引导学习者如何使用Python的requests库来获取网页上的信息。在Python编程中，requests库是进行HTTP请求的常用工具，它使得从网站抓取...

C++实现网页抓取: 通过这个基本的C++网页抓取框架，你可以根据需求扩展功能，如支持不同的网页结构，提取更多类型的数据，或者优化性能。记住，网页抓取需要遵守网站的robots.txt文件规定，尊重网站的使用条款，避免对服务器造成过大...

使用抓包软件抓取同一台电脑内进程之间的数据抓取: 1. **故障排查**：当应用程序出现通信问题时，可以用Wireshark抓取数据包，查看是否存在错误的网络交互，如连接失败、数据丢失或异常协议响应。 2. **性能优化**：分析数据包可以帮助我们理解进程通信的效率，找出...

USBTrace抓加密狗数据.zip: 3. **数据抓取与分析**：USBTrace提供了数据抓取功能，用户可以记录USB通信的详细日志，然后进行离线分析。这对于找出潜在的通信问题，如数据错误、超时或不正确的命令序列非常有帮助。 4. **调试与故障排除**：当...

蓝蜘蛛网页抓取: 2. **配置规则**：蓝蜘蛛允许用户自定义抓取规则，例如指定要抓取的链接模式、内容类型等。这可以通过正则表达式或者更高级的DOM选择器实现，使得爬虫能够智能地识别和过滤出所需信息。 3. **深度限制**：设定爬虫...

php snoopy 模拟表单提交数据抓取: 本篇文章将详细介绍如何使用Snoopy库进行模拟表单提交和数据抓取。首先，我们需要了解Snoopy的工作原理。Snoopy库通过构造HTTP请求，模拟浏览器向服务器发送GET或POST请求，接收服务器返回的HTML内容。这使得我们...

Python获取lunwen信息，包含数据爬取、数据分析、数据可视化代码: 9. **异常处理**：在数据爬取过程中，可能会遇到网络错误、编码问题等，因此良好的异常处理机制是必不可少的，它能确保程序在遇到问题时仍能继续执行或给出有用的错误信息。 10. **伦理与合规**：在进行数据爬取时...

Python爬虫实例项目：一个简单的Python爬虫实例项目，包括从一个网站上抓取数据并存储到本地文件中.txt: Python爬虫是一种使用Python编程语言编写的自动化脚本，用于从网站上抓取数据。爬虫可以用于多种用途，如数据收集、市场研究、网站监控等。以下是Python爬虫的基础知识、爬虫实例项目资源的详细讲解。 Python爬虫...

Ask-but

我的问答 FAQ | 勋章

相关推荐

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics