`

nutch2.1+mysql报错及解决

阅读更多
错误信息:
java.io.IOException: java.sql.BatchUpdateException: Incorrect string value: '\xD6\xD0\xB9\xFA\xB9\xA4...' for column 'content' at row 1
at org.apache.gora.sql.store.SqlStore.flush(SqlStore.java:340)
at org.apache.gora.sql.store.SqlStore.close(SqlStore.java:185)
at org.apache.gora.mapreduce.GoraRecordWriter.close(GoraRecordWriter.java:55)
at org.apache.hadoop.mapred.ReduceTask$NewTrackingRecordWriter.close(ReduceTask.java:579)
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:650)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:417)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:260)
Caused by: java.sql.BatchUpdateException: Incorrect string value: '\xD6\xD0\xB9\xFA\xB9\xA4...' for column 'content' at row 1
at com.mysql.jdbc.PreparedStatement.executeBatchSerially(PreparedStatement.java:1666)
at com.mysql.jdbc.PreparedStatement.executeBatch(PreparedStatement.java:1082)
at org.apache.gora.sql.store.SqlStore.flush(SqlStore.java:328)


解决方法:
在nutch2.1
中配置
<property>
  <name>encodingdetector.charset.min.confidence</name>
  <value>1</value>
  <description>A integer between 0-100 indicating minimum confidence value
  for charset auto-detection. Any negative value disables auto-detection.
  </description>
</property>
并确保mysql数据库编码为UTF-8
 
 
 
         
分享到:
评论

相关推荐

    nutch2.1最新svn打包

    Nutch 2.1 是一个开源的网络爬虫项目,它是Apache软件基金会的一部分,主要用于抓取、解析网页并建立搜索引擎索引。这个“nutch2.1最新svn打包”资源包含的是Nutch 2.1的最新源代码版本,通过Subversion (SVN) 版本...

    nutch2.1缺少包org.restlet-2.0.5.jar

    nutch2.1导入Eclipse过程中,import org.restlet.×;错误,缺少的包。

    nutch2.1缺少包org.restlet.ext.jackson.jar

    nutch2.1导入Eclipse过程中,import org.restlet.×;错误,缺少的包。

    nutch2.3+hbase0.94.14+hadoop1.2.1安装文档.

    nutch2.3+hbase0.94.14+hadoop1.2.1安装文档.txt )

    Nutch+solr + hadoop相关框架搭建教程

    总的来说,Nutch+Solr+Hadoop 的框架搭建涉及多个组件的安装、配置和协同工作。理解这些组件的功能和相互之间的关系,以及如何通过脚本和配置文件控制它们,是成功搭建和使用该框架的关键。这个教程提供了详细步骤,...

    人工智能-项目实践-搜索引擎-基于Nutch+ElasticSearch+MySQL+SSM的简易搜索引擎

    标题中的“人工智能-项目实践-搜索引擎-基于Nutch+ElasticSearch+MySQL+SSM的简易搜索引擎”揭示了一个项目,旨在构建一个简易的搜索引擎,利用了人工智能的一些原理和技术。这个项目结合了多个开源工具,包括Nutch...

    nutch爬虫+java+eclipse

    总结,Nutch爬虫结合Java和Eclipse,为开发者提供了一个功能强大的网络数据抓取解决方案。通过Java的网络和解析库,可以实现高效、灵活的爬虫开发。在Eclipse中,我们不仅可以便捷地构建和运行Nutch项目,还能利用其...

    apache-nutch-2.1

    Apache Nutch 有着活跃的社区,用户可以在邮件列表、论坛等平台上寻求帮助,共享经验和解决问题。 总结来说,Apache Nutch 2.1 是一个强大的、可扩展的网络爬虫框架,尤其适合大数据环境下的网页抓取和搜索引擎...

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    本文旨在详细介绍如何在Windows环境下搭建基于cygwin、MyEclipse 8.5、Nutch 1.2及Tomcat 6.0的开发环境,并对每个步骤进行深入解析。 #### 一、Cygwin的配置 **1.1 安装** Cygwin是一款用于Windows系统的Linux...

    nutch2.2.1安装步骤.docx

    找到 `/home/nutch/apache-nutch-2.2.1/ivy/ivy.xml` 文件,这里可能需要调整 Gora 和 MySQL 的依赖版本,确保与你的 MySQL 驱动版本兼容。例如,添加 `mysql-connector-java` 依赖项,以便 Nutch 可以连接到 MySQL ...

    基于Nutch+ElasticSearch+MySQL+SSM的简易搜索引擎+源代码+文档说明

    &lt;项目介绍&gt; 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!...

    nutch-2.1源代码

    Nutch-2.1是Apache Nutch的一个特定版本,它是一个用Java编写的开源搜索引擎软件。这个项目的主要目标是提供一套高效、可扩展的搜索引擎工具,使得用户可以在自己的环境中搭建和运行自己的搜索引擎。Nutch不仅仅是一...

    毕设&课设&项目&实训-基于Nutch+ElasticSearch+MySQL+SSM的简易搜索引擎.zip

    所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!...

    apahce-nutch-2.1

    Apache Nutch是一个强大的开源搜索引擎项目,完全用Java编写,旨在为用户提供高效、可扩展的网络爬虫和全文检索解决方案。Nutch的版本2.1是一个成熟的版本,包含了多个改进和优化,使其在处理大规模网页抓取和索引时...

    Lucene+Nutch本书源码+详细说明

    《Lucene+Nutch:搜索引擎开发深度解析》一书的源码及详细说明是搜索引擎开发者和爱好者的重要参考资料。这本书深入探讨了如何使用Apache Lucene和Nutch构建一个完整的搜索引擎系统,涵盖了从网页抓取到索引建立,再...

    nutch2.2.1和Mysql 环境的搭建。。。。可以爬下url.但是不知道为什么还有很多空的值在数据库中,还有待.zip

    MySQL 是一个流行的开源关系型数据库管理系统,常用于存储和管理 Nutch 抓取的数据。当您在设置 Nutch 与 MySQL 的环境时,可能会遇到各种问题,例如数据库中出现空值。下面我们将详细讨论如何搭建这个环境以及可能...

    基于lucene和nutch的开源搜索引擎资料集合

    Linux下Nutch分布式配置和使用.pdf Lucene+Nutch源码.rar Lucene学习笔记.doc nutch_tutorial.pdf nutch二次开发总结.txt nutch入门.pdf nutch入门学习.pdf Nutch全文搜索学习笔记.doc Yahoo的Hadoop教程.doc [硕士...

    搜索引擎nutch配置

    下面将详细介绍Nutch的配置步骤及关键知识点。 1. **安装环境** 在开始Nutch配置之前,确保你已安装了Java运行环境(JRE)和Java开发工具(JDK),版本至少为1.8。同时,你需要一个支持Hadoop的环境,如Hadoop单机...

Global site tag (gtag.js) - Google Analytics