0 0

全文检索时出现乱码 5

现在我在用Autonomy这个全文检索的第三方工具
我的工程是用GBK编码, 但是使用Autonomy抓取数据的时候用的是UTF-8, 所以在一开始工程中就会出现乱码问题。
后来对这个问题做了处理, 最后发现Autonomy在抓取EMC, ORACLE的时候如果碰上文章是中英文混排的就会出现乱码, 但是并不是所有的这类文章会出现问题。 就是在出现问题的文章中, 也不是每一处都有问题。
另外在其他的一些被抓的文章中也会出现“?”号。 
不知道哪位大牛对这个问题有了解能帮助一下我。 谢谢。
2009年5月17日 21:07

1个答案 按时间排序 按投票排序

0 0

为什么不都用UTF-8??

2009年5月17日 22:44

相关推荐

    细说编码,检索乱码的一个ppt

    当涉及到跨系统或跨平台的信息交换时,如果编码不一致,就会出现乱码现象。乱码通常是由于编码解码过程中使用的字符集不匹配导致的。例如,一个使用GBK编码的文本在只支持GB2312的系统中打开,可能会出现乱码,因为...

    SQLITE数据库查询时中文乱码

    在使用SQLite数据库进行查询操作时,遇到中文乱码问题,通常是由于编码设置不正确或数据存储与读取过程中编码不一致导致的。SQLite本身支持多种字符编码,包括UTF-8、UTF-16等,但在实际应用中,如果没有正确配置,...

    ie7 搜索乱码修正

    标题“ie7 搜索乱码修正”涉及到的是在使用Internet Explorer 7(简称ie7)进行网络搜索时遇到的字符编码问题。这个问题通常表现为搜索结果或者网页内容显示为无法识别的乱码,这可能是由于浏览器的字符编码设置不...

    Keil uv4.6复制中文注释到记事本出现乱码的解决方法

    Keil uVision使用的是Unicode编码,而默认的记事本则通常使用GB2312或ANSI编码,这种差异使得在两者之间直接复制粘贴中文字符时会出现乱码。 解决这个问题的方法如下: 1. **修改Keil的输出设置**: 在Keil ...

    IE8百度搜索乱码的解决办法

    ### IE8百度搜索乱码的解决办法 #### 问题描述 在使用Internet Explorer 8(以下简称IE8)浏览器时,可能会遇到一个特定的问题:当在IE8中的“搜索提供程序”功能里添加“百度”作为快捷搜索选项后,如果用户在...

    百度浏览器打开出现乱码怎么办?.docx

    在解决百度浏览器打开出现乱码的问题时,编码设置是一个非常重要的因素。编码是指计算机对文字、符号或图像的表示方式。不同的浏览器或操作系统可能使用不同的编码方式,如果浏览器的编码设置不兼容网页的编码格式,...

    confluence---乱码问题.docx

    **问题描述**:在Confluence中预览附件时出现中文乱码。 **解决方案**: 1. **安装中文字体**:同PDF导出乱码一样,附件预览乱码的问题也往往是因为服务器未安装合适的中文字体所致。可以参考上述PDF导出乱码中的...

    nutch乱码BUG修正

    4. **检索索引阶段**:当从索引中检索数据并展示时,如果没有按照正确的编码进行解码,同样会出现乱码问题。 修复Nutch乱码问题的步骤如下: 1. **配置HTTP客户端**:在Nutch的conf/regex-urlfilter.txt中,可以...

    mysql数据库乱码解决

    在MySQL中,乱码通常发生在数据存储或检索过程中,当字符集或校对规则不匹配时。具体来说,如果数据库、表、列、连接客户端和服务器的字符集设置不一致,就可能导致乱码现象。例如,如果数据以UTF-8格式存储,但...

    解决了中文搜索结果乱码的OSDLyrics

    这个资源是针对该插件的源代码进行修改后的版本,目的是解决在执行“搜索歌词”功能时,中文搜索结果出现乱码的常见问题。通过编译安装这个修改后的源码包,用户可以期待一个更顺畅且无乱码的中文歌词搜索体验。 ...

    系统文字乱码问题解决办法

    当文件或数据的编码与系统期望的编码不一致时,就会出现乱码现象。例如,如果你的TXT文件是用UTF-8编码保存的,而你的系统默认以GBK编码来解析,那么文字就无法正常显示。 描述中提到的“txt文件打开后是乱码”可能...

    SQL Server 2008乱码问题

    当安装SQL Server时,如果默认的排序规则不支持特定语言,或者与应用系统中的编码不一致,就可能出现乱码。因此,在你的情况中,可能原有的排序规则不支持中文,导致中文字符无法正确显示。重新安装数据库并选择合适...

    sqlite3 for delphi 解决中文乱码问题

    然而,由于编码不匹配或者处理方式不当,可能会导致中文字符在存储或读取时出现乱码。 中文乱码的主要原因在于字符编码格式的不一致。SQLite3默认使用UTF-8编码,而Delphi的默认编码可能依赖于系统设置,例如GBK或...

    Idea 控制台出现乱码问题的4种解决方案.docx

    ***********使用idea进行maven项目的编译时,控制台输出中文的时候出现乱码的情况。 ***********通常出现这样的问题,都是因为编码格式不一样导致的。既然是maven出的问题,我们在idea中查找下看可以如何设置文件...

    destoon网站转移服务器后搜索汉字出现乱码的解决方法

    描述中提到,这个问题表现为搜索汉字时出现乱码,如“框框”之类的特殊符号,但搜索数字或英文则没有问题。这通常是因为服务器之间的字符集配置差异导致的,可能新服务器默认使用的是不同的字符集,无法正确解析GBK...

    SharpCompress 解压缩zip,rar文件,解决中文乱码

    本文将深入探讨如何使用SharpCompress这一开源库来处理ZIP和RAR文件,并解决在处理中文文件名时可能出现的乱码问题。 SharpCompress是一款强大的、跨平台的压缩库,支持多种压缩格式,包括ZIP、TAR、GZIP、BZIP2、7...

    解决MYSQL中文乱码

    在 MySQL 中,如果数据库、表或字段的字符集配置不正确,存储和检索中文数据时也可能出现乱码。解决这个问题的方法是在数据库连接字符串中指定正确的字符集,例如: ```java String url = "jdbc:mysql://server/...

    使用ES全文检索.docx

    ### 使用ES全文检索知识点概述 #### 一、ELK栈简介与安装 ##### 1.1 ELK栈介绍 ELK栈(Elasticsearch, Logstash, Kibana)是一套开源工具组合,用于实现数据收集、存储、搜索、分析以及可视化等功能。这套工具在大...

    MYSQL中文乱码 xx

    在MySQL中,不同的校对规则会影响字符串比较、排序以及全文搜索的结果。校对规则通常包括大小写敏感性、重音符号的处理等特性。 文件中提到了“collation_connection”和“collation_database”,它们分别控制连接...

    解决java所有中文乱码集合

    4. 文件保存编码问题:源代码文件的编码格式与编辑器或IDE的默认设置不符,使得源代码中的中文字符在编译时出现乱码。 二、乱码问题分析 1. HTTP头设置:HTTP头中的"Content-Type"字段应指定正确的字符集,例如...

Global site tag (gtag.js) - Google Analytics