抓取网页内容空格变成?的解决办法 - 天蝎射手 - ITeye博客

`

djkin

浏览: 434160 次
来自: ...

最近访客更多访客>>

serisboy

yhtppp

gxpcw

iphitos1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

u010174629： <a>jsjdi</a>
JS(去掉前后空格或去掉所有空格)的用法
吾兮子： [b][i][u]引用[list] [*][img][url] ...
JS(去掉前后空格或去掉所有空格)的用法
guyunduzai：请教，每小时触发一次规则该怎么写？
Quartz 触发器（SimpleTrigger&CronTrigger ）配置说明 & cronExpression表达式
lvzhou_31：能不能把msgpack-0.5.1-devel.jar给下。m ...
msgpack
h416373073：正在学习这个，很有用
Quartz 触发器（SimpleTrigger&CronTrigger ）配置说明 & cronExpression表达式

抓取网页内容空格变成?的解决办法

博客分类：

学习记录

阅读更多

网页里面的空格是 转义过的。 抓下来出现了乱码"????"，所以要单独对 处理。不然会变成？，虽然肉眼看见的是空格。

解决办法有以下几种：

1.因为????的ascii码是63，对应的二进制是111111，然后空格的ascii是32，对应的二进制是100000，先进行右移操作在+1得到byte，值为32，即空格的ascii码，

然后直接转成char就得到了空格，右移运算也可以直接改为&运算，即为by = (byte) (by & 100000);

注意：原有的？号也会被转成空格。

public static String changeStr(String s) {

StringBuffer sb = new StringBuffer(1024);

if(s == null)

return "";

byte[] b = s.getBytes();

for (byte by : b) {

if (by == 63) //是？才转

by = (byte) (by & 100000);//by = (byte) ((by >> 1) + 1);

sb.append((char)by);

}

return sb.toString();

}

2.把那个字符拷贝，用java的replace方法替换掉就可以了。

3.String dsp= 抓取的内容;

dsp = new String(dsp.getBytes(),"GBK").replace('?', ' ').replace('　', ' ');//前面这个是全角空格

System.out.println(dsp);（中文会变成乱码）

4.因为HttpResponse输出的时候，getWriter的print方法使用了系统默认的编码方式，把格式又搞坏了。只要把response编码设置setCharacterEncoding()为目标页面的编码就可以了。（未测试）

分享到：

解决openfire在使用MySQL数据库后的中文乱 ... | mysql ip 连接限制解除

2013-06-24 17:15
浏览 1274
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java简单的抓取网页内容的程序: java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java...

C# 抓取网页内容帮助方法: C# 抓取网页内容帮助方法，能投通过标签自动匹配想要输出的内容

Java抓取网页内容三种方式: Java 抓取网页内容三种方式 Java 抓取网页内容是指使用 Java 语言从互联网上抓取网页内容的过程。抓取网页内容是数据爬虫和网络爬虫的基础，它广泛应用于数据挖掘、信息检索、机器学习等领域。本文将介绍使用 Java...

c#多线程抓取网页内容: ### C#多线程网页内容抓取技术解析 #### 概述在现代互联网应用开发中，网页抓取是一项常见的需求，特别是在数据挖掘、搜索引擎等领域。传统的单线程抓取方式往往因效率低下而不适用于大规模的数据采集场景。本文...

C#抓取网页内容常用类: C#抓取网页内容常用类

基于C# 网页信息抓取: 本程序编写了一个从网页中抓取信息（如最新的头条新闻，新闻的来源，标题，内容等）的类，而且本程序文件夹中含有word文件，文件将介绍如何使用这个类来抓取网页中需要的信息。文件将以抓取博客园首页的博客标题和...

抓取网站内容，获取网站内容，读取网站所有内容，抓取网页内容: 4. **抓取网页内容**：这与“获取网站内容”相似，但可能更侧重于特定页面而非整个网站。可能需要指定URL，并针对单个页面进行解析。 5. **获取网页内容**：同样，这涉及到解析HTML并提取所需信息。使用`...

网页爬虫自动抓取网页内容: 网页爬虫，也被称为网络爬虫或数据抓取工具，是一种自动化程序，它按照特定的规则遍历互联网上的网页，收集所需的信息。在信息技术领域，爬虫被广泛应用于数据分析、市场研究、搜索引擎优化等多个场景。了解如何构建...

java简单抓取网页内容: 在Java编程语言中，抓取网页内容是一项常见的任务，尤其对于数据分析、信息提取以及网络爬虫等应用场景。本文将深入探讨如何使用Java实现简单的网页内容抓取，适合初学者入门学习。首先，我们需要理解网页抓取的...

html网页内容抓取: - **道德和法律**：抓取网页内容时必须遵循网站的robots.txt文件规定，并尊重网站的版权，避免非法抓取和使用数据。 - **数据清洗和处理**：抓取的数据往往需要进一步处理，去除HTML标签、处理异常值、标准化格式等...

抓取网页图片,css和js: 网页抓取技术是一种获取网页内容的方法，通常用于数据挖掘、备份、分析或创建离线浏览体验。本话题主要关注如何抓取网页上的图片、CSS（层叠样式表）和JavaScript文件，以及处理CSS中内联的图片资源。下面将详细讨论...

htmlparser抓取网页内容: 本项目以"htmlparser抓取网页内容"为主题，具体实践了如何利用HTMLParser库来从国家专利局的网站上抓取专利状态信息。首先，我们要理解HTMLParser的工作原理。HTMLParser是Python的内置库，它提供了一个基础的事件...

抓取网页内容: 首先，我们来了解一下如何抓取网页内容。最基础的方法是使用HTTP库，如Python的requests库，它可以发送HTTP请求到指定URL并接收服务器的响应。例如，你可以使用以下代码来获取一个网页的HTML： ```python import ...

Java抓取https网页数据: Java抓取https网页数据，解决peer not authenticated异常。导入eclipse就能运行，带有所用的jar包（commons-httpclient-3.1.jar，commons-logging.jar，httpclient-4.2.5.jar，httpcore-4.2.4.jar）

Java抓取网页数据Demo: 本文将详细讨论如何使用Java语言来抓取网页数据，包括两种主要方法：直接抓取原网页内容和处理网页中的JavaScript返回数据。首先，让我们探讨**抓取原网页**的方法。在Java中，我们可以使用`java.net.URL`类来建立...

网页内容抓取器: 【网页内容抓取器】是一种基于C#编程语言开发的应用程序，主要功能是抓取网页上的信息并进行处理。在Visual Studio 2005环境下进行编译和调试，这表明该程序遵循.NET Framework 2.0的标准。C#作为微软推出的面向对象...

抓取网页内容生成Kindle电子书: 虽然多看上有很多书可以购买，网上也有很多免费的电子书，但是仍然有很多感兴趣的内容是以网页的形式存在的。例如O’Reilly Atlas就提供了诸多电子书，但是只提供免费的在线阅读；另外还有很多资料或文档都只有...

java抓取网页内容源代码: ### Java抓取网页内容源代码解析与扩展在IT领域，网页抓取（或称网络爬虫）是一项关键技能，广泛应用于数据收集、市场分析、搜索引擎优化等多个方面。本篇文章将深入探讨一个Java编写的网页内容抓取代码，旨在帮助...

python爬虫，如何抓取网页数据: python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，如何抓取网页数据； python爬虫，...

java抓取网页内容--生成静态页面: 在Java编程中，生成静态页面是一种常见的技术，它涉及到网页内容的抓取和存储。这个程序的主要目的是从指定的URL抓取网页内容，并将其保存为一个HTML文件，即静态页面。下面将详细讲解这个过程涉及的关键知识点。 1...

Global site tag (gtag.js) - Google Analytics