关于读取网页源码。。。 -

386648753

浏览: 894 次
性别:

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1)

社区版块

存档分类

2012-03 ( 1)
更多存档...

关于读取网页源码。。。

io readLine read

package com.free.html.util;

import java.io.*;
import java.net.*;

public class ReadHtml {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
	//	readJSP("http://www.yz91.net/zpxx.asp");
		readHtml("http://www.yz91.net/zpxx.asp","gb2312");
	//	getStaticPage("http://www.yz91.net/zpxx.asp","gb2312");
	}
	
	public static void readHtml(String utl,String bm ){
		try {
			
			URL url=new URL(utl);
			HttpURLConnection  con=(java.net.HttpURLConnection)url.openConnection();
			con.connect();
			BufferedReader br=new BufferedReader(new InputStreamReader(con.getInputStream(),bm));
			
			FileOutputStream fos =new FileOutputStream("D:\\My Documents\\word.txt");
			OutputStreamWriter osw =new OutputStreamWriter(fos,"utf-8");
			BufferedWriter bw=new BufferedWriter(osw);
			int a;
			StringBuilder temp = new StringBuilder();
			while((a=br.read())!=-1){
				System.out.println(br.readLine());            //这里后台输出。。。信息后面再代码后面给出 有点问题
				bw.write(br.readLine());
				bw.flush();									//这里写到txt里  总是少第一个<html>  
			//	temp.append((char)a);
                        //      bw.write(temp);
			//	System.out.println(temp.toString());               这里后台输出正常  
			}
			br.close();
			bw.close();
			con.disconnect();
		
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}

}

问题1.使用System.out.println(br.readLine()); 后台输出的问题：
html>
head>
meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
title>详见扬州人力资源网(www.yz91.net) ,扬州数字电视“扬州就业”栏目</title>
/head>
body>
table width="100%" border="1" align="center" cellpadding="0" cellspacing="0">
<tr >
   <td >单位名称</td>
   <td >岗位</td>
   <td align="center">年龄</td>
   <td align="center">男</td>
   <td align="center">女</td>
   <td align="center">不限</td>
   <td align="center">文化程度</td>
   <td >待遇</td>
   <td >联系人</td>
   <td >联系电话</td>
</tr>

tr>
td width="30%">扬州统一机械有限公司</td>
   <td >技术员</td>
   <td >18-50</td>
   <td >1</td>
   <td >0</td>
   <td >0</td>
   <td >大专</td>
   <td >930+</td>
   <td >桑耿娟</td>
   <td >0514-85550686 13064889698</td>
/tr>

//.....类似

tr>
td width="30%">扬州青青环保成套设备有限公司</td>
   <td >文员</td>
   <td >18-50</td>
   <td >0</td>
   <td >5</td>
   <td >0</td>
   <td >大专</td>
   <td >930+</td>
   <td ></td>
   <td ></td>
/tr>

/table>
/body>
/html>

大概问题就是少左尖括号。

问题2.把流写入txt后总少头上<html>这一个标签，不管是用bw.write(br.readLine());还是用 bw.write((char)a);

求教大大们了

分享到：

2012-03-16 01:29
浏览 894
评论(1)
分类:Web前端
查看更多

1 楼 386648753 2012-03-17

失误了。。。while里面已经用a=read()把每行第一个字符给读掉了。。。。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于读取网页源码。。。

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

关于读取网页源码。。。

评论

发表评论

相关推荐

最近访客更多访客>>