- 浏览: 92543 次
- 性别:
- 来自: 北京
最新评论
文章列表
悲剧是什么
悲剧就是在你要回家的时候抽到内审
意味着你要延长十天
去交各种繁琐的材料和money
这就是2011给我送的年终礼了
淡定
自从知道不端检测提交论文时间,就开始马不停蹄的改论文,终于知道论文好写,后续事情繁杂。经历了连续几天的早六点起床,终于带着格式不正确交了论文。
满以为可以轻松几天,谁知刚交上论文,导师非常自然的要求回家之前把专利写完。看来老师把我当战斗机了,汗。
淡定,结构简单的脑袋采用单线程处理吧,一项一项的来,淡定!
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.InetAddress;
/*
* write by 1xiu
* 2011-12-23
* just for test
* */
public class getIP {
/**
* @param args
* @throws IOException
*/
public static void main(String ...
MapReduce是处理/产生海量数据集的编程模型。,通过map()函数处理key-value对,产生中间key-value对,使用reduce()函数合并相同key的中间key/value中的value。
大数据量处理中的几种情况可使用MapReduece来解决:
(1)URL访问频率统计,map函数处理请求和应答(URL,1)的log,reduce函数把具有相同URL的值合并,输出格式为成对的(URL,总个数);
(2)逆向Web-Link图:map函数输出所有包含指向目标URL的网页,用(目标URL,源URL)这样的结构对输出。reduce函数聚合所有关联相同目标URL的列表、源URL列 ...
根据GFS中主服务器/块服务器的设计,HDFS采用主服务器/从属服务器架构。HDFS集群是由一个NameNode 和一定数目的DataNode组成,NameNode是一个中心服务器,负责管理文件系统的名称空间和客户端对文件的访问。DataNode节点在集群是一个节点一个,负责管理节点上附带的存储。
NameNode执行文件系统的名称空间操作,如打开、关闭、重命名文件和目录,同时决定到具体数据节点的映射。
DataNode在NameNode的指挥下进行块的创建、删除和复制。
HDFS被设计成一个大集群中可靠地存储海量文件的系统。它将每个文件存储成块序列,除了最后一个块,所有块的大小相同。文件的所 ...
一。概述
google包括三大核心技术:GFS(Goole文件系统),MapReduce(分布式计算系统),BigTable(分布式存储系统)。
1.GFS,底层,负责服务器、机器数据的存储。将大体积的数据库分成固定大小的数据块放到两到三个服务器上。当一个服务器发生故障时,可将数据迅速从另外一个服务器上恢复过来。
2.MapRdeuce,Google开发的编程工具,由于1TB的大规模数据集的并行计算。可将一个搜索任务分成数百个小任务,并行处理,将最终结果在后台合并,将最终结果返回到客户端。
3.BigTable,对半结构化数据进行分布存储与访问接口,是建立在GFS和MapReduce上的结构化分 ...
今日翻相册,发现一张同学和楼教主的合影,好奇的去搜了楼教主的资料,楼教主V5,ORZ~~~
附教主资料链接:http://baike.baidu.com/view/1896835.htm
1.多线程
多线程允许在程序中并发执行多个指令流,每个指令流都称为一个线程,彼此相互独立。
线程也称为轻量级进程,由操作系统负责调度,区别是“线程没有独立的存储空间,和所属进程中的其它昵称共享存储空间,通信比进程简单”。
2.同步
依靠synchronized关键字,包括synchronized方法和synchronized块。Java中每个对象都有一个内置锁,当程序运行到非静态的synchronized同步方法上时,自动获得与正在执行代码类的当前实例(this实例)有关的锁。获得一个对象的锁也称为获取锁、锁定对象、在对象上锁定或在对象上同步。
个对象只有一个锁。 ...
一.基本概念
URI:Universal Resource Identifier,通用资源定位符,对web上可用的资源,如HTML文档、图像、视频片段等进行定位。包括三部分:访问资源的命名机制;存放资源的主机名;资源自身的名称(路径)。
URL:Uniform Resource Locator,统一资源定位符。包括三部分:协议;主机IP(port);主机资源的具体地址。
网页抓取:把URL地址中指定的网络资源从网络流中读取出来,保存到本地。执行爬虫程序的机器不能直接访问WEB资源,需要通过HTTP代理服务器去访问。
二.爬虫
爬虫一般使用宽搜的方法,因为:
(1)重要的网页往往离种子比较近;
( ...
一、由C/C++编译的程序占用的内存分为以下几个部分
1、栈区(stack): 由编译器自动分配释放 ,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈。
2、堆区(heap): 一般由程序员分配释放, 若程序员不释放 ...
HTML解析器:
http://www.oschina.net/project/tag/236/html-parser?lang=0&os=0&sort=time&p=1
JAVA开源的解析器:
http://www.open-open.com/Item_List.asp?ItemType_ID=30
near 和 far指针
如果动态创建的数据量比较大,用一个数据段(一般是64K,此时段指针不变,偏移量指针在16bit内变化)放不下的时候,需要重新开辟一个数据段供存放更多的数据,此时称原来的堆部分为近堆,改变段地址后的新的数据段所在的堆部分称为远堆。
PC机的存储器地址是由段地址和偏移地址组合而成,每一段不能超过64k字节地址,因而统一个段内的地址存取,即段内寻址,用偏移地址就可以实现,所以段地址寄存器所存的段地址是不变。当用指针时,只16位即4个字节就够了,这一类就是near指针。当要在另一个段内取数据,就要跨段,即要指明存取段的段地址和偏移地址,这时 ...
甲骨文、IBM和微软是关系数据库产品的前三强
Access : 单机数据库(微软)。
SQL Server: 中小型数据库(微软)。
DB2: 大型数据库(IBM)。
MYSQL:中小型数据库(甲骨文)。
ORACLE:大型数据库(甲骨文)。
下面主要比较Ora ...
ShapeFile是ESRI提供的一种矢量数据格式,没有拓扑信息,由一组文件组成,包括坐标文件(.shp),索引文件(.shx)和属性文件(.dbf)三个文件。
1.坐标文件用于记录空间坐标信息,由头文件和实体信息两部分组成。
文件头(100bytes)
文件头中的文件长度是字长度,即两个字节。
记录头 记录内容
记录头 记录内容
1.1peFiles文件支持的常用几何类型
编号 几何类型
1 Point,表示ShapeFile文件记录的是点状目标,但不是多点
3 PolyLine,线状目标
5 Polygon,面状目标
1.2息的内容
实体信息负责记 ...