`
yuhai.china
  • 浏览: 160233 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
引用hadoop jar mahout-core-0.4-job.jar org.apache.mahout.cf.taste.hadoop.pseudo.RecommenderJob -Dmapred.input.dir=input   -Dmapred.output.dir=result   --recommenderClassName org.apache.mahout.cf.taste.impl.recommender.slopeone.SlopeOneRecommender
1.下载hadoop包,http://labs.renren.com/apache-mirror//hadoop/core/hadoop-0.21.0/hadoop-0.21.0.tar.gz 2.解压 tar xzf hadoop-0.21.0.tar.gz 3.进入hadoop解压后得文件夹,编辑hadoop-env.sh 指定JAVA_HOME变量,比如 export JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/CurrentJDK/Home 4.edit ~/.bash_profile expo ...
<?php $html=file_get_contents('http://www.163.com/'); $doc=new DomDocument(); $doc->loadHTML($html); $xpath=new DOMXpath($doc); foreach($xpath->query('//a/@href') as $node){ $link = $node->nodeValue; echo $link . "\n"; } ?>
<?php require_once 'class.html2text.inc'; $html=file_get_contents('http://www.sohu.com/'); $converter = new html2text($html); $content=$converter->get_text(); echo mb_convert_encoding($content, "UTF-8", "GBK"); ?>
在linux下 1.在/etc/ld.so.conf中指定连接加载的目录 2.运行ldcoonf 3.使用ldd 查看 目标文件的加载路径 在macbook下: otool -L
太爽了. 支付宝可以用 MSN可以用 QQ可以用 开发得心应手. 不论是JAVA,PYTHON,C++,方便非常. 最赞的是屏幕,比我用过的所用THINKPAD都好 htt://www.freechinatrip.com/
当我们为nutch的架构发愁的时候,nutch的开发人员送来了nutchbase。我一些简单的测试表明,在hadoop0.20.1和hbase0.20.2上,稍加修改可以运行起来。 它的优点很明显:架构合理. 开发者是这样说的,引用自jira http://issues.apache.org/jira/browse/NUTCH-650 A) Why integrate with hbase? All your data in a central location No more segment/crawldb/linkdb merges. No more "missing ...
import java.io.IOException; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.KeyValue; import org.apache.hadoop.hbase.client.Get; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Put; import org.apache.hadoop.hbase.client ...
bin/hbase shell create 'url','sohu' disable 'url' alter 'url', {NAME => '163'} enable 'url' put 'url','163','163:lady','lady.163.com' scan 'url'
从官方网站上下载对应的版本,解压到hbase和hadoop目录下. 在hadoop下面 配置hadoop-env.sh配置JAVA_HOME 配置conf/core-site.xml <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration> 配置conf/hdfs-site.xml <con ...
1.准备一张ideneb 10.5.7的安装盘,我是在淘宝上买的,花了13块钱。 2.T60 195143U一台,集成GMA950显卡 3.像光驱安装windows一样。不过要记得抹盘,选择相应的驱动,声卡,显卡,无线(3945不能用,我换了一个无线网卡),语言包。 4.完美成功。
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.StringReader; import java.net.URL; import java.nio.CharBuffer; import java.util.HashMap; import org.cyberneko.html.parsers.DOMParser; import org.xml.sax.InputSource; public cla ...
只要指明编码格式,就能正确的读取。 import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; import java.nio.CharBuffer; public class PageParser { public static void main(String args[]) { BufferedReader in = null; try { in = new BufferedR ...
import java.io.BufferedReader; import java.io.File; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; import java.util.ArrayList; import java.util.List; import javax.swing.text.html.HTML.Tag; import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyze ...
代码很简单,但我自己摸索了一下午 #coding:gb2312 from ctypes import * dll=cdll.LoadLibrary("ICTCLAS30.dll") dll.ICTCLAS_Init(c_char_p(".")) lpText = u"计算所汉语词法分析系统ICTCLAS调用测试" bSuccess = dll.ICTCLAS_ParagraphProcess(c_char_p(lpText), 1) print c_char_p(bSuccess).value,lpText dl ...
Global site tag (gtag.js) - Google Analytics