`

[Mahout] 第一个小实验:使用GroupLens进行推荐模型的检验

 
阅读更多

注: 内容参考至《Mahout实战》

根据mahout实战里面的内容,接下来将使用grouplens提供的movielens-1m的数据进行推荐。

在mahout自带的example之中,已经有了能读取dat文件的代码。其扩展至FileDataModel, 因此拿过来就能直接用了。但是由于考虑到机器性能的原因,我会丢弃掉部分数据,减小运算的数据量~

 

改造主要就是在参数之中增加了一个removeRatio参数,在读取文件的时候根据这个随机数进行随机的丢弃掉部分数据。

下面就是我稍微改造的GroupLensDataModel.java

/**
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.net.URL;
import java.util.Random;
import java.util.regex.Pattern;

import org.apache.mahout.cf.taste.impl.model.file.FileDataModel;
import org.apache.mahout.common.iterator.FileLineIterable;

import com.google.common.base.Charsets;
import com.google.common.io.Closeables;
import com.google.common.io.Files;
import com.google.common.io.InputSupplier;
import com.google.common.io.Resources;

public final class GroupLensDataModel extends FileDataModel {
  
  private static final String COLON_DELIMTER = "::";
  private static final Pattern COLON_DELIMITER_PATTERN = Pattern.compile(COLON_DELIMTER);
  
  /**
   * 
   * @param ratingsFile ratingsFile GroupLens ratings.dat file in its native format
   * @param removeRatio try to make target file size small by random drop data
   * @throws IOException IOException if an error occurs while reading or writing files
   */
  public GroupLensDataModel(File ratingsFile, double removeRatio) throws IOException {
	    super(convertGLFile(ratingsFile, removeRatio));
	  }
  
  /**
   * 
   * @param originalFile
   * @param ratio will remove part of target records
   * @return
   * @throws IOException
   */
  private static File convertGLFile(File originalFile, double ratio) throws IOException {
	    // Now translate the file; remove commas, then convert "::" delimiter to comma
	    File resultFile = new File(new File(System.getProperty("java.io.tmpdir")), "ratings.txt");
	    
	    if (resultFile.exists()) {
	      resultFile.delete();
	    }
	    Writer writer = null;
	    try {
	      writer = new OutputStreamWriter(new FileOutputStream(resultFile), Charsets.UTF_8);
	      Random rand = new Random();
	      for (String line : new FileLineIterable(originalFile, false)) {
	    	if(rand.nextDouble() > ratio) {
	    		int lastDelimiterStart = line.lastIndexOf(COLON_DELIMTER);
		        if (lastDelimiterStart < 0) {
		          throw new IOException("Unexpected input format on line: " + line);
		        }
		        String subLine = line.substring(0, lastDelimiterStart);
		        String convertedLine = COLON_DELIMITER_PATTERN.matcher(subLine).replaceAll(",");
		        writer.write(convertedLine);
		        writer.write('\n');
	    	}
	      }
	    } catch (IOException ioe) {
	      resultFile.delete();
	      throw ioe;
	    } finally {
	      Closeables.close(writer, false);
	    }
	    return resultFile;
	  }

  public static File readResourceToTempFile(String resourceName) throws IOException {
    InputSupplier<? extends InputStream> inSupplier;
    try {
      URL resourceURL = Resources.getResource(GroupLensDataModel.class, resourceName);
      inSupplier = Resources.newInputStreamSupplier(resourceURL);
    } catch (IllegalArgumentException iae) {
      File resourceFile = new File("src/main/java" + resourceName);
      inSupplier = Files.newInputStreamSupplier(resourceFile);
    }
    File tempFile = File.createTempFile("taste", null);
    tempFile.deleteOnExit();
    Files.copy(inSupplier, tempFile);
    return tempFile;
  }

  @Override
  public String toString() {
    return "GroupLensDataModel";
  }
  
}

 

下面就是主程序:

import java.io.File;
import java.io.IOException;

import org.apache.mahout.cf.taste.common.TasteException;
import org.apache.mahout.cf.taste.eval.RecommenderBuilder;
import org.apache.mahout.cf.taste.eval.RecommenderEvaluator;
import org.apache.mahout.cf.taste.impl.eval.AverageAbsoluteDifferenceRecommenderEvaluator;
import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood;
import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;
import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;
import org.apache.mahout.cf.taste.recommender.Recommender;
import org.apache.mahout.cf.taste.similarity.UserSimilarity;


public class TestGroupLens {

	public static void main(String[] args) {
		// load data set
		try {
			DataModel model = new GroupLensDataModel(new File("E:\\DataSet\\ml-1m\\ratings.dat"), 0.5);
			RecommenderEvaluator evaluator = 
					new AverageAbsoluteDifferenceRecommenderEvaluator();
			RecommenderBuilder builder = new RecommenderBuilder() {
				@Override
				public Recommender buildRecommender(DataModel dataModel)
						throws TasteException {
					UserSimilarity sim = new PearsonCorrelationSimilarity(dataModel);
					UserNeighborhood nbh = new NearestNUserNeighborhood(30, sim, dataModel);
					// 生成推荐引擎
					Recommender rec = new GenericUserBasedRecommender(dataModel, nbh, sim);
					return rec;
				}
			}; 
			double score = evaluator.evaluate(builder, null, model, 0.7, 0.3);
			System.out.println(score);
		} catch (IOException e) {
			e.printStackTrace();
		} catch (TasteException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} 
		
	}
	
}

 

运行的结果在0.85左右。

跟书上提供的结果0.89稍微有点差距

0
0
分享到:
评论

相关推荐

    如何成功运行Apache Mahout的Taste Webapp-Mahout推荐教程-Maven3.0.5-JDK1.6-Mahout0.5

    根据给定的文件信息,我们可以提炼出以下几个与Apache Mahout及其Taste Webapp相关的知识点: 1. Apache Mahout简介 Apache Mahout是一个开源项目,隶属于Apache软件基金会(ASF),专门提供可扩展的机器学习算法...

    学习Mahout的第一个例子

    总结来说,“学习Mahout的第一个例子”是一个针对初学者的教程,它通过实例讲解了如何使用Apache Mahout进行机器学习任务,涵盖了从环境配置到模型评估的全过程。结合提供的“mahout-exam”文件,读者可以亲手实践,...

    apache-mahout-distribution-0.11.0-src.zip

    在"apache-mahout-distribution-0.11.0-src.zip"这个压缩包中,您将找到Mahout 0.11.0版本的源代码,这对于开发者和研究者来说是一个宝贵的资源,他们可以深入理解算法的内部工作原理,进行定制化开发或优化。...

    mahout所需jar包

    马哈多(Mahout)是Apache软件基金会的一个开源项目,专注于提供可扩展的机器学习库。它基于Hadoop,这意味着它能够利用分布式计算来处理大规模数据集。 Mahout的目标是帮助开发人员构建智能应用程序,如推荐系统、...

    Mahout推荐系统

    4. **模型训练**:使用收集到的数据对选定的模型进行训练。这个过程可能涉及参数调整以优化模型性能。 5. **模型评估**:评估模型的准确性和效率,确保推荐结果的质量。 6. **部署应用**:将训练好的模型部署到...

    RecommendationElastic:基于 GroupLens 电影数据在 ElasticSearch 中部署推荐

    基于 GroupLens 电影数据在 ElasticSearch 中部署推荐引擎 需要在独立模式下运行 Mahout 和 Elasticsearch - 也可以在 Hadoop 集群上运行。 原始数据 u.item - 1,682 部电影的电影元数据(以竖线分隔) u.data - ...

    MAHOUT实战(中文版)

    Apache Mahout是一个开源项目,它提供了可扩展的机器学习算法,用于分类、聚类和推荐系统。在本章中,我们将深入探讨Mahout的核心概念、工作原理以及实际应用。 1. **Mahout的基本概念**:Mahout基于Apache Hadoop...

    人工智能-推荐系统-新闻推荐-基于Mahout的新闻推荐系统

    推荐算法 基于用户的协同过滤 基于内容的推荐 基于热点的推荐 Mahout:整体框架,实现了协同过滤 Deeplearning4j,构建VSM Jieba:分词,关键词提取 HanLP:分词,关键词提取 Spring Boot:提供API、ORM 关键...

    mahout-core-0.9.jar+mahout-core-0.8.jar+mahout-core-0.1.jar

    Apache Mahout是一个基于Apache Hadoop的数据挖掘库,专注于大规模机器学习算法的实现。这个压缩包包含的是Mahout项目不同版本的核心库,分别是mahout-core-0.9.jar、mahout-core-0.8.jar和mahout-core-0.1.jar。...

    测试mahout推荐算法的数据集

    总之,推荐算法在IT领域起着至关重要的作用,Apache Mahout作为一个强大的工具,为开发和实验推荐系统提供了便利。通过对Chubbyjiang在GitHub上分享的数据集进行分析和处理,我们可以深入理解Mahout的协同过滤算法...

    mahout所用电影评分数据

    这个数据集的规模适中,既足够大以反映复杂的行为模式,又不至于过大导致处理困难,因此是Mahout进行推荐系统实验的理想选择。 1. **数据预处理**: 在开始分析之前,我们需要对数据进行预处理。这包括读取CSV格式...

    毕业设计&课设_基于 Mahout 的电影推荐系统项目:含算法介绍,多种推荐引擎实现,涉及数据处理和优化.zip

    2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; ...

    基于spark、mahout和spring boot构建的推荐系统.zip

    在本项目中,我们主要探讨如何利用Apache Spark、Apache Mahout和Spring Boot技术构建一个推荐系统。推荐系统是人工智能领域的一个重要应用,它通过分析用户的行为和偏好,为用户提供个性化的产品或服务推荐。以下是...

    [Mahout] Windows下Mahout单机安装

    Apache Mahout是一个开源机器学习库,它提供了一系列的可扩展、分布式算法,涵盖了推荐系统、分类、聚类等多个机器学习领域。在Windows环境下安装Mahout,可以帮助开发者在本地环境中进行快速的机器学习项目开发和...

    基于Mahout实现协同过滤推荐算法的电影推荐系统.zip

    本项目"基于Mahout实现协同过滤推荐算法的电影推荐系统"旨在利用Apache Mahout这一开源机器学习库,构建一个能够为用户推荐个性化电影的系统。以下将详细介绍该系统的相关知识点: 1. **协同过滤推荐算法**: 协同...

    mahout机器学习实验数据

    该数据包含两列,数据之间用空格进行划分,主要用来进行聚类分析,可以直接作为mahout机器学习平台的实验数据

    基于Mahout的电影推荐系统的数据文件

    这些数据反映了用户的喜好,是构建推荐模型的基础。通过分析这些评分,算法可以识别用户之间的相似性,并预测未评级的电影可能得到的评分。 4. **movie_preferences.txt** 文件: 这个文件可能包含用户的电影偏好...

Global site tag (gtag.js) - Google Analytics