`
ikeycn
  • 浏览: 146589 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

ECLAT处理垂直数据格式算法实现

阅读更多
算法说明:
1. 构造垂直数据格式,把原始数据的事务对应的元素集变为由元素对应的事务集
2. 对垂直数据格式中的元素Apriori算法
2.1 构造频繁1项集:遍历垂直数据格式中的元素并找出其事务集大小满足最小支持度的元素 作为频繁1项集
2.2 递归由频繁k-1项集构造频繁k项集:
   2.2.1 根据Apriori方法判断两个k-1项集是否可连接为项集
   2.2.2 对于已连接的k项集,判断它的所有k-1项集是否都在频繁k-1项集中出现
   2.2.3 对于满足2.2.2的k项集,判断其支持度是否满足条件
package com.ustc.eclat;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.TreeSet;

public class Eclat {

	private int minSup;

	/**
	 * @param args
	 */
	public static void main(String[] args) {

		/**
		 * 1. 构造垂直数据格式,把原始数据的事务对应的元素集变为由元素对应的事务集 
        * 2. 对垂直数据格式中的元素Apriori算法 
           * 2.1 构造频繁1项集:遍历垂直数据格式中的元素并找出其事务集大小满足最小支持度的元素 作为频繁1项集 
           * 2.2 递归由频繁k-1项集构造频繁k项集: 
              * 2.2.1 根据Apriori方法判断两个k-1项集是否可连接为项集
              * 2.2.2 对于已连接的k项集,判断它的所有k-1项集是否都在频繁k-1项集中出现 
              * 2.2.3 对于满足2.2.2的k项集,判断其支持度是否满足条件
		 * 
		 */
		long startTime = System.currentTimeMillis();
		Eclat eclat = new Eclat();
		/*
		 * eclat.setMinSup(2); List<String> datas = eclat.buildData(); //构造数据集
		 */
		eclat.setMinSup(1000);
		List<String> datas = eclat.buildData("retail.dat");
		Map<String, Set<String>> itemSetMap = eclat.buildItemSet(datas); // 构造垂直数据格式
		// eclat.printVItemSet(itemSetMap);
		eclat.buildF1Items(itemSetMap);
		eclat.printItemSet(itemSetMap.keySet(), 1);
		int i = 2;
		do {

			itemSetMap = eclat.buildFreqItemSet(itemSetMap);
			eclat.printItemSet(itemSetMap.keySet(), i);
			i++;
		} while (itemSetMap.size() != 0);
		long endTime = System.currentTimeMillis();
		System.out.println("共用时:" + (endTime - startTime) + "ms");

		// buildFreqItemSet(itemSetMap); //构造频繁集
	}

	/**
	 * 1.构造数据集
	 */
	public List<String> buildData(String... fileName) {

		List<String> data = new ArrayList<String>();
		if (fileName.length != 0) {
			File file = new File(fileName[0]);
			try {
				BufferedReader reader = new BufferedReader(new FileReader(file));
				String line;
				while ((line = reader.readLine()) != null) {
					data.add(line);
				}

			} catch (FileNotFoundException e) {

				e.printStackTrace();
			} catch (IOException e) {

				e.printStackTrace();
			}
		} else {

			data.add("I1 I2 I5");
			data.add("I2 I4");
			data.add("I2 I3");
			data.add("I1 I2 I4");
			data.add("I1 I3");
			data.add("I2 I3");
			data.add("I1 I3");
			data.add("I1 I2 I3 I5");
			data.add("I1 I2 I3");
		}
		return data;
	}

	/**
	 * 2.构造垂直数据格式 Map-Key为事务中的每一个频繁元素项 Map-Value为每一个事务项对应的事务行的集合
	 * 
	 * @param datas
	 * @return
	 */
	public Map<String, Set<String>> buildItemSet(List<String> datas) {
		Map<String, Set<String>> itemSetMap = new HashMap<String, Set<String>>();
		Set<String> tranSet; // 事务集
		String[] items;
		int lineNum = 1; // 事务行号从1开始
		for (String data : datas) { // 事务编号以"T" + 事务行号的形式表示;每一条data记录为一行.
			String tran = "T" + lineNum;
			items = data.trim().split(" ");
			for (String item : items) {
				if (itemSetMap.get(item) == null) {
					tranSet = new HashSet<String>();
					tranSet.add(tran);
					itemSetMap.put(item, tranSet);
				} else {
					itemSetMap.get(item).add(tran);
				}
			}
			lineNum++;
		}
		return itemSetMap;
	}

	/**
	 * 3. 由垂直数据格式构造频繁1项集(这里直接在垂直数据格式上进行操作了)
	 * 
	 * @param itemSetMap
	 */
	public void buildF1Items(Map<String, Set<String>> itemSetMap) {
		String[] items = itemSetMap.keySet().toArray(new String[0]);
		for (String item : items) {
			if (itemSetMap.get(item).size() < this.minSup) {
				itemSetMap.remove(item);
			}
		}
	}

	/**
	 * 4 由频繁1项集开始构造频繁项集
	 */
	public Map<String, Set<String>> buildFreqItemSet(
			Map<String, Set<String>> preItemSetMap) {

		String[] items = preItemSetMap.keySet().toArray(new String[0]);
		Map<String, Set<String>> result = new HashMap<String, Set<String>>();
		for (int i = 0; i < items.length - 1; i++) {
			for (int j = i + 1; j < items.length; j++) {
				String[] iItems = items[i].split(" ");
				String[] jItems = items[j].split(" ");
				if (this.isCanLink(iItems, jItems)) { // 如果两个k-1项集可执行连接操作,则连接成k项集
					String[] kItems = new String[iItems.length + 1];
					int k = 0;
					for (; k < iItems.length; k++) {
						kItems[k] = iItems[k];
					}
					kItems[k] = jItems[k - 1];
					Arrays.sort(kItems); // 对kItems中的元素进行排序
					// 判断kItems的所有k-1子集是否包含在items里,如果不全包括,则该k项集必定不频繁
					Set<String> kitemSet = new TreeSet<String>();
					for (String str : kItems) {
						kitemSet.add(str);
					}
					List<Set<String>> preItemSetList = new ArrayList<Set<String>>();
					for (String str : items) {
						preItemSetList.add(strToSet(str));
					}
					if (!isNeedCut(preItemSetList, kitemSet)) {
						Set<String> tranSet = this.buildIntersection(
								preItemSetMap.get(items[i]), preItemSetMap
										.get(items[j]));
						if (tranSet.size() >= this.minSup) {
							StringBuffer sb = new StringBuffer();
							for (String str : kItems) {
								sb.append(str + " ");
							}
							result.put(sb.toString().trim(), tranSet);
						}
					}

				}
			}
		}

		return result;
	}

	/**
	 * 4.1 判断两个项集合是否可执行连接操作,由k-1项连接成k项
	 * 
	 * @param s1
	 * @param s2
	 * @return
	 */
	public boolean isCanLink(String[] s1, String[] s2) {
		boolean flag = true;
		if (s1.length == s2.length) {
			for (int i = 0; i < s1.length - 1; i++) {
				if (!s1[i].equals(s2[i])) {
					flag = false;
					break;
				}
			}
			if (s1[s1.length - 1].equals(s2[s2.length - 1])) {
				flag = false;
			}
		} else {
			flag = false;
		}

		return flag;
	}

	/**
	 * 4.2 把项字符串转为项的集合
	 * 
	 * @param str
	 * @return
	 */
	public Set<String> strToSet(String str) {
		Set<String> itemSet = new TreeSet<String>();
		String[] strs = str.split(" ");
		for (String s : strs) {
			itemSet.add(s);
		}

		return itemSet;
	}

	/**
	 * 4.3 判断set的所有k-1项子集是否都在setList,如果不全在,如果不在该k项集将被cut掉
	 * 
	 * @param setList
	 * @param set
	 * @return
	 */
	public boolean isNeedCut(List<Set<String>> setList, Set<String> set) {
		boolean flag = false;
		List<Set<String>> subSets = getSubset(set); // 获得k项集的所有k-1项集
		for (Set<String> subSet : subSets) {
			// 判断当前的k-1项集set是否在频繁k-1项集中出现,如出现,则不需要cut
			// 若没有出现,则需要被cut
			if (!isContained(setList, subSet)) {
				flag = true;
				break;
			}
		}
		return flag;
	}

	/**
	 * 4.3.1 获得k项集的所有k-1项集
	 * 
	 * @param set
	 * @return
	 */
	List<Set<String>> getSubset(Set<String> set) {

		List<Set<String>> result = new ArrayList<Set<String>>();
		String[] setArr = set.toArray(new String[0]);
		for (int i = 0; i < setArr.length; i++) {
			Set<String> subSet = new TreeSet<String>();
			for (int j = 0; j < setArr.length; j++) {
				if (i != j) {
					subSet.add((String) setArr[j]);
				}
			}
			result.add(subSet);
		}
		return result;
	}

	/**
	 * 4.3.2 判断k项集的某k-1项集是否包含在频繁k-1项集列表中
	 * 
	 * @param setList
	 * @param set
	 * @return
	 */
	boolean isContained(List<Set<String>> setList, Set<String> set) {

		boolean flag = false;
		int position = 0;
		for (Set<String> s : setList) {

			String[] sArr = s.toArray(new String[0]);
			String[] setArr = set.toArray(new String[0]);
			for (int i = 0; i < sArr.length; i++) {
				if (sArr[i].equals(setArr[i])) { // 如果对应位置的元素相同,则position为当前位置的值
					position = i;
				} else {
					break;
				}
			}
			// 如果position等于了数组的长度,说明已找到某个setList中的集合与
			// set集合相同了,退出循环,返回包含
			// 否则,把position置为0进入下一个比较
			if (position == sArr.length - 1) {
				flag = true;
				break;
			} else {
				flag = false;
				position = 0;
			}

		}
		return flag;
	}

	/**
	 * 4.4 求两个集合的交集
	 * 
	 * @param s1
	 * @param s2
	 * @return
	 */
	public Set<String> buildIntersection(Set<String> s1, Set<String> s2) {
		Map<String, Integer> itemMap = new HashMap<String, Integer>();
		Set<String> result = new HashSet<String>();
		for (String str : s1) {
			itemMap.put(str, 1);
		}
		for (String str : s2) {
			if (itemMap.get(str) != null && itemMap.get(str) == 1) {
				result.add(str);
			}
		}
		return result;
	}

	/**
	 * 输出垂直数据格式
	 */
	public void printVItemSet(Map<String, Set<String>> itemSetMap) {
		Set<String> itemSet = itemSetMap.keySet();
		Set<String> trans;
		for (String item : itemSet) {
			System.out.print(item + ": ");
			trans = itemSetMap.get(item);
			for (String tran : trans) {
				System.out.print(tran + ", ");
			}
			System.out.println();
		}
	}

	/**
	 * 输出频繁项集
	 * 
	 * @param items
	 * @param i
	 */
	public void printItemSet(Set<String> items, int i) {
		System.out.print("频繁" + i + "项集: 共" + items.size() + "项:");
		for (String item : items) {
			System.out.print("{" + item + "}, ");
		}
		System.out.println();
	}

	public void setMinSup(int minSup) {
		this.minSup = minSup;
	}

}
1
0
分享到:
评论

相关推荐

    Eclat算法Python实现

    3. **垂直数据表示**:不同于传统的交易列表,Eclat算法使用垂直数据表示,其中每一行对应数据库中的一个唯一项,而每一列则表示交易。这样的表示方式有助于快速查找项集的支持度。 4. **等价类**:具有相同支持度...

    数据挖掘算法

    与Apriori不同,ECLAT主要关注垂直数据表示,这使得它在处理大数据时更为高效。 1. **ECLAT算法流程**: - **数据转换**:将交易数据转化为等价类表,每一行代表一个交易,每一列代表一个项目。 - **扫描等价类表...

    数据挖掘关联规则算法.rar

    Eclat通过将数据转换为垂直格式,使得相同项集的行聚集在一起,从而减少了数据处理的时间。在提供的资源中,Eclat算法在两个不同的数据集上运行,展示了其在不同场景下的适应性。 这些Python实现代码提供了学习和...

    数据挖掘算法惹USDDS人间

    3. **Eclat算法**:利用垂直数据格式进行频繁项集挖掘的方法,相比Apriori算法更简单但效率较低。 ### 闭合项集 闭合项集是指在所有超集中没有更高支持度的项集。简单来说,如果一个项集的直接超集的支持度不比它...

    基于位存储Tid的CPU并行化Eclat算法.pdf

    Eclat算法的核心优势在于其采用了垂直数据表示方式。这种表示方法将数据集中每个事务对应的所有项记录下来,形成一个项—事务ID列表,从而避免了传统的水平数据表示方式中大量的重复信息,简化了项集间的交集计算。...

    Hadoop分布式架构下大数据集的并行挖掘.pdf

    4. Eclat和MaxEclat算法:Eclat算法和MaxEclat算法是两种基于垂直数据格式的串行数据挖掘算法。Eclat算法采用自底向上的搜索策略,而MaxEclat算法采用混合搜索策略。这两种算法都利用前缀的等价类技术来提高挖掘效率...

    Apriori算法实现及改进

    ### Apriori算法实现及改进...- **垂直数据格式**:将数据存储为垂直格式,以减少扫描数据集时不必要的读取操作。 通过对Apriori算法的理解和改进,我们可以更高效地进行关联规则挖掘,从而更好地服务于各种应用场景。

    apriori经典算法及一个改进算法的程序

    2. **Eclat算法**:Eclat(垂直数据格式的等高线)算法利用数据的垂直表示,使得支持度计算更为高效。与FP-Growth类似,它减少了无效项集的生成。 3. **CLOSET算法**:CLOSET(Closed Set Transaction)算法关注...

    数据挖掘apriori算法

    这些算法通过不同的方法减少了计算复杂度,比如通过前缀树存储频繁项集,或者利用垂直数据库格式。 总结来说,Apriori算法是数据挖掘中的基础工具,C++实现则提供了一种编程语言级别的具体应用。通过理解Apriori的...

    基于Hadoop物联网数据挖掘的算法分析与应用.pdf

    ECLAT算法(Equivalence Class Transformation)是一种垂直数据格式的频繁项集挖掘算法,通过计算项集之间的交集来发现频繁项集,特别适用于大数据集。 这些算法的应用可以显著提高数据挖掘的效率,通过类内对象...

    关联规则算法java实现代码

    1. **数据预处理**:首先,你需要对原始数据进行处理,将其转化为适合算法处理的形式,如Apriori、FP-Growth或Eclat等。这可能包括读取交易数据,转换为项集列表,以及计算项集的支持度。 2. **生成频繁项集**:...

    解析Apriori算法python实现

    2. Eclat算法:基于垂直数据表示,避免了候选项集的生成,提高效率。 3. 分布式计算框架:利用Spark或Hadoop等分布式平台,将计算任务分散到多台机器上,提高处理大数据的能力。 总之,Apriori算法虽然经典,但在...

    基于关联规则的数据挖掘算法研究

    - ECLAT算法:水平式算法,通过对数据集进行垂直划分,减少重复计算,提高效率。 - ARM(Adaptive Resizing Method)算法:自适应调整窗口大小,适用于动态数据流中的关联规则挖掘。 4. 应用场景: - 超市购物篮...

    数据挖掘关联规则Apriori算法及其优化算法

    在Apriori算法的基础上,出现了许多优化版本,例如Eclat(Enhanced Clustering and Lattice Traversal)算法,它利用垂直数据格式来减少数据处理的复杂性;FP-Growth(Frequent Pattern Growth)算法,它通过构建FP...

    PrefixTreeESpan算法实现

    在传统的ESpan算法中,其核心思想是利用垂直数据表示法,通过事务ID数组来存储项集及其出现的事务。而PrefixTreeESpan算法则是针对树型数据,将树结构转化为一种类似于前缀树(也称作Trie树)的数据结构,以此来压缩...

    采用N-list结构的混合并行频繁项集挖掘算法.docx

    Eclat算法利用垂直格式数据,通过交运算挖掘频繁项集,但需要将数据转换,不适合大数据场景。 MapReduce并行计算模型为解决这些问题提供了可能。Google的MapReduce模型因其简单、容错、负载均衡和可扩展性受到广泛...

    apriori算法 Java实现

    - **Eclat**:使用垂直数据格式,通过位运算快速计算支持度。 - **CLOSET**:采用闭集理论,减少频繁项集的搜索空间。 尽管Apriori算法有其局限性,但它仍然是数据挖掘领域基础且重要的关联规则学习算法,对于理解...

Global site tag (gtag.js) - Google Analytics