算法说明:
1. 构造垂直数据格式,把原始数据的事务对应的元素集变为由元素对应的事务集
2. 对垂直数据格式中的元素Apriori算法
2.1 构造频繁1项集:遍历垂直数据格式中的元素并找出其事务集大小满足最小支持度的元素 作为频繁1项集
2.2 递归由频繁k-1项集构造频繁k项集:
2.2.1 根据Apriori方法判断两个k-1项集是否可连接为项集
2.2.2 对于已连接的k项集,判断它的所有k-1项集是否都在频繁k-1项集中出现
2.2.3 对于满足2.2.2的k项集,判断其支持度是否满足条件
package com.ustc.eclat;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.TreeSet;
public class Eclat {
private int minSup;
/**
* @param args
*/
public static void main(String[] args) {
/**
* 1. 构造垂直数据格式,把原始数据的事务对应的元素集变为由元素对应的事务集
* 2. 对垂直数据格式中的元素Apriori算法
* 2.1 构造频繁1项集:遍历垂直数据格式中的元素并找出其事务集大小满足最小支持度的元素 作为频繁1项集
* 2.2 递归由频繁k-1项集构造频繁k项集:
* 2.2.1 根据Apriori方法判断两个k-1项集是否可连接为项集
* 2.2.2 对于已连接的k项集,判断它的所有k-1项集是否都在频繁k-1项集中出现
* 2.2.3 对于满足2.2.2的k项集,判断其支持度是否满足条件
*
*/
long startTime = System.currentTimeMillis();
Eclat eclat = new Eclat();
/*
* eclat.setMinSup(2); List<String> datas = eclat.buildData(); //构造数据集
*/
eclat.setMinSup(1000);
List<String> datas = eclat.buildData("retail.dat");
Map<String, Set<String>> itemSetMap = eclat.buildItemSet(datas); // 构造垂直数据格式
// eclat.printVItemSet(itemSetMap);
eclat.buildF1Items(itemSetMap);
eclat.printItemSet(itemSetMap.keySet(), 1);
int i = 2;
do {
itemSetMap = eclat.buildFreqItemSet(itemSetMap);
eclat.printItemSet(itemSetMap.keySet(), i);
i++;
} while (itemSetMap.size() != 0);
long endTime = System.currentTimeMillis();
System.out.println("共用时:" + (endTime - startTime) + "ms");
// buildFreqItemSet(itemSetMap); //构造频繁集
}
/**
* 1.构造数据集
*/
public List<String> buildData(String... fileName) {
List<String> data = new ArrayList<String>();
if (fileName.length != 0) {
File file = new File(fileName[0]);
try {
BufferedReader reader = new BufferedReader(new FileReader(file));
String line;
while ((line = reader.readLine()) != null) {
data.add(line);
}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
} else {
data.add("I1 I2 I5");
data.add("I2 I4");
data.add("I2 I3");
data.add("I1 I2 I4");
data.add("I1 I3");
data.add("I2 I3");
data.add("I1 I3");
data.add("I1 I2 I3 I5");
data.add("I1 I2 I3");
}
return data;
}
/**
* 2.构造垂直数据格式 Map-Key为事务中的每一个频繁元素项 Map-Value为每一个事务项对应的事务行的集合
*
* @param datas
* @return
*/
public Map<String, Set<String>> buildItemSet(List<String> datas) {
Map<String, Set<String>> itemSetMap = new HashMap<String, Set<String>>();
Set<String> tranSet; // 事务集
String[] items;
int lineNum = 1; // 事务行号从1开始
for (String data : datas) { // 事务编号以"T" + 事务行号的形式表示;每一条data记录为一行.
String tran = "T" + lineNum;
items = data.trim().split(" ");
for (String item : items) {
if (itemSetMap.get(item) == null) {
tranSet = new HashSet<String>();
tranSet.add(tran);
itemSetMap.put(item, tranSet);
} else {
itemSetMap.get(item).add(tran);
}
}
lineNum++;
}
return itemSetMap;
}
/**
* 3. 由垂直数据格式构造频繁1项集(这里直接在垂直数据格式上进行操作了)
*
* @param itemSetMap
*/
public void buildF1Items(Map<String, Set<String>> itemSetMap) {
String[] items = itemSetMap.keySet().toArray(new String[0]);
for (String item : items) {
if (itemSetMap.get(item).size() < this.minSup) {
itemSetMap.remove(item);
}
}
}
/**
* 4 由频繁1项集开始构造频繁项集
*/
public Map<String, Set<String>> buildFreqItemSet(
Map<String, Set<String>> preItemSetMap) {
String[] items = preItemSetMap.keySet().toArray(new String[0]);
Map<String, Set<String>> result = new HashMap<String, Set<String>>();
for (int i = 0; i < items.length - 1; i++) {
for (int j = i + 1; j < items.length; j++) {
String[] iItems = items[i].split(" ");
String[] jItems = items[j].split(" ");
if (this.isCanLink(iItems, jItems)) { // 如果两个k-1项集可执行连接操作,则连接成k项集
String[] kItems = new String[iItems.length + 1];
int k = 0;
for (; k < iItems.length; k++) {
kItems[k] = iItems[k];
}
kItems[k] = jItems[k - 1];
Arrays.sort(kItems); // 对kItems中的元素进行排序
// 判断kItems的所有k-1子集是否包含在items里,如果不全包括,则该k项集必定不频繁
Set<String> kitemSet = new TreeSet<String>();
for (String str : kItems) {
kitemSet.add(str);
}
List<Set<String>> preItemSetList = new ArrayList<Set<String>>();
for (String str : items) {
preItemSetList.add(strToSet(str));
}
if (!isNeedCut(preItemSetList, kitemSet)) {
Set<String> tranSet = this.buildIntersection(
preItemSetMap.get(items[i]), preItemSetMap
.get(items[j]));
if (tranSet.size() >= this.minSup) {
StringBuffer sb = new StringBuffer();
for (String str : kItems) {
sb.append(str + " ");
}
result.put(sb.toString().trim(), tranSet);
}
}
}
}
}
return result;
}
/**
* 4.1 判断两个项集合是否可执行连接操作,由k-1项连接成k项
*
* @param s1
* @param s2
* @return
*/
public boolean isCanLink(String[] s1, String[] s2) {
boolean flag = true;
if (s1.length == s2.length) {
for (int i = 0; i < s1.length - 1; i++) {
if (!s1[i].equals(s2[i])) {
flag = false;
break;
}
}
if (s1[s1.length - 1].equals(s2[s2.length - 1])) {
flag = false;
}
} else {
flag = false;
}
return flag;
}
/**
* 4.2 把项字符串转为项的集合
*
* @param str
* @return
*/
public Set<String> strToSet(String str) {
Set<String> itemSet = new TreeSet<String>();
String[] strs = str.split(" ");
for (String s : strs) {
itemSet.add(s);
}
return itemSet;
}
/**
* 4.3 判断set的所有k-1项子集是否都在setList,如果不全在,如果不在该k项集将被cut掉
*
* @param setList
* @param set
* @return
*/
public boolean isNeedCut(List<Set<String>> setList, Set<String> set) {
boolean flag = false;
List<Set<String>> subSets = getSubset(set); // 获得k项集的所有k-1项集
for (Set<String> subSet : subSets) {
// 判断当前的k-1项集set是否在频繁k-1项集中出现,如出现,则不需要cut
// 若没有出现,则需要被cut
if (!isContained(setList, subSet)) {
flag = true;
break;
}
}
return flag;
}
/**
* 4.3.1 获得k项集的所有k-1项集
*
* @param set
* @return
*/
List<Set<String>> getSubset(Set<String> set) {
List<Set<String>> result = new ArrayList<Set<String>>();
String[] setArr = set.toArray(new String[0]);
for (int i = 0; i < setArr.length; i++) {
Set<String> subSet = new TreeSet<String>();
for (int j = 0; j < setArr.length; j++) {
if (i != j) {
subSet.add((String) setArr[j]);
}
}
result.add(subSet);
}
return result;
}
/**
* 4.3.2 判断k项集的某k-1项集是否包含在频繁k-1项集列表中
*
* @param setList
* @param set
* @return
*/
boolean isContained(List<Set<String>> setList, Set<String> set) {
boolean flag = false;
int position = 0;
for (Set<String> s : setList) {
String[] sArr = s.toArray(new String[0]);
String[] setArr = set.toArray(new String[0]);
for (int i = 0; i < sArr.length; i++) {
if (sArr[i].equals(setArr[i])) { // 如果对应位置的元素相同,则position为当前位置的值
position = i;
} else {
break;
}
}
// 如果position等于了数组的长度,说明已找到某个setList中的集合与
// set集合相同了,退出循环,返回包含
// 否则,把position置为0进入下一个比较
if (position == sArr.length - 1) {
flag = true;
break;
} else {
flag = false;
position = 0;
}
}
return flag;
}
/**
* 4.4 求两个集合的交集
*
* @param s1
* @param s2
* @return
*/
public Set<String> buildIntersection(Set<String> s1, Set<String> s2) {
Map<String, Integer> itemMap = new HashMap<String, Integer>();
Set<String> result = new HashSet<String>();
for (String str : s1) {
itemMap.put(str, 1);
}
for (String str : s2) {
if (itemMap.get(str) != null && itemMap.get(str) == 1) {
result.add(str);
}
}
return result;
}
/**
* 输出垂直数据格式
*/
public void printVItemSet(Map<String, Set<String>> itemSetMap) {
Set<String> itemSet = itemSetMap.keySet();
Set<String> trans;
for (String item : itemSet) {
System.out.print(item + ": ");
trans = itemSetMap.get(item);
for (String tran : trans) {
System.out.print(tran + ", ");
}
System.out.println();
}
}
/**
* 输出频繁项集
*
* @param items
* @param i
*/
public void printItemSet(Set<String> items, int i) {
System.out.print("频繁" + i + "项集: 共" + items.size() + "项:");
for (String item : items) {
System.out.print("{" + item + "}, ");
}
System.out.println();
}
public void setMinSup(int minSup) {
this.minSup = minSup;
}
}
分享到:
相关推荐
3. **垂直数据表示**:不同于传统的交易列表,Eclat算法使用垂直数据表示,其中每一行对应数据库中的一个唯一项,而每一列则表示交易。这样的表示方式有助于快速查找项集的支持度。 4. **等价类**:具有相同支持度...
Eclat算法的实现关键在于垂直数据格式的应用和项集格子结构的构建,使得通过比较包含项的交易ID列表能够快速找出频繁项集。 Eclat算法通过初始化频繁项集和计算每个项的支持度来开始。随后,利用递归的方式构建更...
通过编写代码,可以将原始数据集转换为适合Eclat算法处理的格式,然后应用Eclat算法来找出频繁项集,并生成关联规则。 需要注意的是,示例中的代码和数据仅用于演示Eclat算法的实现过程。在实际应用中,数据集可能...
使用mlxtend库中的TransactionEncoder可以进行数据预处理,将原始交易数据转换为适合Eclat算法处理的格式。然后,调用eclat函数即可挖掘出频繁项集。 Eclat算法和经典的Apriori算法在关联规则学习中的应用都非常...
Eclat算法之所以在大规模数据处理中表现更优,原因在于其垂直数据格式和交集操作避免了多次扫描数据集和生成大量候选项集的需要。 然而,在某些情况下,Eclat算法也可能面临性能挑战,例如当数据集中的事务非常庞大...
Python实现的Eclat算法示例代码展示了算法的基本工作流程,包括数据集的准备、垂直数据格式的构建和深度优先搜索的实现。在实际应用中,算法通过递归调用自身函数,对数据集进行深层次遍历,最终输出满足最小支持度...
与Apriori算法采用水平数据格式不同,Eclat算法使用垂直数据格式,即每一笔交易记录只包含购买的商品ID,这种格式特别适合处理大规模数据集。Eclat算法采用深度优先搜索策略,从底部开始遍历项目集的格子结构,通过...
Eclat算法基于垂直数据格式,通过构建每个项的事务列表,并采用深度优先搜索策略来发现频繁项集。这种算法的优势在于它处理大规模稀疏数据集的效率更高。Eclat算法的步骤包括初始化项的事务列表、深度优先搜索、剪枝...
Eclat算法通过采用垂直数据格式和深度优先搜索策略显著提高了算法的执行效率。 在Eclat算法中,垂直数据格式是其核心概念之一。它指每个事务只存储其包含的物品的列表,而非整个事务的详细信息。这种格式不仅减少了...
与Apriori不同,ECLAT主要关注垂直数据表示,这使得它在处理大数据时更为高效。 1. **ECLAT算法流程**: - **数据转换**:将交易数据转化为等价类表,每一行代表一个交易,每一列代表一个项目。 - **扫描等价类表...
Eclat通过将数据转换为垂直格式,使得相同项集的行聚集在一起,从而减少了数据处理的时间。在提供的资源中,Eclat算法在两个不同的数据集上运行,展示了其在不同场景下的适应性。 这些Python实现代码提供了学习和...
与早期广泛使用的Apriori算法相比,Eclat算法采用了更直接的垂直数据结构和深度优先搜索策略,能够在挖掘频繁项集时更高效地处理大数据集。Eclat算法在处理大规模稀疏数据集时尤其表现出色,它通过减少数据扫描次数...
Eclat算法是一种特定的频繁项集挖掘算法,其全称为“等价类聚类和自底向上格遍历”(Equivalence Class Clustering and bottom-up Lattice Traversal),采用垂直数据格式,并利用深度优先搜索策略遍历项集的格子结构...
3. **Eclat算法**:利用垂直数据格式进行频繁项集挖掘的方法,相比Apriori算法更简单但效率较低。 ### 闭合项集 闭合项集是指在所有超集中没有更高支持度的项集。简单来说,如果一个项集的直接超集的支持度不比它...
Eclat算法的核心优势在于其采用了垂直数据表示方式。这种表示方法将数据集中每个事务对应的所有项记录下来,形成一个项—事务ID列表,从而避免了传统的水平数据表示方式中大量的重复信息,简化了项集间的交集计算。...
垂直数据结构是指每个项集对应一个包含所有包含该项集的交易ID的列表,这种数据结构能够减少数据扫描次数,从而提高算法的效率。深度优先搜索策略允许Eclat算法从单个项开始,逐步构建频繁项集,并利用项集的支持度...
Eclat算法的处理过程可以分为几个步骤:初始化阶段,读取数据集并构建垂直数据结构;频繁1-项集挖掘阶段,找出所有支持度大于最小支持度阈值的1-项集;频繁k-项集挖掘阶段,针对每个频繁k-1项集,通过遍历其对应的...
该算法在Apriori算法的基础上进行了改进,其优势在于通过垂直数据格式和等价类的使用,简化了搜索过程,提高了算法的效率。Eclat算法避免了Apriori算法中频繁生成候选集和频繁扫描数据库的步骤,直接从数据库中提取...