apriori 算法（py）-阿里云开发者社区

apriori 算法（py）

2017-12-07 1368

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

代码:

# -*- coding: UTF8 -*-

import sys
# 最小支持度
sup_min = int(sys.argv[ 1 ])

ss = " , "

# 交易数据库
D = [
' A,B,C,D ' ,
' B,C,E ' ,
' A,B,C,E ' ,
' B,D,E ' ,
' A,B,C,D '
]

print " 交易数据库展现 "
for arr in D : print arr
print

'''
rows = int(sys.argv[ 1 ])
D=[]
for tid in open('BuyMusic.20090722.mob.prodIds').readlines()[:rows] :
    D.append(tid.split("\n")[0].split("\t")[1])

print "读取文件结束 BuyMusic.20090722.mob.prodIds !"
'''
# 全局频繁项收集
sup_data_map = {}
# 全局  最大频繁项收集
is_zsup = {}

# 遍历过程临时局部  频繁项收集
mapL = {}

# 第一次频繁项收集
def find_frequent_1_itemset(I):
     if I == ' null ' or I == '' : return
     if mapL.has_key(I): mapL[I] += 1
     else : mapL[I] = 1

map(find_frequent_1_itemset,[ I   for TID in D for I   in TID.split(ss) ])

# 刷选掉小于最小支持度的频繁项
def remove_not_sup_min(map,supmin = sup_min):
     for k   in [k for k,v in map.items() if v < supmin] :
         del map[k]
remove_not_sup_min(mapL)

print " 第一次筛选频繁项结束! "
print mapL

# 装载全局频繁项最大频繁项
for k,v in mapL.items() :
    sup_data_map[k] = v
    is_zsup[k] = v

# 判定是否 'BD' 属于  'BCD' 中
isInTid = lambda I,TID : len(I.split(ss)) == len([i for i in I if i in TID.split(ss)])

# 组合  [A,B] + [A,C] = [A,B.C]
def comb(arr1,arr2):
    tmap = {}
     for v in arr1 + arr2 : tmap[v] = ""
     return tmap.keys()

# apriori 迭代核心
def runL(mapL,dep):
    mapL2 = {}
    C = {}
    keys = mapL.keys()
    iik = ""
    jjk = ""
     # 根据上次  频繁项，生成本次 '可能频繁项' 集合
     for ii in range(len(keys)) :
         for jj in range(ii + 1 ,len(keys)) :
            keystr = comb([ch for ch in keys[ii].split(ss)],[ch for ch in keys[jj].split(ss)])
             if not len(keystr) == dep : continue
            keystr.sort()
            tk = ss.join(keystr)
             if not tk in C : C[tk] = (keys[ii],keys[jj])

     #   '可能频繁项' 对比交易数据库  计数
     for tk,z in C.items():
         for TID in D:
             if isInTid(tk,TID) :
                 if mapL2.has_key(tk): mapL2[tk] += 1
                 else : mapL2[tk] = 1

     # 刷选掉小于最小支持度的频繁项
    remove_not_sup_min(mapL2)
     for k,v in   is_zsup.items() :
         for k1,v1 in mapL2.items() :
             if isInTid(k,k1) :
                 del is_zsup[k]
                 break
     # 全局频繁项 ,最大频繁项  收集
     for k,v in mapL2.items() :
        sup_data_map[k] = v
        is_zsup[k] = v
     print " 第 " + str(dep) + " 次筛选频繁项结束! "
     return mapL2

# 真正运行
ii = 1
while mapL :
    ii = ii + 1
    mapL = runL(mapL,ii)
     print mapL

# 全局  频繁项中去除最大频繁项
for k,v in is_zsup.items() :
     if sup_data_map.has_key(k) : del sup_data_map[k]

print " 频繁项 "
print sup_data_map
print
print " 最大频繁项 "
print is_zsup
print

print " 可信度展现 "
for k,v in   sup_data_map.items() :
     for k1,v1 in is_zsup.items() :
         if isInTid(k,k1) :
             print k, " -> " ,k1, " \t%.1f " % ((float(is_zsup[k1]) / float(sup_data_map[k])) * 100 ) + " % "

结果:
-bash-3.00$ python ap.py 2
交易数据库展现
A,B,C,D
B,C,E
A,B,C,E
B,D,E
A,B,C,D
第一次筛选频繁项结束!
{'A': 3, 'C': 4, 'B': 5, 'E': 3, 'D': 3}
第2次筛选频繁项结束!
{'C,D': 2, 'C,E': 2, 'A,D': 2, 'A,B': 3, 'A,C': 3, 'B,E': 3, 'B,D': 3, 'B,C': 4}
第3次筛选频繁项结束!
{'A,B,D': 2, 'A,B,C': 3, 'B,C,D': 2, 'B,C,E': 2, 'A,C,D': 2}
第4次筛选频繁项结束!
{'A,B,C,D': 2}
第5次筛选频繁项结束!
{}
频繁项
{'A': 3, 'C': 4, 'B': 5, 'E': 3, 'D': 3, 'C,D': 2, 'C,E': 2, 'A,D': 2, 'A,B': 3, 'A,C': 3, 'A,B,D': 2, 'B,C,D': 2, 'A,C,D': 2, 'B,E': 3, 'B,D': 3, 'B,C': 4, 'A,B,C': 3}
最大频繁项
{'B,C,E': 2, 'A,B,C,D': 2}
可信度展现
A -> A,B,C,D    66.7%
C -> B,C,E    50.0%
C -> A,B,C,D    50.0%
B -> B,C,E    40.0%
B -> A,B,C,D    40.0%
E -> B,C,E    66.7%
D -> A,B,C,D    66.7%
C,D -> A,B,C,D    100.0%
C,E -> B,C,E    100.0%
A,D -> A,B,C,D    100.0%
A,B -> A,B,C,D    66.7%
A,C -> A,B,C,D    66.7%
A,B,D -> A,B,C,D    100.0%
B,C,D -> A,B,C,D    100.0%
A,C,D -> A,B,C,D    100.0%
B,E -> B,C,E    66.7%
B,D -> A,B,C,D    66.7%
B,C -> B,C,E    50.0%
B,C -> A,B,C,D    50.0%

A,B,C -> A,B,C,D 66.7%

本文转自博客园刘凯毅的博客，原文链接：apriori 算法（py），如需转载请自行联系原博主。

apriori 算法（py）

热门文章

最新文章

相关课程

相关电子书

相关实验场景