데이터베이스

데이터마이닝_연관규칙(Association)_지지도, 신뢰도, 향상도, Apriori, 빈발항목

스윙스윙 2021. 8. 29. 20:58

▣ 연관규칙(Association)_지지도, 신뢰도, 향상도, Apriori, 빈발항목

  - 항목들 간의 관계를 얻기 위해 한 항목의 존재가 다른 항목의 존재를 암시하는 조합을 발견하는 분석 방법

  - 동시에 발생한 사건 간의 관계 정의

 

  - 지지도는 X->Y = Y->X (상호대칭)

 

  - 신뢰도는 X->Y ≠ Y->X (지지도가 낮아도 신뢰도가 높은 경우 유용한 규칙)

 

  - 향상도는 X->Y = Y->X (상호대칭)

      L > 1 : 양의 상관관계 (같이 구매할 확률 높음)

      L < 1 : 음의 상관관계 (같이 구매할 확률 낮음)

      L = 1 : 독립적 상관관계 (서로 영향 미치지 않음)

 

 

▣ Apriori 알고리즘


Apriori 원리

전체 거래 중 A, B가 포함되는 거래 빈도는 A, B, C가 포함되는 거래 빈도보다 높거나 같음

신뢰도의 분모가 A,B일 때와 A, B, C 일 때를 비교하면 A, B 일때 더 낮거나 같음


2020년 54번

정답 : 4번

연관규칙(Association Rule) 탐사의 대표적인 알고리즘으로 연역적 알고리즘(Apriori algorithm)이 있음

'모든 빈발항목 집합의 부분집합은 빈발하다' 즉 "만일 연관규칙 A->B에 대한 지지도가 T보다 크다면

A와 B에 대한 개별적인 지지도도 T보다 커야만 된다."

 

6-항목집합에 대해 고려할 수 있는 연관규칙은 6-항목집합의 부분집합을 구하면 알 수 있음

원소가 n개인 집합에 대한 부분집합의 총 개수는 2^n이므로,

6-항목집합의 부분집합 { }, {Apple}, {Banana}, ..., {Apple, Banana, Cherry, Grape, Melon, Tomato}으로

총 2^6= 64이며, 이 중에서 의미 없는 공집합과 이미 빈발로 확인된 자기자신을 제외하면 정답은 62개


2020년 66번

정답 : 1번

맥주->과자 지지도는 6/10 = 60%

맥주를 포함하는 거래는 8개

맥주->과자 지지도는 6/8 = 75%


2020년 68번

정답 : 3번

보기 3번이 약 0.83으로 가장 큼

1) X→Y의 지지도 = P(X∩Y)=15/100 = 0.15

2) X→Y의 신뢰도 = P(X∩Y)/P(X)=(15/100)/(20/100) = 15/20 = 0.75

3) X→Y의 상승(향상도) = P(X∩Y)/[P(X)*P(Y)] = [신뢰도(X→Y)/P(Y) = 0.75/0.9 = 0.83333...

4) X→윗쪽바Y의 신뢰도 = 5/20 = 0.25

 


 

2021년 75번

정답 : 3번

 

Apriori 알고리즘 원리에 따라 신뢰도의 분모가 {B, C, D}일 때보다 "{B, C, D}의 부분집합"일 때 신뢰도가 더 낮거나 같음

 

문제에서 BCD->A가 최소 신뢰도 조건을 만족하지 않는다고 했으므로, [BCD->A 신뢰도 = BCD ->A 지지도 / P(BCD)] 분모가 {B, C, D}의 부분집합으로 구성된 규칙의 신뢰도는 당연히 더 낮거나 같다는 결론이 나옴

 

X->Y에서 X집합이 {B, C, D}의 부분집합으로만 구성된 규칙은 더 이상 고려할 필요가 없음

정답은 3번 BD->AC, D->ABC임

 


2012년 63번

정답 : 2번


2012년 70번

정답 : 3번

{Milk, Diapers} -> {Beer} 관련 행은 2개, 전체행은 5개

지지도 = 2/5 = 0.4 

(지지도가 높을수록 연관 규칙의 의미가 높아짐)

 

신뢰도 = 2/3 = 0.67

(신뢰도가 높을수록 가치 있음)

 

향상도 = 5*2 / 3*3 = 10/9

(향상도가 1에 가까우면 A거래와 B거래간 독립적, 1보다 크면 연관관계가 큼)

 


2013년 75번

정답 : 1번

지지도 : (우유, 빵 동시 구매건수) / 전체건수 = 3/6 = 0.5 => 50%

신뢰도 : (우유, 빵 동시 구매건수) / (우유 구매건수) = 3/4 = 0.75 => 75%

향상도 : 전체건수*(우유, 빵 동시 구매건수) / (우유 구매건수)*(빵 구매건수)) = (6*3)/(4*3) = 18/12 = 1.5 => 150%

 


2014년 67번

정답 : 3번

지지도는 X->Y = Y->X (상호대칭)

지지도는 빈번하게 발생되는 규칙의 유용성을 의미하므로 커야 좋음

 


2014년 74번

정답 : 3번