인공지능관련/인공지능(AI)

연관분석1

학위논문통계 2017. 2. 15. 14:21

 

1. 연관분석(Association Analysis)

 

장바구니 분석(basket analysis)라고도 하고 또 다른 말로도 쓰는데 이건 기억이 잘 안나네요.

 

인터넷에 물건을 사면 추천 목록이 자동으로 나오는 경우가 많죠. 이 상품을 클릭한 사람이 관심을 가지는 종목, 또는 이 상품을 구매한 사람들이 많이 구매한 품목 이런 식으로 나오죠. 이 목록 등이 연관분석, 장바구니 분석에서 나온 것입니다. CRM에서는 교차판매(cross-selling)라는 말도 사용합니다.

 

사실 이 분야는 통계 이론적인 것은 별로 없습니다. 조건부 확률과 결합확률이라는 1학년때 배우는 통계학 기초 처음에 나오는 확률법칙만 알면 됩니다. 그래서 실제 현장에서의 적용은 경험이 더 중요하다고 생각합니다.

그럼 조건부 확률과 결합확률를 한번 볼까요. 다음이 A나 B는 특정 상품을 말합니다. 특정상품 A, B를 사거나 아니면 클릭하거나 하는 경우를 말합니다. 꼭 하나의 상품일 필요는 없습니다. A라는 상품이 실제로는 몇 개의 상품군일수도 있습니다.

 

 

조건부 확률 Pr(A|B)는 고객이 B라는 물건을 살 경우, 또는 상품을 클릭한 경우 A라는 상품도 살, 또는 클릭할 확률을 말합니다.

 

예를 들어 여러분이 어떤 패딩 점퍼가 마음에 들어 클릭을 하거나 구매를 했다고 하죠. 즉 B입니다. 이럴 경우 인터넷 사이트에서 이 B라는 패딩을 클릭하거나 구매한 사람들의 데이터베이스를 분석해서 이 사람들이 어떤 물건을 또 클릭했는지, 구매했는지 확률 계산을 해서 가장 확률이 높은 목록부터 컴퓨터 화면에 띄워준다는 것이죠.

 

 

그럼 결합확률 Pr(A, B)는 무엇을 이야기하는 것일까요. 이건 두 제품 A, B를 동시에 산 확률을 말합니다.

 

그럼 조건부 확률 Pr(A|B)와 어떻게 다를까요?

 

Pr(A, B) = Pr(A|B)*Pr(B) = Pr(B|A)*Pr(A)

 

입니다.

 

 

단순하게 조건부 확률만 생각하면 큰 오류가 생길 수 있습니다. 예를 들어 비행기가 사고가 날 경우 인명피해는 거의 100%에 가깝습니다.

 

즉 Pr(사망|비행기 사고)=1이라고 봐도 된다는 것이죠. 그런데도 사람들 별 걱정없이 비행기 타고 다니죠. 왜냐하면 비행기 사고 날 확률 Pr(비행기 사고)가 너무 낮기 때문이죠.

 

Pr(사망. 비행기 사고)=Pr(사망|비행기 사고)*Pr(비행기 사고)

 

이기 때문입니다. 비주류인 베이지안이 주류통계학을 가장 신랄하게 비난하는 부분이 이 뒤에 붙어 있는 Pr(B)를 계산을 안한다는 것이죠.

 

 

또 하나의 예를 들어 볼까요. 대형마트에서 쌍화차를 사는 사람들은 달걀을 살 가능성이 높습니다. 아.. 옛날 사람이라면요. 옛날에는 아침에 다방에서 쌍화차에 생달걀을 올려서 많이 팔았습니다. 이것 옛날에는 많이 먹었습니다.

그럼 Pr(계란|쌍화차)=1 이라고 해서 이게 큰 의미가 있을까요.

 

다시 결합확률

 

Pr(계란, 쌍화차)=Pr(계란|쌍화차)*Pr(쌍화차)

 

에서 Pr(쌍화차) 이 확률이 너머 낮다는 것이죠. 요새는 쌍화차 별로 안 먹잖아요.

 

반대로 Pr(A|B)가 낮아도 Pr(B) 자체가 높으면 관심을 가질 필요가 있습니다. 예를 들어 Pr(모자|패딩)의 확률, 즉 패딩을 살 때 모자를 살 확률이 낮아도 Pr(패딩)의 확률이 높으면 무시하기 힘들다는 것이죠.

 

 

이 연관분석을 꼭 물건 구매에 한정해서 생각할 필요는 없습니다. 징후를 발견한다는 개념으로 사용할 수 있습니다. 예를 들어 지진의 경우 Pr(A|B)에서 B는 징후, A는 지진발생으로 생각할 수 있습니다.

 

또 퀴즈 인공지능의 경우 Pr(A|B)에서 B는 퀴즈 문제에 나온 단어군, A는 답이라 생각할 수 있습니다. 예를 들어 백과사전의 단어 설명, 또는 블로그 같은 웹사이트 내용을 하나의 거래, 또는 text라고 생각할 수 있습니다. 그래서 퀴즈에 나오는 단어군이 포함된 text 중에서 가장 많이 나오는 단어를 답이라 생각할 수 있습니다.

 

 

그럼 이런 분석할 데이터나 디비가 없을 경우 어떻게 할까요. 자기 자신부터 분석을 하는 것이죠. 내가 어떤 것을 좋아하는가? 어떤 것을 싫어하는가? 그런 다음 다른 사람들은 어떤 것을 좋아할까 싫어할까 이런 것을 생각한다는 것이죠. 이런 것만 충분히 생각해도 고객의 관심을 잡을 수가 있습니다.

 

 

실제로는 이 연관분석을 사이트에 구현할 때 수 많은 고려 사항들이 있습니다. 싼 물건은 많이 팔아야 별 돈이 안됩니다. 그래서 상품의 가격도 고려해야하고요. 또 구객의 소득수준, 또는 싼 물건을 선호하는지 고급 물건을 선호하는지, 또 지금처럼 계절이 바뀌는 경우는 겨울에 물건을 산 사람들이 한 거래 데이터베이스는 별 의미가 없습니다.

 

 

지금 의류 쪽에서 온라인 매장이 많죠. 온라인 매장은 어느 정도 한계가 있습니다. 첫째는 옷가게 경우 색깔이나 천의 느낌을 잘 알 수가 없고, 또 한번 입어 볼 수가 없습니다. 오프가게는 이게 가능하죠. 둘째는 대부분 시즌이 지난 제품을 팝니다. 그래서 싸게 팔 수 있는 것이죠. 오프에서 본 마음에 드는 제품을 온라인에서 찾기는 싶지 않습니다. 셋째는 시장 진입장벽이 낮아 경쟁이 매우 심합니다. 띠라서 차별한 된 제품이나 홍보, 또는 가격 경쟁력에서 우월성이 없으면 견디기 힘들죠.

 

의류 쪽에서 오랜 일한 후배에게 들은 이야기인데 패션발표회가 실제 디자이너의 패션이 핵심이 아니고 천, 기지 시장이 핵심이라고 합디다. 패션발표회 뒤에서 올해 유행할 천을 가지고 엄청난 거래가 일어난다고 하네요.

 

책 가계의 경우 온라인은 책의 내용을 알기 힘들죠. 그래서 요새는 온라인 책에서는 내용을 일부 보여주는 전략을 쓰고 있죠.

 

 

온라인으로 가는 것은 일종의 대세입니다. 책이나 비디오 대여점을 보면 알 수 있죠. 이 가게들 전부 망해잖아요. 온오프가 공존할 수 있는 방안에 대해 심각하게 고민을 해야 할 것 같은데 별 대책이 없네요.

 

 

 

2. 기저귀와 맥주

 

이 연관 분석의 역사는 매우 오래 되었습니다. 고객관계관리(CRM: customer relationship management)에서 다루기 시작했는데요 컴퓨터 능력이 좋아지고 또 고객의 정보를 저장할 수 있는 데이터베이스를 쓰기 시작하면서 통계학과, 경영학쪽에서 관심을 받았습니다.

 

원래 CRM은 미국의 주유소에서 고객에게 쿠폰을 주면서 시작했다고 합니다. 그런 이야기가 있습니다. 크게 관심을 받게 된 것이 항공사에서 마일리지라는 것을 만들면서 부터이고요. 충성고객을 만들기 위해서 나온 것이죠.

 

 

하여간 이 CRM에서 전설적인 일화가 있습니다. 바로 기저귀와 맥주 이야기입니다. 주말에 맥주를 사는 남자 고객이 같이 가장 많이 사는 제품이 기저귀라는 것이죠.

 

왜 이런 일이 일어날까요. 맥주와 기저귀가 무슨 상관이 있다고요. 미국 사람들의 가장 큰 낙이 주말에 프로경기 보는 것이죠. 그래서 주말에 남자들이 맥주를 많이 산다는 것이죠. 이걸 안 주부들이 남편이 퇴근할 때 전화로 기저귀도 사 오라고 한다는 것이죠.

 

그럼 이런 사실을 알았을 때 어떻게 할까요. 매장 가장 눈에 잘 띄는 곳에 맥주와 기저귀를 같이 진열한다는 것이죠. 또 세트로 할인해서 팔든가요.

 

그래서 CRM을 해서 기저귀와 맥주 구매 현상을 발견했다고 이 CRM 장사하려는 곳에서 지겹도록 이 이야기를 써 먹었습니다. 그런대 누가 실제 기저귀와 맥주 사례를 발견한 경우가 있는지 조사를 해 보았습니다. 결과는 이런 사례를 발표한 예가 없답니다. 물론 조사에는 한계가 있어서 이게 확실하다고는 이야기는 못하겠지만 이 사례는 허구일 가능성이 매우 높습니다. 저널에 실린 내용입니다.

 

 

이렇게 상업적 목적으로 뻥치기를 많이 합니다. 지금 인공지능도 그런 경향이 많죠. 여러분들은 별 걱정 안해도 된다고 봅니다.

 

하여간 기저귀와 맥주는 허구일지 몰라도 이런 우리들이 잘 몰랐던 그런 구매 패턴을 발견만 하면 대박을 터뜨릴 수 있다는 것이죠. 일종의 광맥을 찾아다니는 것이랑 마찬가지입니다. 그래서 이런 쪽 일을 datamining이라고 합니다.

 

 

다음에 조금 더 쓰죠.

 

'인공지능관련 > 인공지능(AI)' 카테고리의 다른 글

연관분석3  (0) 2017.03.15
연관분석2  (0) 2017.03.01
볼쯔만 머신(Boltzmann Machines)1  (0) 2016.12.28
이미지 프러세싱과 딥러닝의 cnn 관계  (0) 2016.12.19
HMM2, 도둑 위치 추적  (0) 2016.11.02