추천 시스템 (1) - 개요 및 알고리즘

IT/Machine Learning

by HarimKang 2020. 1. 8. 02:16

Writer : Harim Kang

추천 시스템은 이제 4차 산업 시대에서 필수적인 요소입니다. 이미지 또는 영상과 같은 콘텐츠 추천부터 시작해서, 쇼핑, 광고 노출, 검색어 노출, SNS 등등 모든 분야에서 추천이 들어가지 않는 곳이 없을 정도입니다.

심지어, 최근의 추천 알고리즘들은 소름돋게 잘 맞추는 경우가 생길 정도입니다. 유튜브의 '알 수 없는 추천 알고리즘'에 의해 연관성이 없어 보이는 영상을 보는 시청자가 꽤 상승하는 것도, 이러한 연관성이 없어 보이는 영상을 생각보다 잘 보는 시청자가 늘어나는 것도 어찌 보면, 나 자신보다 추천 알고리즘이 내 취향을 잘 아는 것 아닐까라는 생각이 들 정도입니다.

Content-based Recommenders

간단하게 말하면, 특정 아이템에 기초하여 비슷한 아이템을 추천해준다는 것입니다.

아이템끼리의 유사도를 측정합니다.
아이템의 metadata를 사용합니다.
- Ex) 장르, 감독, 묘사, 배우, etc..
만약 사용자가 특정 아이템을 선호한다고 하면, 해당 아이템과 유사한 아이템을 추천하는 방식입니다.

특징은 사람들 간을 비교하지 않고, 아이템 특성만을 비교한다는 점입니다. 사용자가 적은 초반의 추천 시스템의 경우 대부분 Content-based recommender를 사용합니다.

장단점

장점
- 다른 사용자의 영향을 받지 않는다.
- 새로운 아이템에 대해서도 추천이 가능하다.
- 추천을 설명하기 쉽다.
단점
- 새로운 유저에게 추천이 불가능하다.
- 소리, 영상, 이미지 등의 콘텐츠로부터 추천을 위한 metadate, 특징을 추출하기가 어렵다.

ML Techniques

사용되는 머신러닝 테크닉은 아래와 같습니다.

KNN Classification (nearest neighbor)
Linear Classification

콘텐츠 묘사

구조화된 콘텐츠
구조화되지 않은 콘텐츠
- Ex) keyword
- 'Bag or Words'방식 또는 'TF/IDF'방식을 사용한다. 단어의 중요성을 검토하여 사용한다.

아이템 유사도

Cosine Similarity
그 외 다른 적합한 유사도

Collaborative Filtering Recommenders

사용자 그룹이 형성되어 있고, 그들 간의 평가 점수와 선호도를 고려하여, 사용자의 예측 점수와 선호도가 결정됩니다. 한마디로, 사용자와 비슷한 다른 사용자를 찾아서 그 사용자는 어떤 평가를 했는지를 살펴보는 방식입니다.

사용자가 어느 정도 형성이 되어있고, 데이터가 존재할 때 사용 가능한 추천 알고리즘 방식입니다.

장단점

장점
- 어떠한 아이템에 대해서도 추천이 가능하다. (아이템의 특성에 의존하지 않는다.)
단점
- 평가되지 않은 아이템에 대해 추천을 하지 않는다. (new-item problem)
- 보통 가장 인기 있는 아이템을 추천한다.
- 비슷한 유저 군이 존재하는 사용자 그룹이 어느 정도 숫자 이상 필요하다. (cold start problem for new users)

작동 방식

Input
- 주어진 유저-아이템 간의 평가점수 matrix
Output
- 특정 아이템에 대한 선호도 예측 점수
- top-N 추천 리스트

두 가지 방식의 CF

User-Based Filtering
- 유저들의 평가 점수를 바탕으로, 예측하고자 하는 유저의 점수를 예측하는 방식
  
  User-based CF
- Steps
  1. 유저 간의 유사성 계산 (Pearson Correlation)
    
    Similarity Calculation
  2. 예측
- 장단점
  - 장점
    1. 구현하기 쉽다.
    2. 문맥이 독립적이다.
    3. contents-based에 비해 정확하다.
  - 단점
    1. 희소성 : 평가를 하는 사용자가 적다.
    2. 확장성 : 사용자 그룹이 커질수록 비용이 비싸다.
    3. Cold Start : 신규 사용자에게 추천이 힘들다.
Item-based Filtering
- 사용자 그룹을 사용하여, 관계를 판단하기에 CF에 포함됩니다.
- 아이템 사이에 유사성을 판단하여 예측을 합니다. (KNN Step을 건너뛴다.)
  
  Item-based CF
- User-based보다 더 좋은 성능을 보여줍니다.

Hybrid Recommender Systems

데이터와 상황에 따라 Content-based와 Collaborative filtering을 적절히 섞어서 사용하는 방식입니다.

Reference

Recommend 이미지 : Samsung Newsroom

2 Types of Collaborative Filtering : https://medium.com/@cfpinela/recommender-systems-user-based-and-item-based-collaborative-filtering-5d5f375a127f

feedback image : https://www.researchgate.net/figure/The-sequential-recommendation-process-After-the-RS-recommends-an-item-the-user-gives_fig4_311513879

~~2탄에서는 세계적인 기업들의 추천 서비스를 분석하는 포스팅을 올릴 예정입니다.~~ (포스팅 완료!)

또한, 추천 시스템 기획, 설계, 구현을 하는 프로젝트를 추후 예정하고 있습니다.

2020/01/14 - [IT/Machine Learning & Deep Learning] - 추천 시스템 (2) - 실제 시스템 분석

추천 시스템 (2) - 실제 시스템 분석

Writer : Harim Kang 추천 시스템관련 두번째 포스팅입니다. 추천 시스템의 개요와 알고리즘을 알고싶으시다면 아래의 포스팅을 봐주시길 바랍니다. 현 포스팅은 페이스북, 넷플릭스, 왓챠, 아마존 등에서 사용하..

davinci-ai.tistory.com

저작자표시 변경금지 (새창열림)

'IT > Machine Learning' 카테고리의 다른 글

머신러닝 (4) - ML 모델 생성과 훈련, 예측, 평가 (2)	2020.01.28
머신러닝 (3) - 데이터 전처리 (0)	2020.01.22
머신러닝 (2) - ML프로젝트를 위한 데이터 선택 및 준비 (0)	2020.01.21
추천 시스템 (2) - 실제 시스템 분석 (3)	2020.01.14
머신러닝 (1) - 머신러닝을 사용하는 이유와 분류 그리고 문제점 (0)	2020.01.05

DAVINCI - AI

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

추천 이란?

추천 시스템의 목적

추천 시스템의 원리

추천 알고리즘의 변화

추천 시스템의 대표적인 모델