영화/드라마/예능 콘텐츠 흥행 지수는 어떻게 알 수 있을까?
24년 47주차의 주요 기록들
영화/드라마/예능 등 콘텐츠 흥행 지수는 어떻게 알 수 있을까?
과거에는 영화관은 박스오피스 랭킹, TV는 시청률 데이터를 통해 현재 어떤 콘텐츠가 가장 흥행하는지 단 번에 알 수 있었다.
하지만 어느새 OTT가 영상 콘텐츠 소비의 중심이 되며 현재 시점에 어떤 콘텐츠가 가장 흥행하는지를 통합적으로 알 수 있는 방법이 없게되었다. OTT 시청 데이터는 공개되지 않기 때문이다.
우리는 콘텐츠를 선택할 때 보고싶은 작품을 먼저 고르고 시청하기도 하지만 많은 사람들이 요즘 흥행하는 콘텐츠, 주변에서 많이 보는 콘텐츠를 자연스럽게 따라서 소비한다.
베스트셀러는 왠만해서는 실패하지 않는 가장 보편적인 콘텐츠 선택 방법 중 하나이고 일상에서 가볍게 나누는 대화의 소재가 되기 때문이다. 그래서 많은 사람들이 요즘 인기있는 콘텐츠를 궁금해한다.
이러한 고객 Needs의 관점에서 키노라이츠는 2022년도부터 '콘텐츠 통합랭킹'을 제공해왔다. 통합랭킹의 핵심은 비공개 데이터인 OTT 시청 데이터를 근사치에 가깝게 예측해내는 것이다. 그래야 공개 데이터와 결합해 공신력있는 랭킹을 산출할 수 있다.
그 동안 키노라이츠 랭킹은 여러 언론사와 방송사에 주기적으로 인용되며 공신력있는 랭킹으로 자리잡아가고 있다. 그리고 내부적으로는 금주부터 랭킹 ver2를 준비하고 있다.
랭킹 ver2를 준비하며 여러 방식으로 결과 데이터를 예측하고 시뮬레이션 해보고 있는데 이 과정이 꽤나 복잡하다. 프로세스를 간단히 정리해보면.
외부 데이터 수집
- 공개된 데이터는 공식 API를 통해 데이터 수집
- 각 플랫폼에서 제공하는 랭킹 데이터 수집
- 포털에서 조회 가능한 트렌드 데이터 수집
- 기타 데이터 수집
내부 데이터 수집
- ElasticSearch를 통해 내부 log 데이터 정제
- SQL을 통한 내부 데이터 정제
스프레드시트
- 수집된 데이터를 콘텐츠별로 매칭하고 수치화
- 여러 조건에 따라 랭킹을 산출하고 시뮬레이션
글로 서술하면 심플한데 실제로는 이 과정이 꽤나 복잡하다. 여러 데이터를 복합적으로 시뮬레이션 하기에 api, javascript, node.js, python, sql, es, 스프레드시트의 여러 함수들을 복합적으로 사용하고 있다.
요즘은 회사에서 랭킹 ver2 시스템을 기획하고 고민하고 있다.
47주차 개인 이벤트
- 옵시디언 오프라인 클래스 2기 완료
- 인영님이 진행하는 n8n 라이브 클래스 참여 (유튜브 인기영상 수집 자동화)
- 독서 - 무엇이 성과를 이끄는가 읽는중