언어) 03. 넷플릭스 netflix 빅데이터 (4차산업혁명의

빅 데이터 (4차 산업혁명, 생명의 언어) 3

29p

03.넷플릭스 netflix 소비자가 원하는 프로그램을 제공하기 위해 빅데이터를 이용하는 영화. TV 드라마 등 동영상 스트리밍 서비스를 제공하는 넷플릭스는 미국에서 피크타임 인터넷 트래픽의 3분의 1을 차지한다.

현재 50개국 6500만 명의 회원이 넷플릭스에서 제공하는 TV 드라마와 영화를 매일 1억 시간 이상 시청하고 있다. 이들의 시청 습관을 이해하기 위해 수백만 가입자의 정보를 수집 모니터링하고 있다.

그러나, 넷플릭스 데이터는 단지 문자 그대로 큰 데이터 만이 아니다. 넷플릭스를 진정한 빅데이터 회사로 만든 것은 최첨단 분석기법에 의한 데이터의 조합이다.빅데이터가해결할수있는문제는무엇인가?할리우드의 전설적인 영화 대본 작가 윌리엄 골드먼은 이렇게 말했다.아무도 어떤 작품이 흥행에 성공할지에 대해서는 조금도 몰라요. 지금도, 앞으로도 그럴 거예요.

인터넷이 생기기 전에, 그리고 빅데이터가 도입되기 전에 이렇게 말했다.하지만 넷플릭스는 우리가 어떤 영화를 좋아할지 정확히 예측하고 배급하는 사업을 만들었다. 그리고 그의 말이 틀렸음을 입증했다.빅데이터를 실제로 어떻게 이용할 것인가?넷플릭스의 구인광고를 보면 얼마나 진지하게 데이터를 모으고 분석하는지 충분히 안다.이들이 전문가를 찾는 분야는 개인 설정 분석/메시지 분석/콘텐츠 전송 분석/기기 분석 등 리스트가 무궁무진하다.

넷플릭스는 사업 전 영역에서 빅데이터를 사용하는데 궁극적인 목표는 고객이 어떤 콘텐츠를 재미있게 볼 것인지를 예측하는 것이다. 빅데이터 분석은 이 목적을 위해 만들어진 추천 엔진을 가동하는 연료와 같은 것.

2006년부터 시작. 넷플릭스가 아직 dvd를 우편으로 보내는 사업을 하고 있을 때였다. (스트리밍은 이듬해 시작) 넷플릭스 프라이즈 현상 공모에 백만달러의 상금을 건 상금은 고객이 예전에 본 영화에 매긴 평점을 토대로 다음에 어떤 영화를 선택할지 예측하는 데 최적의 알고리즘을 만드는 팀에게 줄 것이다.

우승 팀은 09년에 최종 발표. 그들의 아이디어는 나중에 알고리즘이 수정. 보완됐음에도 여전히 추천 엔진의 핵심 요소다.

애널리스트들은 처음에는 고객에 대한 정보부족에 시달렸다. 고객id/영화id/고객이 영화를 본 날짜와 고객이 영화에 매긴 평점. 이 네 가지만으로 분석해야 했다.그러나 스트리밍이 영화를 전달하는 기본적인 방법이 되자 고객에 대한 많은 새로운 정보를 사용할 수 있게 됐다. 이 데이터를 바탕으로 넷플릭스는 고객이 즐길 수 있는 영화를 지속적으로 공급. 고객이 가장 불만스러운 상황을 예측할 수 있는 모델을 개발했다. 이들이 제공한 영화에 만족한 고객은 기꺼이 넷플릭스를 지켜볼 것이다.

넷플릭스의 시도 중 또 다른 핵심 요소는 태그다.넷플릭스는 사람들에게 영화를 보게 하고 그 영화에 포함된 요소들을 태그화하라고 명령했다. 그렇게 함으로써 당신이 재미있게 본 영화에 부착된 태그와 비슷한 태그를 가진 다른 영화들을 추천할 수 있게 되었다.그래서 약간 로봇 같은 목소리로 당신에게 이런 특별한 제안이 오기도 한다 강한 여성이 주도하는 게 특징인, 엉뚱한 청소년 코미디 같은 분위기의 영화.

또한 이 서비스는 같은 이유로 때때로 (내 경험으로는 흔히) 내가 별을 하나 또는 두 개 단 영활을 추천하기도 한다. 이는 넷플릭스가 내린 평가의 가중치가 실제 영화에 대한 흥미보다 더 큰 의미를 가졌음을 시사한다. 실제로 넷플릭스는 우리의 시청 습관을 효과적으로 파악하기 위해 거의 8만 가지의 새로운 세부 유형을 정의했다.

최근 넷플릭스는 영화 스튜디오나 다른 네트워킹 배급사가 아닌 콘텐츠 제작자로 사업 방향을 바꿨다. 여기에서도, 그들의 전략은 확실히 데이터에 의해서 주도되었다.

넷플릭스 가입자들은 데이비드 핀처 감독. 케빈 스테이시 주연의 영화를 무척 좋아한다. 이들은 hbo나 abc 같은 TV 채널 제시보다 높은 가격에 드라마 하우스 오브 카드의 권리를 구입했다.넷플릭스는 그 드라마가 완벽한 TV 드라마 예측 모델에 적합하다고 자신했다.그래서 파일럿 프로그램을 제작하는 관례와 달리 26개의 에피소드로 구성된 두 시즌짜리 드라마를 의뢰했다. 넷플릭스의 관리 아래 진행된 드라마 제작의 모든 측면은 데이터를 기반으로 이뤄졌다. 심지어 제목 이미지에 사용된 색 배치조차 시청자를 끌기 위해 선택됐다.

넷플릭스를 개선하고 싶은 최우선 수치는 고객이 서비스를 이용해 보내는 시간이다.서비스를 많이 이용하지 않는 고객이 서비스 가입에 쓰는 돈을 아껴 가입을 취소할 수 있다는 사실을 굳이 통계학을 사용하지 않아도 알 수 있다.

이를 막기 위해 경험의 질에 영향을 미치는 다양한 요소들을 면밀히 모니터링한다.이러한 요소가 사용자의 행동에 어떠한 영향을 미치는지를 탐색하여 모델을 만든다.또, 컨텐츠의 전송 위치가 유저의 서비스 체험에 어떠한 영향을 미치는지를 알기 위해, 「위치 정보 모으기」로써, 가장 많은 가정에 최상의 서비스를 제공할 수 있는 데이터 전송 위치를 계산할 수 있다.그 결과는 무엇인가.2015년 4월 넷플릭스가 주주들에게 보낸 편지를 보면 빅 데이터 전략의 효과가 있었음을 알 수 있다.2015년 1분기 신규 이용자 490만명 증가. 이는 2014년 같은 기간 400만 명이 늘어난 것과 비교하면 큰 성과다.

넷플릭스는 이 성공의 대부분이 하우스오브카드. 오렌지 이즈 더 뉴블랙과 같은 가장 향상된 콘텐츠에 있다고 평가. 이러한 오리지널 콘텐츠가 신규 회원 확보 및 기존 고객 유지에 큰 역할을 했다.시청자가 어떤 콘텐츠를 선호할지를 예측한 넷플릭스의 능력이 성공 요인 중 가장 큰 부분을 차지할 것이 분명하다.

넷플릭스가 최우선시하는 수치칙 고객이 서비스를 이용하는 데에 소비한 시간은 어떻게 바뀌었을까?15년 1/4기 만에 회원들은 100억 시간 분량의 콘텐츠를 시청했다.어떤 데이터가 사용되었는가?추천 알고리즘이나 콘텐츠의 결정은 고객이 어떤 영화를 보고 하루 중 어느 때 영화를 볼 것인지, 그리고 영화를 선택하는 데 얼마나 많은 시간을 소비하며, 얼마나 자주 영화가 끊기는지와 (사용자에 따라나 네트워크의 한계에 따라) 별은 몇 개에 따라 결정된다.

체감 품질을 분석하기 위해 넷플릭스는 버퍼링으로 인한 지연과 영상의 질에 영향을 주는 비트레이트(초당 처리해야 하는 비트 단위 데이터 크기.용량이 클수록 화질이 좋다), 그리고 고객위치에 대한 정보수집 기술적인 세부사항은 무엇인가?넷플릭스가 제공하는 엄청난 양의 영화와 TV드라마는 아마존 웹서비스 클라우드에 호스팅.컨텐츠는, 전세계의 인터넷 서비스 프로바이더나 중앙 컴퓨터의 미러 사이트(다른 사이트와 내용은 같으면서, 인터넷상의 주소가 다른 웹 사이트)로부터 액세스 할 수 있다.

넷플릭스는 인터넷 서비스 제공업체의 비용 부담을 낮췄다. 이들이 가정에서 시청하는 사람들에게 콘텐츠를 전달하기에 앞서 넷플릭스에서 데이터를 내려받는 데 따른 비용 부담을 줄인 것이다.

2013년의 넷플릭스의 컨텐츠는, 3페타바이트를 넘었다고 한다. 이 데이터는 넷플릭스 제목 대부분을 넷플릭스 콘텐츠에 대응하는 재생장치에 의해 120가지 비디오 포맷으로 유지해야 하기 때문에 발생.

원래 넷플릭스는 오라클 데이터베이스를 사용했지만 비정형 데이터에서 더 복잡한 빅데이터 기반 분석을 할 수 있는 노스큐엘 nosql과 카산드라로 데이터베이스를 전환했다.

세계 최대 빅 데이터 이벤트 스트라타+하둡의 월드 컨퍼런스 strata+hadoop world conference 연설에서 넷플릭스의 데이터 플랫폼 팀을 이끄는 커트 브라운은 어떻게 넷플릭스 데이터 플랫폼이 진화할 수 있는지를 설명했다.

넷플릭스의 데이터 인프라는 하둡. Hive hive. 피그 pig와 같은 빅 데이터 기술과 테라테이더 teradata 및 마이크로스트레티지 microstrategy와 같은 전통적인 비즈니스 인텔리전스 도구의 결합으로 구성된다.

게다가 넷플릭스가 개발한 오픈 소스 애플리케이션 「립스틱 lipstck」와「지니genie」도 사용.넷플릭스의 모든 주요 인프라와 마찬가지로, 이 모든 것은 아마존 웹 서비스 클라우드에서 운영.이제 넷플릭스는 스트리밍 기계 학습, 사용 사례 분석을 위해 스파크를 연구하고, 자체 개발한 오픈소스 제품군의 새로운 추가 개발도 극복해야 할 문제는 무엇인가?넷플릭스에 의해서 수집된 메타데이터(시청자가 어떤 배우를 좋아하고 어떤 시간대에 텔레비전이나 영화를 보는가라고 한)의 대부분은 간단하고 간단하게 정리되는 데이터이다.하지만 넷플릭스는 어수선하고 정리되지 않은 비디오와 오디오 데이터에도 많은 유용한 정보가 들어 있다는 사실을 일찍이 발견했다.

이 정보들은 컴퓨터로 분석하기 때문에 그 가치를 나타내기 위해서는 특별한 방법이 필요했다.넷플릭스는 그 문제를 시청자를 통해 해결한다. 이들에게 돈을 주고 수천 개의 콘텐츠에 번호를 매긴 뒤 몇 시간 동안 콘텐츠를 보면서 그 안에서 찾아낸 요소마다 꼼꼼하게 태그를 달도록 한 것이다.

32페이지 안내서를 읽은 후, 시청자들은 영웅이 종교적 초월을 경험한다. ‘동느’의 강한 여성 캐릭터가 엄격한 도덕적 선택을 했다. 라는 식으로 주제와 주제 모티브를 표시했다 이 데이터를 통해 넷플릭스는 말하는 동물이 나오는 코미디나 동성애를 주제로 한 역사 드라마 같은 8만 가지 세부 유형을 구분할 수 있다.

넷플릭스는 단순히 “당신은 공포영화나 첩보물을 좋아한다”보다 더 정확하게 “당신이 어떤 영화를 좋아하는가”를 정의하고, “당신이 어떤 영화를 보고 싶은가”를 예측하는 데 이를 사용할 수 있다.

빅 데이터 (4차 산업혁명, 생명의 언어) 3

29p

03.넷플릭스 netflix 소비자가 원하는 프로그램을 제공하기 위해 빅데이터를 이용하는 영화. TV 드라마 등 동영상 스트리밍 서비스를 제공하는 넷플릭스는 미국에서 피크타임 인터넷 트래픽의 3분의 1을 차지한다.

현재 50개국 6500만 명의 회원이 넷플릭스에서 제공하는 TV 드라마와 영화를 매일 1억 시간 이상 시청하고 있다. 이들의 시청 습관을 이해하기 위해 수백만 가입자의 정보를 수집 모니터링하고 있다.

그러나, 넷플릭스 데이터는 단지 문자 그대로 큰 데이터 만이 아니다. 넷플릭스를 진정한 빅데이터 회사로 만든 것은 최첨단 분석기법에 의한 데이터의 조합이다.빅데이터가해결할수있는문제는무엇인가?할리우드의 전설적인 영화 대본 작가 윌리엄 골드먼은 이렇게 말했다.아무도 어떤 작품이 흥행에 성공할지에 대해서는 조금도 몰라요. 지금도, 앞으로도 그럴 거예요.

인터넷이 생기기 전에, 그리고 빅데이터가 도입되기 전에 이렇게 말했다.하지만 넷플릭스는 우리가 어떤 영화를 좋아할지 정확히 예측하고 배급하는 사업을 만들었다. 그리고 그의 말이 틀렸음을 입증했다.빅데이터를 실제로 어떻게 이용할 것인가?넷플릭스의 구인광고를 보면 얼마나 진지하게 데이터를 모으고 분석하는지 충분히 안다.이들이 전문가를 찾는 분야는 개인 설정 분석/메시지 분석/콘텐츠 전송 분석/기기 분석 등 리스트가 무궁무진하다.

넷플릭스는 사업 전 영역에서 빅데이터를 사용하는데 궁극적인 목표는 고객이 어떤 콘텐츠를 재미있게 볼 것인지를 예측하는 것이다. 빅데이터 분석은 이 목적을 위해 만들어진 추천 엔진을 가동하는 연료와 같은 것.

2006년부터 시작. 넷플릭스가 아직 dvd를 우편으로 보내는 사업을 하고 있을 때였다. (스트리밍은 이듬해 시작) 넷플릭스 프라이즈 현상 공모에 백만달러의 상금을 건 상금은 고객이 예전에 본 영화에 매긴 평점을 토대로 다음에 어떤 영화를 선택할지 예측하는 데 최적의 알고리즘을 만드는 팀에게 줄 것이다.

우승 팀은 09년에 최종 발표. 그들의 아이디어는 나중에 알고리즘이 수정. 보완됐음에도 여전히 추천 엔진의 핵심 요소다.

애널리스트들은 처음에는 고객에 대한 정보부족에 시달렸다. 고객id/영화id/고객이 영화를 본 날짜와 고객이 영화에 매긴 평점. 이 네 가지만으로 분석해야 했다.그러나 스트리밍이 영화를 전달하는 기본적인 방법이 되자 고객에 대한 많은 새로운 정보를 사용할 수 있게 됐다. 이 데이터를 바탕으로 넷플릭스는 고객이 즐길 수 있는 영화를 지속적으로 공급. 고객이 가장 불만스러운 상황을 예측할 수 있는 모델을 개발했다. 이들이 제공한 영화에 만족한 고객은 기꺼이 넷플릭스를 지켜볼 것이다.

넷플릭스의 시도 중 또 다른 핵심 요소는 태그다.넷플릭스는 사람들에게 영화를 보게 하고 그 영화에 포함된 요소들을 태그화하라고 명령했다. 그렇게 함으로써 당신이 재미있게 본 영화에 부착된 태그와 비슷한 태그를 가진 다른 영화들을 추천할 수 있게 되었다.그래서 약간 로봇 같은 목소리로 당신에게 이런 특별한 제안이 오기도 한다 강한 여성이 주도하는 게 특징인, 엉뚱한 청소년 코미디 같은 분위기의 영화.

또한 이 서비스는 같은 이유로 때때로 (내 경험으로는 흔히) 내가 별을 하나 또는 두 개 단 영활을 추천하기도 한다. 이는 넷플릭스가 내린 평가의 가중치가 실제 영화에 대한 흥미보다 더 큰 의미를 가졌음을 시사한다. 실제로 넷플릭스는 우리의 시청 습관을 효과적으로 파악하기 위해 거의 8만 가지의 새로운 세부 유형을 정의했다.

최근 넷플릭스는 영화 스튜디오나 다른 네트워킹 배급사가 아닌 콘텐츠 제작자로 사업 방향을 바꿨다. 여기에서도, 그들의 전략은 확실히 데이터에 의해서 주도되었다.

넷플릭스 가입자들은 데이비드 핀처 감독. 케빈 스테이시 주연의 영화를 무척 좋아한다. 이들은 hbo나 abc 같은 TV 채널 제시보다 높은 가격에 드라마 하우스 오브 카드의 권리를 구입했다.넷플릭스는 그 드라마가 완벽한 TV 드라마 예측 모델에 적합하다고 자신했다.그래서 파일럿 프로그램을 제작하는 관례와 달리 26개의 에피소드로 구성된 두 시즌짜리 드라마를 의뢰했다. 넷플릭스의 관리 아래 진행된 드라마 제작의 모든 측면은 데이터를 기반으로 이뤄졌다. 심지어 제목 이미지에 사용된 색 배치조차 시청자를 끌기 위해 선택됐다.

넷플릭스를 개선하고 싶은 최우선 수치는 고객이 서비스를 이용해 보내는 시간이다.서비스를 많이 이용하지 않는 고객이 서비스 가입에 쓰는 돈을 아껴 가입을 취소할 수 있다는 사실을 굳이 통계학을 사용하지 않아도 알 수 있다.

이를 막기 위해 경험의 질에 영향을 미치는 다양한 요소들을 면밀히 모니터링한다.이러한 요소가 사용자의 행동에 어떠한 영향을 미치는지를 탐색하여 모델을 만든다.또, 컨텐츠의 전송 위치가 유저의 서비스 체험에 어떠한 영향을 미치는지를 알기 위해, 「위치 정보 모으기」로써, 가장 많은 가정에 최상의 서비스를 제공할 수 있는 데이터 전송 위치를 계산할 수 있다.그 결과는 무엇인가.2015년 4월 넷플릭스가 주주들에게 보낸 편지를 보면 빅 데이터 전략의 효과가 있었음을 알 수 있다.2015년 1분기 신규 이용자 490만명 증가. 이는 2014년 같은 기간 400만 명이 늘어난 것과 비교하면 큰 성과다.

넷플릭스는 이 성공의 대부분이 하우스오브카드. 오렌지 이즈 더 뉴블랙과 같은 가장 향상된 콘텐츠에 있다고 평가. 이러한 오리지널 콘텐츠가 신규 회원 확보 및 기존 고객 유지에 큰 역할을 했다.시청자가 어떤 콘텐츠를 선호할지를 예측한 넷플릭스의 능력이 성공 요인 중 가장 큰 부분을 차지할 것이 분명하다.

넷플릭스가 최우선시하는 수치칙 고객이 서비스를 이용하는 데에 소비한 시간은 어떻게 바뀌었을까?15년 1/4기 만에 회원들은 100억 시간 분량의 콘텐츠를 시청했다.어떤 데이터가 사용되었는가?추천 알고리즘이나 콘텐츠의 결정은 고객이 어떤 영화를 보고 하루 중 어느 때 영화를 볼 것인지, 그리고 영화를 선택하는 데 얼마나 많은 시간을 소비하며, 얼마나 자주 영화가 끊기는지와 (사용자에 따라나 네트워크의 한계에 따라) 별은 몇 개에 따라 결정된다.

체감 품질을 분석하기 위해 넷플릭스는 버퍼링으로 인한 지연과 영상의 질에 영향을 주는 비트레이트(초당 처리해야 하는 비트 단위 데이터 크기.용량이 클수록 화질이 좋다), 그리고 고객위치에 대한 정보수집 기술적인 세부사항은 무엇인가?넷플릭스가 제공하는 엄청난 양의 영화와 TV드라마는 아마존 웹서비스 클라우드에 호스팅.컨텐츠는, 전세계의 인터넷 서비스 프로바이더나 중앙 컴퓨터의 미러 사이트(다른 사이트와 내용은 같으면서, 인터넷상의 주소가 다른 웹 사이트)로부터 액세스 할 수 있다.

넷플릭스는 인터넷 서비스 제공업체의 비용 부담을 낮췄다. 이들이 가정에서 시청하는 사람들에게 콘텐츠를 전달하기에 앞서 넷플릭스에서 데이터를 내려받는 데 따른 비용 부담을 줄인 것이다.

2013년의 넷플릭스의 컨텐츠는, 3페타바이트를 넘었다고 한다. 이 데이터는 넷플릭스 제목 대부분을 넷플릭스 콘텐츠에 대응하는 재생장치에 의해 120가지 비디오 포맷으로 유지해야 하기 때문에 발생.

원래 넷플릭스는 오라클 데이터베이스를 사용했지만 비정형 데이터에서 더 복잡한 빅데이터 기반 분석을 할 수 있는 노스큐엘 nosql과 카산드라로 데이터베이스를 전환했다.

세계 최대 빅 데이터 이벤트 스트라타+하둡의 월드 컨퍼런스 strata+hadoop world conference 연설에서 넷플릭스의 데이터 플랫폼 팀을 이끄는 커트 브라운은 어떻게 넷플릭스 데이터 플랫폼이 진화할 수 있는지를 설명했다.

넷플릭스의 데이터 인프라는 하둡. Hive hive. 피그 pig와 같은 빅 데이터 기술과 테라테이더 teradata 및 마이크로스트레티지 microstrategy와 같은 전통적인 비즈니스 인텔리전스 도구의 결합으로 구성된다.

게다가 넷플릭스가 개발한 오픈 소스 애플리케이션 「립스틱 lipstck」와「지니genie」도 사용.넷플릭스의 모든 주요 인프라와 마찬가지로, 이 모든 것은 아마존 웹 서비스 클라우드에서 운영.이제 넷플릭스는 스트리밍 기계 학습, 사용 사례 분석을 위해 스파크를 연구하고, 자체 개발한 오픈소스 제품군의 새로운 추가 개발도 극복해야 할 문제는 무엇인가?넷플릭스에 의해서 수집된 메타데이터(시청자가 어떤 배우를 좋아하고 어떤 시간대에 텔레비전이나 영화를 보는가라고 한)의 대부분은 간단하고 간단하게 정리되는 데이터이다.하지만 넷플릭스는 어수선하고 정리되지 않은 비디오와 오디오 데이터에도 많은 유용한 정보가 들어 있다는 사실을 일찍이 발견했다.

이 정보들은 컴퓨터로 분석하기 때문에 그 가치를 나타내기 위해서는 특별한 방법이 필요했다.넷플릭스는 그 문제를 시청자를 통해 해결한다. 이들에게 돈을 주고 수천 개의 콘텐츠에 번호를 매긴 뒤 몇 시간 동안 콘텐츠를 보면서 그 안에서 찾아낸 요소마다 꼼꼼하게 태그를 달도록 한 것이다.

32페이지 안내서를 읽은 후, 시청자들은 영웅이 종교적 초월을 경험한다. ‘동느’의 강한 여성 캐릭터가 엄격한 도덕적 선택을 했다. 라는 식으로 주제와 주제 모티브를 표시했다 이 데이터를 통해 넷플릭스는 말하는 동물이 나오는 코미디나 동성애를 주제로 한 역사 드라마 같은 8만 가지 세부 유형을 구분할 수 있다.

넷플릭스는 단순히 “당신은 공포영화나 첩보물을 좋아한다”보다 더 정확하게 “당신이 어떤 영화를 좋아하는가”를 정의하고, “당신이 어떤 영화를 보고 싶은가”를 예측하는 데 이를 사용할 수 있다.

error: Content is protected !!