김수현은 과연 해품달의 시청률에 견인차 역할을 했을까 3 팬질

부제: 좌절과 고난, 사투와 인고의 나날들


해품달은 끝났는데, 옵화의 인기를 통계적으로 증명하기 위한 빠순의 사투..는 끝이 나지 않았다.


총체적 난국.

하하.. 하하하....하하하하하하하........

원래 해품달의 종영에 맞춰 화려하게(응?) 마무리를 할 계획이었으나, 뜻하지 않은 여러 복병으로 부득이하게 마감을 살짝 늦춰야만 했다능. 역시 한치 앞 인생도 예측할 수 없다능. 그래서 인생은 미완성이라능. (응?ㅋㅋ)

잠시, 옵화의 아리따운 자태를 감상.


클레오파트라가 연상되는 옵화의 늠름한 자태..




해품달 종방연에서 다른 연기자, 스텝 수십명과 함께 단체사진을 찍으면서 맨 앞줄 정중앙에서 저 포즈를 취할 수 있는 자신감, 독특한 정신세계, 혹은 똘끼. 도대체 저기서 저러고 있는 연유가 무언지 심히 궁금해지는 옵화의 정신상태.ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ절대로 노말하지 않아, 나의 옵화는ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ그래서인지 옵화를 가지고 모은 데이타또한 노말하지 않아ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ




웃자고 시작했던 이 포스팅은, 이제 횡설수설, 어렵고 지루하고 끝을 알 수 없는 삽질의 심연으로 무섭게 빠져들고 있는데에.. (뒷짐지고 먼산) 우선 그간 삽질의 노력들;

김수현은 과연 해품달의 시청률에 견인차 역할을 했을까
김수현은 과연 해품달의 시청률에 견인차 역할을 했을까 2





정체불명..의 랩 리포트가 되어가고 있다능..




전체적인 리서치 플랜의 큰 틀에서,

1.해품달 옵화 출연분에 따른 각종 정보를 수집 (분당 시청률 포함)
2.정보를 데이터화
3.관련 프로그램을 이용(아마 환타스틱한 SPSS를 가지고) 통계적으로 분석


말은 참 쉽다.

그치만 현실은,


1.정보수집

쉬울줄 알았다. 아니 이게 젤 그나마 만만했다. 아 그냥 노가다로 때우면 되지 않을까. 아니었다. 흑.
이것저것 의미가 있을법한 변수들을 엑셀로 정리하는 것까지는 또 그나마 쉬웠다치자, 시청률을 정리하는게 문제였다.
내가 가지고 있는 게 실시간 시청률 그래프인데 (7,8,10,11,12,13,14회만)

1)매회마다 시작하는 정확한 시각을 모르고,



2월 15일자 시청률 그래프.
예를 들어 위와 같은 자료가 있다 치더라도, 광고를 제외하고 실제 드라마가 방영되는 시각이 21:55에서 22:05분 사이일텐데 (왜냐면 보통 한회의 방송분량은 63분 정도니까), 그 시작점이 어디냐에 따라 옵화 출연시의 시청률도 완전 다르게 나온다.


2)또 이 그래프의 정확한 데이타를 모른다는 것.
어느 시청률조사기관이 누구를 대상으로 이 자료를 수집했는가를 알면, 전체 평균을 알기 쉬울텐데. 흑.

이제까지 용을 쓰며 내 나름대로 수집한 옵화 출연샘플의 시청률. 7,8,10,11,12회까지 해냈다..(!!)
근데 이 샘플을 known value (여기서는 각회의 평균 시청률)와 통계적으로 비교하려면, 그걸 알아야 하는데, 아래의 표에서 보듯, 이게 회사마다, 대상마다(전국이냐 수도권이냐)에 따라 다르고, 내가 가진 그래프에 어떤게 적용되는지 모른다.. -_-;; 젠장.
인터넷에서 떠돌아 다니는 실시간 그래프는 왜 출처및 세부사항이 없을까 ㅠㅠ




2.정보를 데이터화

당연히(!) 여기서도 문제 발생.
손꾸락이 저리도록 빠르게 재생, 느리게 재생, 되돌아 감기 버튼을 누질러 가며, 옵화가 출연하는 각 장면의 정보들을 수집하는 것까지는 어찌어찌했는데, 이걸 과연 어떻게 SPSS 친화적으로다가 변신을 시키느냐.

내가 variable로 잡은게, 장면 시작-끝 시각 / 분량 / 장소 / 장면 내용/ 함께 출연하는 연기자 / 함께 대사를 하는 연기자 / 옵화의 감정상태 / 매체 노출 빈도/ 의상 /이 정도인데, 제일 만만한 의상에 관한 자료를 가지고 시험을 해보자면,

분류화 :  곤룡포, 잠옷, 전투복1, 전투복 2, 상복, 목욕용 내복(ㅋㅋ), 진분홍 잠행복, 노랑보라 잠행복, 꽃분홍 잠행복, 전투복 3 (첫줄 왼쪽 처음부터 시계방향으로)
해서 각 분류마다 번호를 지정해 주면 되겠다.

문제는, 이렇게 간단하게 해결이 안되는 경우.
예를 들어 함께 출연하는 연기자를 보면, 장면에 따라 형선, 운, 연우, 양명, 궁녀들, 신하들, 대규모 엑스트라...까지 해당되는 항목의 개수가 천차만별.. 근데 SPSS는 이런거 좋아하지 않아 ㅠㅠ


비슷한 예로, 규칙적 운동과 행복지수와의 상관관계에 관한 설문조사를 한다치자.
(실제로 이 설문조사의 샘플링에 우리집이 당첨..되어서 엊그제 웨일즈 정부를 위해서 이 조사에 참여했더랬다ㅋㅋㅋ북흐럽게도 내가 지난 4주 동안 규칙적으로 한 운동이라곤 걷기뿐..ㅋㅋㅋㅋㅋㅋ 숨쉬기는 왜 없나효?ㅋㅋㅋㅋ)

<다음중 지난 4주의 기간동안 한번 이상 참여했던 운동을 고르세요>라는 질문에서,
답변은
1.축구 2.야구 3.농구 4.조깅 5.배드민턴 6. 수영 7.등산 8. 자전거....
이런식으로 끝도 없이 있을 수 있고,
복수로 선택한다면, 답변은 1,3,4,5,... 이런식으로 다수가 나온다.
이걸 어떻게 프로그램에 집어 넣느냐.. -_-;;
 
고민을 하다 생각해낸 방법은, 중요 인물을 뽑아서 각각 변수로 잡는것.
그러니까, 연우-1 / 형선 and or 운 (둘은 어차피 쌍으로 자주 다니니ㅋㅋ) -2 / 양명-3 / 기타 신하들-4
이런식으로 분류해서 집어 넣으면 어떨까.
동일한 방법으로 옵화의 연기 감정도. (슬픔, 분노, 인자, 초조, 그리움,...이걸 구별하는 것은 전적으로 리서처의 주관적 능력ㅋㅋㅋㅋㅋㅋㅋ뭐 어쩔수가 없응께ㅋㅋㅋㅋㅋ)

중요 변수를 별도로 써볼까 싶은 생각도 있다.
코믹, 혹은 꽁냥씬, 노출씬.. 등등이 그렇지 않은 씬에 비해서 시청률이 높다는 결과를 내심, 간절히 바라고 있다고 차마 대놓고 고백하지는 못하겠다ㅋㅋㅋㅋㅋ



마지막 단계인

3.통계분석

그러니까 이건, 내가 가진 가설이 무엇이고, 그에 따라 무슨 테스트를 적용할 것인가 하는 문젠데,
이거 사실 심각하다. ㅠㅠ

이전까지의 계획은, 무조건 t-test
그러니까 각회당 얻은 샘플들과 기준점(known value)를 비교하는, one sample t-test 를 할려고 했거덩. 이 테스트를 쓰는 대표적인 예는, 모모초등학교 선생님들의 심박수와 한국 여성의 평균 심박수와는 어떤 차이가 있느냐, 이런 주제. 그러니까 한국여성의 평균 심박수를 120 이라고 보건복지부..같은데서 공표했다치자, 그거랑 내가 샘플로 얻은 모모 초등학교 여자 선생님들 50명의 심박수와 어떤 상관관계가 있는가, 하는 걸 티 테스트로 알아볼 수 있다.

단, 이 테스트를 하려면 데이타가 normally distributed 되어있다는 가정이 필요한데,
위의 그래프는 이상적인 a graph of the Gaussian or normal.
(출처는 http://www.geography.dur.ac.uk/teaching/level1/module4/4_10/docs/4_10.html)



이걸 위해서 normality test를 실시,


7회 데이타
skewness, kurtosis가 0 에서 마이 멀고
normality test가 낮음


위의 결과들로 봤을때 노말이라고 우길(...)수 있는 근거가 아무것도 엄써 ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ
이런 제길 ㅠㅠㅠ



그래도 굴하지 않고, 혹시나 싶어서 8회도 시도





역시나 노말하다고 우기....기에는 너무나도 노말하지 못한 자료들...ㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠㅠ

아, 그만두고 싶다.
이즈음에서 우리의 스티브가 소개시켜준 통계 도우미(정확한 전공은 모름.. 아마도 은퇴한 수학자?라는 신빙성 5%의 루머가 떠도는...) 데릭에게 찾아가 암담한 미래를 논의.

nonparametric test를 해야하는데, 이제 다음의 여러 테스트 중에서 어떤 가설을 입증하기 위해서 어떤 테스트를 선택해야 하는가에 대한 기로가 펼쳐져 있으니,



그러니까 이런것

Table 37.1. Selecting a statistical test


Type of Data
Goal Measurement (from Gaussian Population) Rank, Score, or Measurement (from Non- Gaussian Population) Binomial
(Two Possible Outcomes)
Survival Time
Describe one group Mean, SD Median, interquartile range Proportion Kaplan Meier survival curve
Compare one group to a hypothetical value One-sample t test Wilcoxon test Chi-square
or
Binomial test **

Compare two unpaired groups Unpaired t test Mann-Whitney test Fisher's test
(chi-square for large samples)
Log-rank test or Mantel-Haenszel*
Compare two paired groups Paired t test Wilcoxon test McNemar's test Conditional proportional hazards regression*
Compare three or more unmatched groups One-way ANOVA Kruskal-Wallis test Chi-square test Cox proportional hazard regression**
Compare three or more matched groups Repeated-measures ANOVA Friedman test Cochrane Q** Conditional proportional hazards regression**
Quantify association between two variables Pearson correlation Spearman correlation Contingency coefficients**
Predict value from another measured variable Simple linear regression
or
Nonlinear regression
Nonparametric regression** Simple logistic regression* Cox proportional hazard regression*
Predict value from several measured or binomial variables Multiple linear regression*
or
Multiple nonlinear regression**

Multiple logistic regression* Cox proportional hazard regression*

(출처 :http://www.graphpad.com/www/book/choose.htm)




제일 처음 포스팅에서 간단하게 결과를 밝혔듯이, 데이타가 노말...하다고 우기고 그 회의 평균 시청률과, 옵화 출연분의 전체샘플(약 14개씩)을 t test로 검증해보면, 분명하게 차이가 난다고 말할 수 있다. 그치만, 이게 노말이 아니라면, 각회를 어떻게 통계적으로 분석해야 할 것인가..하는 문제가 있다. 흑흑
이 난관을 타개하는 방법은,
1.위의 각종 테스트 중에서 적절한 것을 골라 해본다
2.못 먹어도 고,.. 무조건 one sample t-test (확실하게 not normal이 아니라, 애매한 자료도 있을 수 있으니까. 그거슨 리서쳐의 재량...이라고 우길수도ㅋㅋㅋ)
3.각회 분석을 포기하고, 대신 샘플 싸이즈를 늘려서 t-test를 한다. (샘플이 많으면 가능항께)


그래서 일단 죽이 되든 밥이 되든, 계속 해보기로 했다...
하아...
멀고도 험한 통계의 길 ㅠㅠ
이 포스팅은 이제 갈길을 잃고 헤매는 <삽질하며 배우는 통계>...씨리즈가 되어 가고 있다는 슬픈 현실이..






여튼, 못 먹어도 꼬우-
일단 하던 삽질은 계속한다, 쭈-욱





우여곡절 끝에 가지고 있는, 가능한 모든 자료를 엑셀에 정리해서 집어 넣은 모습.
아....눈이 부셔... ㅠㅠㅠㅠ





그걸 다시 SPSS 친화적으로다가 이쁘게(..) 치장하고 다듬어서 마침내 85개의 샘플로 탄생한 파일!
두둥-





자, 이걸로 어떻게 지지고 볶아 먹을것인가 하는 건 다음 포스팅에.
(이 포스팅 쓰는데만 일주일을 잡아 먹....ㅠㅠㅠㅠ 다음주에 런던에 놀러가야 되능데ㅠㅠㅠ 그전에 끝내고 가야되능데ㅠㅠㅠ)



옵화가 찍었다는, 그 50억치 광고는 다 어디 있길래 아직 코빼기도 안보이는지 도통 알 수가 없다. -_-;;
그걸보면 이 최악의 컨디션에서도 힘이 솟을듯 ㅠㅠ




그치만 끝내고야 말게써!!! 


.............................................to be continued

덧글

  • 토드리 2012/03/20 23:56 # 답글

    뭐가 뭔진 잘 모르겠지만 아무튼 대단하심미다..!!! 끈기 짱짱..!!!
댓글 입력 영역