책 <A/B 테스트(론 코하비.다이앤 탕.야 쉬 지음)>의 10장을 요약정리한 내용입니다.
보완기법들의 중요성
실험을 수행할 때, 지표를 테스트하고 생성, 검증하며 더 일반적인 결과를 도출한 목적의 근거를 확립하기 위한 아이디어가 필요하기 때문에 보완기법은 중요하다. 이러한 이유로 올바른 A/B 테스트 문화를 보완하고 확대하기 위해 사용자 경험 연구, 포커스 그룹, 설문 조사, 참여자 평가 및 관찰 연구를 활용할 수 있어야 한다.
보완 기법의 사용 범위
성공적인 A/B 실험을 위해서는 엄밀하고, 주의 깊게 분석과 실험 플랫폼 및 도구를 만들어야 하는 것뿐만 아니라 다음 사항도 필요하다.
• 실험을 위한 아이디어인 아이디어 퍼널(Konavi et al. 2013)
• 우리가 관심 있는 효과를 측정하기 위한 검증된 지표
• 온라인 종합 대조 실험이 불가능하거나 불충분할 때 가설을 뒷받침하거나 반박하는 근거
• 부가적으로, 종합 대조 실험에서 계산된 지표를 보완하는 지표
아이디어 퍼널의 경우, 사용자 경험 연구에서 사용자를 관찰하는 것처럼 가능한 모든 방법을 사용해 아이디어를 내야 한다. 구현하기 쉬운 아이디어의 경우 대조 실험을 통해 직접 테스트하는 것은 권장하지만, 구현 비용이 많이 드는 아이디어의 경우 초기 평가 및 아이디어 다듬기를 위해 보완기법을 사용해서 구현 비용을 절감할 수 있다.
보완적 기법을 사용하는 또 다른 예로서, 현실에서 측정이 어려운 요소인 사용자 만족을 가늠하기 위한 신뢰성 있는 대리 지표를 만들어야 하는 경우를 생각해 볼 수 있다. 이때 설문조사를 실행하고 자체 보고된 사용자 만족 데이터를 수집한 다음 계측된 로그 데이터를 분석해 대규모 관찰 결과와 설문조사 결과가 어떤 상관관계를 가지는지 확인할 수 있다.
10장에서는 그림 10.1에서 볼 수 있듯이 규모(사용자 수) 대 사용자당 정보의 깊이라는 두 축을 따라 논의할 것입니다. 각 축을 차례로 논의하면서 작은 스케일 방법에서 얻을 수 있는 세부 정보와 이를 다른 스케일로의 일반화라는 측면에서 두 축의 트레이드오프를 살펴보도록 하겠습니다.
로그 기반 분석
신뢰할 수 있는 A/B 실험을 실행하기 위한 한 가지 선행조건은 종합 대조 실험 평가를 위한 지표를 계산하기 위해 사용자 뷰, 행동 및 상호작용을 적절하게 측정하는 도구를 확보하는 것이다. 로그 기반 분석(소급 분석)도 마찬가지다. 이들은 다음과 같은 역할을 한다.
• 직관 확립: 지표를 정의하고 직관을 확립하기 위해 다음과 같은 질문에 대답할 수 있다.
• 세션당 사용자 또는 클릭률의 분포는 어떻게 되는가?
• 국가나 플랫폼과 같은 분류 기준에 따른 차이는 어떠한가? 이러한 분포는 시간이 지남에 따라 어떻게 변화되는가?
• 시간이 지남에 따라 사용자는 변화하는가?
이러한 직관을 확립함으로써 제품 및 시스템 기준과 분포를 파악하고 실험과 무관 하게 유기적으로 일어나고 있는 일, 실제적으로 어떤 크기의 변화가 중요한지 등을 이해할 수 있다.
• 잠재적 지표의 구체화: 직관을 확립한 후 이를 기반으로 잠재적 지표를 구체화할 수 있다. 구체화로 새로운 지표가 기존 지표와 어떤 관계를 가지는지를 파악하고 분산과 분포를 이해할 수 있다. 로그 기반 분석은 잠재적 지표가 과거 실험에서 어떻게 작동했을지 이해하는 데도 도움을 준다.
• 탐색한 데이터를 기반으로 A/B 실험 아이디어의 창출: 구매 패널의 각 단계에서 전환율을 검토해 전환율이 크게 떨어지는 단계를 찾아낼 수 있다, 세션화된 데이터를 분석하면 특정 작업 순서가 예상보다 오래 걸렸다는 것을 밝혀낼 수 있다. 이러한 문제 발견 방식을 통해 새로운 기능을 도입하거나 내 설계 변경을 도입하는 것과 같이 제품을 더 나은 상태로 만드는 방법에 대한 아이디어를 얻을 수 있다.
이런 보완적 기술을 사용해서 생성된 아이디어가 충분히 큰 규모인지, 그리고 A/B 실험을 사용해 구현하고 평가할 만한 가치가 있는지 파악할 수 있다. 예를 들어, 이메일 첨부 파일을 사용하기 쉽게 만드는 데 투자하기 전에 보낸 첨부 파일 수를 분석해 영향의 최대 범위를 가능해 볼 수 있다.
로그 기반 분석은 다양한 측면에서 A/B 실험을 보완할 수 있다. 한 가지 한계점은 이러한 분석은 오직 과거에 일어났던 일을 바탕으로만 미래에 일어날 일을 유추할 수 있다는 점이다. 예를 들어, 현재 사용량이 적기 때문에 이메일 첨부 기능에 더 이상 투자하지 않기로 결정할 수 있지만, 이러한 결과가 현재의 사용량이 적은 것은 사용하기 불편하다는 사실에서 기인했을 수 있다. 그러나 이러한 사실은 로그기반 분석에서는 잘 드러나지 않는다. 이 장의 후반부에서 논의 한 바와 같이 로그 기반 분석을 사용자 및 시장 조사와 결합하면 보다 포괄적인 결론에 도달할 수 있다.
사람의 평가
사람의 평가란 회사가 평가자를 활용해서 업무를 수행하는 것이다. 그리고 그 결과를 후속 분석에 사용한다. 이것은 검색 및 추천 시스템에서의 일반적인 평가 방법입니다. 간단한 평가방법은 'A와 B 중 어떤 것을 더 선호하는가' 또는 '이 이미지는 포르노인가?'와 같은 질문일 수 있으며, 질문은 '이 이미지에 레이블을 붙여라' 또는 '이 결과가 이 질의와 얼마나 관련성이 있는지'와 같이 점차 더 복잡해질 수 있다. 일반적으로 여러 명의 평가자가 동일한 임무를 할당받는데, 평가자 간의 결과가 일치하지 않을 수 있기 때문에 이러한 평가방법을 사용한다. 다양한 투표나 기타 의견 불일치 해결 메커니즘을 사용해서 고품질의 결과를 얻을 수 있다.
'사람의 평가'의 한 가지 한계는 평가자들이 사용자가 아니라는 것이다. 평가자들은 자신에게 할당된 작업을 대량으로 수행하지만, 사실 제품은 사용자들이 그들의 삶에서 유기적으로 이용하게 되는 것들입니다. 그렇기에 평가자들은 실제 사용자의 섬세한 맥락을 놓칠 수 있습니다. 예를 들어 많은 평가자에게 "5/3"이라는 검색어는 산술적인 질문으로 받아들여져 1.667의 결과를 내놓을 것이지만, 로고가 "5/3"인 Fifth Third Bank 근처에 사는 사용자들은 은행 정보를 찾고 있는 것일 수 있다. 이는 개인 맞춤형 추천 알고리즘을 평가하기 얼마나 어려운지를 보여주는 사례다. 그러나 이러한 한계점은 평가자들을 훈련시킴에 따라 장점으로 전환될 수 있다. 훈련된 평가자들은 사용자들이 인지 또는 탐지할 수 없는 스팸이나 다른 유해한 문제를 탐지할 수 있을 것이다. 사람의 평가는 실제 사용자로부터 수집된 데이터를 보완하기 위한 것이라 생각하는 것이 가장 좋다.
또한 A/B 실험을 평가하기 위한 추가 지표로 사람의 평가에 기반한 지표를 사용할 수 있습니다. 다시 한번 검색 순위 변경을 보도록 합시다. 평가자에게 주어진 쿼리에 대해 실험군과 대조군의 결과를 평가하도록 요청할 수 있으며, 어떤 변수가 선호되는지 확인하기 위해 평가를 종합하거나. 두 결과를 나란히 표시하는 실험을 통해 평가자에게 어느 쪽이 더 나은지 물어볼 수 있습니다. 예를 들어, 빙과 구글의 확장성 있는 사람의 평가 프로그램은 온라인 종합 대조 실험 결과와 함께 사용할 수 있을 만큼 충분히 빠르며, 해당 변화를 개시할지 여부를 결정할 수 있게 합니다. 사람의 평가 결과는 디버깅에도 유용하다. 결과를 자세히 검토해서 어떤 변화가 잘 수행되는지, 그리고 잘 수행되지 않는지 이해할 수 있다. 위의 검색 쿼리 예에서는 쿼리와 잘 매칭되지 않는 결과들을 조사함으로써 알고리즘이 해당 결과를 반환한 이유를 파악하는데 도움을 준다. 또한 사람의 평가를 로그 기반 분석과 결합해서 검색어와 관련이 깊은 결과와 관찰된 사용자 행동 간의 관련성을 이해할 수도 있다.
사용자 경험 연구
사용자 경험 연구가 다양한 방법을 사용하기는 하지만, 여기서는 소수의 사용자들이 그들이 관심 있어하는 작업을 수행하거나 현장에서 질문에 답하는 것을 심층적으로 탐구하는 영역과 관련 연구분야에 초점을 맞추고자 합니다. 이러한 유형의 연구는 일반적으로 사용자 수가 최대 수십 명 정도로 심층적이고 집약적이며, 직접적인 관찰과 시기적절한 질문으로부터 아이디어를 창출하고 문제를 발견하며 통찰력을 얻는 데 유용합니다. 예를 들어, 웹사이트가 무언가를 판매하려고 하는 경우 구매를 완료하려는 사용자를 관찰할 수 있으며, 사용자가 어려움을 겪는 위치를 관찰해 지표에 대한 아이디어를 얻을 수 있다.
사용자의 경험을 연구하는데 필요한 질문으로는 구매에 시간이 오래 걸리는지 관찰하고 있는가? 사용자들이 쿠폰 코드를 찾기 위해 힘들어하는가? 등이 있습니다. 이러한 질문 유형의 실험 현장과 실험실 연구에는 다음이 포함될 수 있다.
• 계측기에서 수집할 수 없는 시선 추적 데이터를 수집하기 위한 특수 장비
• 사용자가 오랜 기간 자신의 행동을 기록한 기록 연구는 온라인 계측기가 하는 것과 유 사한 데이터 수집에는 유용하지만, 사용자의 의도나 오프라인 활동과 같이 계측을 통해 수집할 수 없는 데이터가 더해진다.
이러한 기법은 '진정한' 사용자 의도와 계측을 통해 관찰되는 것의 상관관계를 기초로 하는 지표 개발에 유용할 수 있습니다. 물론 이러한 기법을 사용할 때는 관측 분석 및 중합 대조 실험과 같이 더 많은 사용자에게 적용 가능한 방법을 사용해서 이러한 아이디어를 검증해야 합니다.
포커스 그룹
포커스 그룹은 실험자의 지침에 따른 모집된 사용자 또는 잠재적 사용자들 간의 그룹 논의이다.
포커스 그룹은 UER 연구보다 확장성이 뛰어나며 제품 개발과 가설의 방향을 설정할 수 있는 모호하면서도 답이 정해지지 않은 질문을 비슷한 정도의 수준으로 다룰 수 있다. 그러나 그룹 성격과 토론 형식을 고려할 때 포커스 그룹은 UER 연구에서보다 더 적은 영역을 다루기에 집단의 편견이나 소수의견에 빠질 우려가 있다. 고객이 포커스 그룹이나 설문 조사에서 하는 말은 그들의 진짜 생각과 다를 수 있다는 점을 유의해야 한다는 뜻입니다.
이러한 현상의 잘 알려진 예시는 필립스 일렉트로닉스가 10대들의 휴대용 카세트 라디오 기능에 대한 선호도를 파악하기 위해 포커스 그룹을 운영했을 때 일어났다. 포커스 그룹 참석자들은 포커스 그룹 기간 중 노란색을 매우 선호했으며 검은색을 진부한 것으로 얘기했으나 실제로 참석자들이 방에서 나와 참여에 대한 보상으로 라디오를 집으로 가져갈 기회가 주어졌을 때 대부분은 검은색(Cros, DNI 2005)을 선택했습니다.
포커스 그룹은 추후 실험을 위한 설제 초기 단계의 잘못 설정된 가설에 대한 피드백을 얻거나 또는 종종 브랜딩이나 마케팅 변화를 위해 근본적인 감정 반응을 이해하려고 노력하는 데 유용하다. 포커스 그룹의 목표는 측정장비를 통해 측정할 수 없는 정보를 수집하고 설계 과정에 도움이 되도록 아직 완전하게 구원되지 않은 변경사항에 대한 피드백을 얻는 것이다.
설문조사
설문 조사를 실행하기 위해 일련의 질문에 답할 사람들을 모집하고, 질문의 종류에 따라 질문의 수도 변경하며 진행합니다.
객관식 답안이나 자유롭게 답변을 하는 개방형 질문을 할 수도 있습니다. 이러한 작업은 전화, 온라인에서 직접 사용자에게 접근해 그룹을 타깃팅할 수 있는 앱이나 사이트로 진행하는등 그 밖의 다른 여러 방법으로 수행할 수도 있습니다.
또한 제품 내에서 설문조사를 실행할 수 있으며, 잠재적으로 종합 대조 실험과 결합할 수 있습니다.
설문조사는 단순해 보일 수 있지만, 실제로 이를 설계하고 분석하는 것은 상당히 어렵습니다. 아래와 같은 점을 유의해야하기 때문입니다.
• 질문이 잘못 해석되거나 의도치 않게 응답자가 특정 답변을 선택하도록 하거나 다듬어지지 않은 답변을 만들지 않도록 설문지를 주의 깊게 작성해야 한다. 질문 순서는 응답자의 대답을 바꿀 수 있습니다. 그리고 서로 다른 시간의 데이터를 얻으려면 이를 잘 반영해 설문지가 작성 됐는지에 대해서도 주의해야 한다.
• 답변의 자체 보고: 사용자는 익명의 설문조사일지라도 완전히 진실된 답변을 하지 않을 수 있습니다.
• 모집단은 쉽게 편향될 수 있으며 실제 사용자집단을 대표하지 못할 수 있다. 이는 사용자 응답이 편향될 수 있다는 응답 불균형에 의해 더 악화될 수 있다.
이러한 함정은 설문조사가 계측장비에서 관찰된 결과와 직접적으로 비교하는 것이 거의 불가능함을 의미한다. 설문조사는 UER 또는 포커스 그룹보다 더 많은 수의 사용자에게 도달하기 위해 사용할 수 있지만, 주로 사용자의 오프라인 활동 또는 신뢰와 만족도 수준과 같이 계측된 데이터에서 관찰할 수 없는 질문에 대한 답변을 얻는 데서만 유용하다.
설문조사는 신뢰나 평판과 같이 직접 측정할 수 없는 문제에 대한 추세를 관찰하는 데 유용하며, 때로는 전체적인 사용량이나 성장과 같은 고도로 집적된 비즈니스 지표의 추이와 상관관계를 보는 데 사용된다. 이 상관관계는 사용자 신뢰도를 향상하는 방법과 같은 일반적인 영역에 대한 투자를 촉진할 수 있지만 반드시 특정 아이디어를 창출하는 것은 아니다. 만약 특정 영역을 지정한다면 아이디어를 얻기 위해 타깃팅이 된 UER을 사용해 볼 수 있습니다.
외부 데이터
외부 데이터는 회사의 외부에서 수집되고 분석된 데이터이다. 외부 데이터의 출처는 다음과 같습니다.
• 모든 온라인 행동 추적에 동의한 대규모 사용자 패널을 모집해서 수집한 데이터를 바탕으로 사이트별 세분화된 데이터를 제공하는 기업. (한 가지 질문은 이러한 사용자들의 대표성에 관한 것인데, 이들이 인구통계학적 비율을 맞춰 신정이 됐다 하더라도 그 외의 요소에서 실제 사용자와의 차이점이 있을 수 있다는 것이다.)
• 로그 기반 데이터와 결합이 가능한 사용자 세그먼트와 같이 사용자별 세분화된 데이터를 제공하는 기업
• 직접 공표하거나 맞춤형 설문으로 쓸 수 있게 만든 실문조사와 설문지를 운영하는 기업.
외부 데이터는 사이트 또는 산업이 이러한 목록 중 하나에 해당할 경우 간단한 비즈니스 지표를 검증하는 데 도움이 될 수 있습다. 예를 들어, 만약 당신이 당신의 사이트에 온 총 방문객들을 보고 싶다면 내부 관찰 분석으로부터 계산된 숫자와 컴스코어 comscore 또는 히트와이즈 HItwise가 제공한 숫자와 비교하거나, 각 카테고리별 쇼핑 트래픽의 비율과 자사의 사이트에서 관찰하고 있는 값을 비교할 수 있다. 이 숫자들이 정확히 일치하는 경우는 드물다.
검증을 수행하는 더 좋은 방법은 내부 및 외부 데이터의 시계열을 검토해 시계열이 추세 또는 계절 변동성 측면에서 일관성이 있는지를 확인하는 것이다.
직접 측정할 수 있는 값 또는 측정이 어려운 값의 경우 이를 대신한 측정 가능한 지표에 대한 아이디어를 얻는 것을 도움으로써, 비즈니스 지표에 대한 근거 자료 또한 제공할 수 있다.
외부 데이터는 증거의 계층에도 추가될 수 있다. 예를 들어, 기업은 자체적으로 온라인 중합 대조 실험을 실행할 필요 없이 마이크로소프트, 구글 등의 공개된 작업을 사용해서 지연 시간과 성능이 중요하다는 것을 확인할 수 있다.
기업들은 자기 제품의 특징적인 요소들을 이해하기 위해서 실험을 수행해야 할 수도 있지만, 그러한 자원이 없는 작은 회사의 경우 외부 데이터에 기초해 일반적인 방향과 투자를 수행할 수 있다. 또한 외부 데이터를 당신의 회사와 경쟁업체를 비교해서 연구를 수행할 수도 있으며, 이는 회사 내부 비즈니스 지표에 대한 목표를 제공하고 달성하는 것에 대한 감각을 제공할 수 있다.
한 가지 주의할 점은 표본추출이나 실제 분석이 어떻게 수행됐는지에 대해 정확히 알 수 없기 때문에 절대적인 수치를 보기보다 추세, 상관관계, 지표 개발 검증 등에 활용하는 것이 좋다.
종합
사용자에 대한 데이터를 수집하는 여러 가지 방법 중 어떤 것을 사용해야 할까? 크게 보자면 이는 목표에 따라 다르다.
특정 사용자 환경을 측정하는 방법을 찾는가? 지표를 검증할 것인가?와 같 어떤 지표들을 수집해야 할지 모르는 경우, UER 연구 또는 포커스 그룹과 같이 보다 상세하고 질적이며 새로운 아이디어를 얻을 수 있는 유형을 사용하는 것이 좋다. 만약 당신의 사이트에서 상호작용이 없기 때문에 데이터를 얻을 방법이 없다면, 설문조사를 고려해 볼 수 있다. 지표를 검증하기 위해서는 외부 데이터와 관찰 분석이 좋은데, 이는 데이터가 충분히 큰 모집단에서 수집되기 때문에 표본추출 편향이나 기타 측정 문제가 적기 때문이다.
이 모든 기술은 서로 다른 장단점을 갖고 있다. 일단 얼마나 많은 사람으로부터 데이티를 수집할 수 있는지 고려해야 한다. 이 점은 결과의 일반성에 영향을 미친다. 즉, 외부적 타당성을 확보할 수 있는가 하는 것이다. 사용자 수는 종종 어떤 유형의 세부 정보를 얻을 수 있는지에 대한 절충점이다.
예를 들어, 로그는 일반적으로 충분한 수의 사용자 행동을 보여주지만 왜 그들에 UER 필드 연구에서 얻을 수 있는 특정한 행동을 하는지에 대해 알려 주진 않는다. 시험할 아이디어가 너무 많은 초기에는 포커스 그룹이나 사용자 경험 연구 같은 보다 질적인 방법이 더 합리적일 수 있다. 그 후 양적 데이터를 확보하게 되면 관찰 연구와 실험을 사용하는 것이 좋다.
마지막으로, 보다 정확한 측정을 위한 여러 방법을 사용해 증거의 계층을 확립함으로써, 더욱 강건한 결과를 도출할 수 있다. 다른 방법의 결과를 완전히 복제할 수 있는 방법은 없으므로 여러 방법을 사용해서 다양한 답을 얻을 수 있다.
예를 들어 사용자가 개인화된 추천에 만족하는지 여부를 확인하려면, '만족'을 먼저 정의해야 한다. 이를 위해 UER 연구에서 사용자가 개인화된 추천을 사용하는지 확인하고, 그들에게 추천 상품이 유용한지 여부를 질문할 수 있다. 그 피드백에 기초해서, 당신은 그 사용자들에 대해 관찰된 데이터를 분석하고, 화면을 더 오래 읽는다거나 특정한 클릭 주문과 같은 행동의 시그널을 포착할 수 있다. 그런 다음 대규모 관찰 분석을 수행해 소규모 UER 연구에서 착안한 지표 아이디어를 검증하고, 전체 비즈니스 지표들과의 상호작용을 확인한 다음, 추천에 만족하는지에 대한 간단한 온라인 설문조사를 통해 증거를 뒷받침할 수 있다. 추천방식을 학습하는 실험과 함께 이 작업을 수행하면 사용자 만족도 지표가 전체 비즈니스 지표와 어떻게 관련되는지 더 잘 이해하고 OEC를 개선할 수 있다.
퀴즈 1. 시험할 아이디어가 너무 많을 경우 관찰 연구와 같은 양적인 방법을 사용하는 것이 더 합리적이다. (Y / N)
퀴즈 2. 로그기반 분석은 A/B 실험의 다양한 측면을 보완해 줄 수 있다. (Y / N)
'Data > AB Test' 카테고리의 다른 글
실험 간의 누출 및 간섭 (0) | 2023.09.25 |
---|---|
분산 추정 및 민감도 개선: 함정 및 해결 (0) | 2023.09.03 |
[A/B 테스트] 05. 속도의 중요성: 엔드-투-엔드 사례 연구 (1) | 2023.07.25 |
[A/B 테스트] 02. 실험의 실행과 분석 - 엔드 - 투 - 엔드 예제 (0) | 2023.07.04 |