Data

데이터 엔지니어는 데이터 애플리케이션과 사용자에게 서비스를 제공하기 위해 수명 주기 전체에 걸쳐 데이터를 관리하는 적절한 기술을 선택해야 합니다. 이번 장에서는 좋은 아키텍처에 적합한 기술을 선택하는 방법에 대해 알아보도록 하겠습니다. 적절한 데이터 기술을 선택하는 기준은 간단합니다. '그 기술이 데이터 제품과 광범위한 비즈니스에 가치를 더해줄 수 있는가? 다.  많은 사람이 아키텍처와 도구를 혼동하는데, 아키텍처는 전략적이고 도구는 전술적입니다. "우리 데이터 아키텍처는 도구 X, Y, Z다"라는 말을 종종 듣는데, 이는 아키텍처에 대한 잘못된 사고방식이라 합니다. 아키텍처는 비즈니스의 전략적 목표를 충족하는 데이터 시스템의 고수준 설계, 로드맵 및 청사진이다. 아키텍처는 무엇을 what, 왜 why ..
책 의 2장을 요약정리한 내용입니다.   이 책은 데이터 엔지니어링을 특정 데이터 기술 집합으로 보는 관점이 아닌 데이터 엔지니어가 데이터 수명 주기 관리 원칙의 관점에서 사고하는 것을 장려합니다. 이번 2장에서는 중심소재인 데이터 엔지니어링 수명 주기를 설명합니다.데이터 엔지니어링 수명 주기란?원시 데이터 요소(raw data)를 데이터 분석가, 과학자. ML 엔지니어 등이 사용할 수 있는 유용한 최종제품으로 전환하는 단계로 구성됩니다. 데이터 엔지니어링 수명 주기는 다음 5가지 단계를 거칩니다. 데이터 엔지니어링 수명 주기는 원천 시스템에서 데이터를 가져와 저장하는 것부터 시작됩니다. 이후 데이터를 변환하고, 이를 내부 사용자에게 제공하는 것을 목표로 진행됩니다.   데이터 저장은 수명 주기 전체에 ..
· Data
1. UX 리서치 범위를 활용해 방향성 잡기 발견적 리서치인가? 평가적 리서치인가? 발견적 리서치는 사내에서는 보통 ‘선행연구’*로 불리는데 디지털/논-디지털 환경에서 제품, 서비스, 비즈니스의 새로운 기회를 파악하는 조사입니다. * 바로 제품에 적용하는 것이 목적이 아닌 콘셉트를 먼저 발굴하는 프로젝트를 말합니다. 발견적 리서치는 조사의 목표 자체가 추상적입니다. 예를 들면, ‘10년 후 스마트시티 모빌리티 환경에서 나올 법한 사용 경험은 뭘까?’, ‘미래의 주방환경은 어떤 방향으로 바뀔까?’와 같은 문제에 대한 실마리를 말 그대로 ‘발견’하는 게 목표입니다. 못 발견할 수도 있지만, 최대한 의미 있는 결과를 발견하기 위해서는, 가능한 여러 방법을 동원하여 최대한 구체화된 기회를 드러내고 창의적이고 열..
· Data
개발팀과 협업하는 프로젝트를 진행하기 위해 스터디하는 내용을 블로깅해보았습니다. 데이터베이스와 DBMS 데이터베이스란? 데이터의 저장소, 데이터의 집합이다. DB에는 계층형(Hierarchical), 망형(Network), 관계형(Relational), 객체지향형(Object-Oriented), 객체관계형(Object-Relational) 등이 있습니다. 계층형 DB: 처음으로 등장한(1960년) DB의 개념으로, 각 계층은 트리(tree) 형태로 구성되어 있다. 예를 들어 사장 1명에 3명의 이사가 연결되어 있는 구조이다. 계층형 DB의 문제는 처음 구성을 완료한 후에 이를 변경하기 상당히 까다롭다. 또 다른 데이터를 찾아가는 것이 비효율적이다. 마케팅팀에서 회계팀으로 연결하려면 마케팅팀 -> 마케팅이..
· Data/AB Test
책 의 22장을 요약정리한 내용입니다. 주목해야 하는 이유 대부분의 실험 분석에서는 실험에서의 각 실험단위의 행동은 다른 실험 단위들에게 실험을 적용하는 것에 영향을 받지 않는다고 가정한다. 대부분의 실제 적용에서 그럴듯한 가정이지만, 이 가정이 실패하는 경우도 많이 있기에 22장에서는 실패하는 경우에 대해 살펴본다. 이 책에서의 대부분의 종합 대조 실험을 분석하기 위해 프레임워크인 루빈 인과 모델을 가정하여 실험하였다. 우리는 이 가정과 실패 시나리오 및 해결하기 위한 접근 방식을 학습한다. 루빈 인과 모델에서 만들어진 주요 가정은 SUTVA로(Stable Unit Treatment Value Assumption), 실험에서 각 실험 단위의 행동은 다른 실험단위에 대한 변형군 할당에 의해 영향을 받지 ..
· Data/AB Test
책 의 18장을 요약정리한 내용입니다. 주목해야 하는 이유 18장에서는 p값의 신뢰구간 계산에 가장 중요한 요소인 분산에 대해 설명한다. 분산은 실험 분석의 핵심으로, 주요 통계적 개념 (통계적 유의성, P값, 검정력 및 신뢰 구간)은 분산과 관련이 있다. 따라서 분산을 정확하게 추정하는 것뿐만 아니라 통계적 가설 검정의 민감도를 얻기 위해 분산을 줄이는 방법을 이해하는 것은 매우 중요하다. 우리는 주로 두 가지 주제에 중점을 두고 학습합니다. 여기서 두 가지 주제란 1) 분산 추정에서의 일반적인 함정(및 해결책)과 2) 민감도를 향상시키기 위해 분산을 줄이는 기법입니다. i =1, … , n 개의 독립적으로 동일하게 분포된 i.d.d. 표본을 사용해서 지표의 표본 평균 분산을 계산하기 위한 일반적인 절..
· Data/AB Test
책 의 10장을 요약정리한 내용입니다. 보완기법들의 중요성 실험을 수행할 때, 지표를 테스트하고 생성, 검증하며 더 일반적인 결과를 도출한 목적의 근거를 확립하기 위한 아이디어가 필요하기 때문에 보완기법은 중요하다. 이러한 이유로 올바른 A/B 테스트 문화를 보완하고 확대하기 위해 사용자 경험 연구, 포커스 그룹, 설문 조사, 참여자 평가 및 관찰 연구를 활용할 수 있어야 한다. 보완 기법의 사용 범위 성공적인 A/B 실험을 위해서는 엄밀하고, 주의 깊게 분석과 실험 플랫폼 및 도구를 만들어야 하는 것뿐만 아니라 다음 사항도 필요하다. • 실험을 위한 아이디어인 아이디어 퍼널(Konavi et al. 2013) • 우리가 관심 있는 효과를 측정하기 위한 검증된 지표 • 온라인 종합 대조 실험이 불가능하거..
· Data/AB Test
책 의 05장을 요약정리한 내용입니다. 속도의 중요성 속도의 중요성을 평가하기 위해 실험의 설계, 실행, 해석까지의 엔드-투-엔드 예시를 우선 살펴보겠습니다. 예시로 들기에 간단하기 때문에 실험의 많은 예시로, 사용자 인터페이스(UI)에 초점을 맞추지만, 많은 기업에서 발견한 것처럼 백엔드 측면에서도 많은 혁신이 일어나며, 속도가 매우 중요하다는 것이 밝혀졌습니다. 물론 속도가 더 빠를수록 좋지만, 노력의 투자수익률(ROI)을 단순한 속도 저하 실험 실행을 통해 계량화할 수 있어야 합니다. 종합 대조 실험의 단순하지만 강력한 기법인 속도 저하 실험 (sorcom erparmen)을 통해 아래와 같은 질문에 대한 명확한 답을 얻을 수 있습니다. 제품 성능이 얼마나 중요한가? 제품의 어느 곳에서 지연 시간을..
dunedine
'Data' 카테고리의 글 목록