책 의 7장을 요약정리한 내용입니다. 3. 배치 수집 고려 사항 배치 수집은 데이터 대량 처리에 적합하며, 일정한 시간 간격이나 누적된 데이터 크기에 따라 데이터를 수집합니다.시간 간격 배치 수집: 주로 데이터 웨어하우스에서 매일 또는 일정 간격으로 데이터를 수집하여 일일 보고서와 같은 정기적인 분석을 지원하는 방식입니다.크기 기반 배치 수집: 스트리밍 데이터에서 객체 스토리지로 데이터를 전송할 때, 데이터 양에 따라 개별 블록으로 나누어 저장하는 방식입니다. 데이터 레이크 저장소에서 대용량 데이터를 효율적으로 관리하는 데 유용합니다.일반적인 배치 수집 패턴은 아래와 같습니다:스냅숏 또는 차등 추출: 원천 시스템의 전체 데이터를 캡처하거나 변경된 부분만 선택하여 효율적으로 수집합니다.파일 기반 익스포트 ..
Data
책 의 7장을 요약정리한 내용입니다. 이번 장에서는 다양한 원천 시스템에서 데이터를 수집할 때 적용되는 패턴과 선택사항을 알아보겠습니다. 데이터 수집과 수집단계의 주요 엔지니어링 고려사항, 배치 및 스트리밍 수집의 주요 패턴, 데이터 수집 파이프라인 개발 시 함께 작업할 담당자, 수집 단계에서 드러나지 않는 요소가 어떻게 기능하는지를 학습해 봅시다.1. 데이터 수집이란? 데이터 수집은 데이터를 한 장소에서 다른 장소로 옮기는 프로세스를 의미합니다. 데이터 엔지니어링 수명 주기에서 데이터는 원천 시스템에서 스토리지로 이동하며, 데이터 수집은 중간 단계에서 수행됩니다. 데이터 수집과 데이터 통합의 차이점데이터 수집은 단순히 데이터를 한 지점에서 다른 지점으로 이동하는 과정입니다.데이터 통합은 서로 다른 소..
책 의 4장을 요약정리한 내용입니다. 데이터 엔지니어는 데이터 애플리케이션과 사용자에게 서비스를 제공하기 위해 수명 주기 전체에 걸쳐 데이터를 관리하는 적절한 기술을 선택해야 합니다. 이번 장에서는 좋은 아키텍처에 적합한 기술을 선택하는 방법에 대해 알아보도록 하겠습니다. 적절한 데이터 기술을 선택하는 기준은 간단합니다. '그 기술이 데이터 제품과 광범위한 비즈니스에 가치를 더해줄 수 있는가? 다. 많은 사람이 아키텍처와 도구를 혼동하는데, 아키텍처는 전략적이고 도구는 전술적입니다. "우리 데이터 아키텍처는 도구 X, Y, Z다"라는 말을 종종 듣는데, 이는 아키텍처에 대한 잘못된 사고방식이라 합니다. 아키텍처는 비즈니스의 전략적 목표를 충족하는 데이터 시스템의 고수준 설계, 로드맵 및 청사진이다. ..
책 의 2장을 요약정리한 내용입니다. 이 책은 데이터 엔지니어링을 특정 데이터 기술 집합으로 보는 관점이 아닌 데이터 엔지니어가 데이터 수명 주기 관리 원칙의 관점에서 사고하는 것을 장려합니다. 이번 2장에서는 중심소재인 데이터 엔지니어링 수명 주기를 설명합니다.데이터 엔지니어링 수명 주기란?원시 데이터 요소(raw data)를 데이터 분석가, 과학자. ML 엔지니어 등이 사용할 수 있는 유용한 최종제품으로 전환하는 단계로 구성됩니다. 데이터 엔지니어링 수명 주기는 다음 5가지 단계를 거칩니다. 데이터 엔지니어링 수명 주기는 원천 시스템에서 데이터를 가져와 저장하는 것부터 시작됩니다. 이후 데이터를 변환하고, 이를 내부 사용자에게 제공하는 것을 목표로 진행됩니다. 데이터 저장은 수명 주기 전체에 ..
1. UX 리서치 범위를 활용해 방향성 잡기 발견적 리서치인가? 평가적 리서치인가? 발견적 리서치는 사내에서는 보통 ‘선행연구’*로 불리는데 디지털/논-디지털 환경에서 제품, 서비스, 비즈니스의 새로운 기회를 파악하는 조사입니다. * 바로 제품에 적용하는 것이 목적이 아닌 콘셉트를 먼저 발굴하는 프로젝트를 말합니다. 발견적 리서치는 조사의 목표 자체가 추상적입니다. 예를 들면, ‘10년 후 스마트시티 모빌리티 환경에서 나올 법한 사용 경험은 뭘까?’, ‘미래의 주방환경은 어떤 방향으로 바뀔까?’와 같은 문제에 대한 실마리를 말 그대로 ‘발견’하는 게 목표입니다. 못 발견할 수도 있지만, 최대한 의미 있는 결과를 발견하기 위해서는, 가능한 여러 방법을 동원하여 최대한 구체화된 기회를 드러내고 창의적이고 열..
개발팀과 협업하는 프로젝트를 진행하기 위해 스터디하는 내용을 블로깅해보았습니다. 데이터베이스와 DBMS 데이터베이스란? 데이터의 저장소, 데이터의 집합이다. DB에는 계층형(Hierarchical), 망형(Network), 관계형(Relational), 객체지향형(Object-Oriented), 객체관계형(Object-Relational) 등이 있습니다. 계층형 DB: 처음으로 등장한(1960년) DB의 개념으로, 각 계층은 트리(tree) 형태로 구성되어 있다. 예를 들어 사장 1명에 3명의 이사가 연결되어 있는 구조이다. 계층형 DB의 문제는 처음 구성을 완료한 후에 이를 변경하기 상당히 까다롭다. 또 다른 데이터를 찾아가는 것이 비효율적이다. 마케팅팀에서 회계팀으로 연결하려면 마케팅팀 -> 마케팅이..
책 의 22장을 요약정리한 내용입니다. 주목해야 하는 이유 대부분의 실험 분석에서는 실험에서의 각 실험단위의 행동은 다른 실험 단위들에게 실험을 적용하는 것에 영향을 받지 않는다고 가정한다. 대부분의 실제 적용에서 그럴듯한 가정이지만, 이 가정이 실패하는 경우도 많이 있기에 22장에서는 실패하는 경우에 대해 살펴본다. 이 책에서의 대부분의 종합 대조 실험을 분석하기 위해 프레임워크인 루빈 인과 모델을 가정하여 실험하였다. 우리는 이 가정과 실패 시나리오 및 해결하기 위한 접근 방식을 학습한다. 루빈 인과 모델에서 만들어진 주요 가정은 SUTVA로(Stable Unit Treatment Value Assumption), 실험에서 각 실험 단위의 행동은 다른 실험단위에 대한 변형군 할당에 의해 영향을 받지 ..
책 의 18장을 요약정리한 내용입니다. 주목해야 하는 이유 18장에서는 p값의 신뢰구간 계산에 가장 중요한 요소인 분산에 대해 설명한다. 분산은 실험 분석의 핵심으로, 주요 통계적 개념 (통계적 유의성, P값, 검정력 및 신뢰 구간)은 분산과 관련이 있다. 따라서 분산을 정확하게 추정하는 것뿐만 아니라 통계적 가설 검정의 민감도를 얻기 위해 분산을 줄이는 방법을 이해하는 것은 매우 중요하다. 우리는 주로 두 가지 주제에 중점을 두고 학습합니다. 여기서 두 가지 주제란 1) 분산 추정에서의 일반적인 함정(및 해결책)과 2) 민감도를 향상시키기 위해 분산을 줄이는 기법입니다. i =1, … , n 개의 독립적으로 동일하게 분포된 i.d.d. 표본을 사용해서 지표의 표본 평균 분산을 계산하기 위한 일반적인 절..