개발팀과 협업하는 프로젝트를 진행하기 위해 스터디하는 내용을 블로깅해보았습니다.
데이터베이스와 DBMS
데이터베이스란? 데이터의 저장소, 데이터의 집합이다. DB에는 계층형(Hierarchical), 망형(Network), 관계형(Relational), 객체지향형(Object-Oriented), 객체관계형(Object-Relational) 등이 있습니다.
- 계층형 DB: 처음으로 등장한(1960년) DB의 개념으로, 각 계층은 트리(tree) 형태로 구성되어 있다. 예를 들어 사장 1명에 3명의 이사가 연결되어 있는 구조이다. 계층형 DB의 문제는 처음 구성을 완료한 후에 이를 변경하기 상당히 까다롭다. 또 다른 데이터를 찾아가는 것이 비효율적이다. 마케팅팀에서 회계팀으로 연결하려면 마케팅팀 -> 마케팅이사 -> 사장 -> 회계이사 -> 회계팀과 같은 여러 단계를 거쳐야 하기에 지금은 사용하지 않는 형태이다.
- 망형 DB: 계층형 DB의 문제점을 개선하기 위해 등장한 개념(1970년)이다. 계층형과 다르게 데이터끼리도 연결된 유연한 구조이지만, 망형 DB를 잘 활용하기 위해선 프로그래머가 모든 구조를 이해해야만 프로그램 작성이 가능하다는 단점으로 인해 계층형과 마찬가지로 지금은 거의 사용하지 않고 있다.
- 관계형 DB: 관계형 DB는 줄여서 RDB라고도 부르며, 현재 대부분의 DB가 관계형 데이터베이스의 형태로 사용되고 있다. 일반적인 RDB는 테이블, 행, 열의 정보를 구조화하는 방식으로, 관계형 DB(RDB)의 테이블(table) 최소단위로 구성되며, 이 테이블은 하나 이상의 열(column)과 행(row)으로 이루어져 있다. 모든 데이터는 처리 및 데이터 쿼리를 효율적으로 수행하기 위해 일련의 테이블에서 행과 열로 저장된다.
DBMS란? 이러한 데이터베이스를 관리하는 소프트웨어를 DBMS(Database Management System의 약자)라 합니다. 다양한 데이터가 저장된 데이터베이스는 여러 사용자 혹은 응용 프로그램에 데이터를 공유해야 하고 동시에 접근할 수 있어야 합니다. 이렇게 동시에 접근할 수 있도록 해주는 것이 DBMS의 역할입니다.
서비스 운영(애플리케이션용)용 DB와 분석용 DB를 따로 두는 경우가 일반적이지만, 조직에 따라 서비스운영 DB와 분석용 DB를 따로 두지 않는 조직도 있습니다. 그렇기에 해당 조직의 데이터팀은 데이터 플랫폼 구축에 있어 어떠한 방법이 우리 조직에 적절할 것인지 판단해보아야 합니다. ( https://zdnet.co.kr/view/?no=20210810095607 )
어플리케이션용 DB는 RDBMS(관계형 데이터베이스)와 NoSql(비관계형 데이터베이스)등이 있다. 각각의 차이점, 어떤 상황에서 사용해야 할지에 대해 알아보겠습니다.
RDBMS(관계형 데이터베이스)란?
관계형 데이터베이스는 고정된 행(row)과 열(column)로 구성된 테이블에 데이터를 저장합니다.
관계형 데이터베이스에는 핵심적인 두 가지 특징이 있습니다. 첫째 데이터가 정해진 데이터 스키마에 따라 테이블에 저장된다는 점, 둘째 데이터가 관계를 통해 여러 테이블에 분산된다는 점입니다.
좀 더 쉽게 말하자면 테이블의 구조와 데이터 타입 등을 사전에 정의해야만 하고, 테이블에 정의된 내용에 알맞은 형태의 데이터만 삽입할 수 있는 것입니다. 따라서 데이터를 정확하게 입력했다면 매우 수월하게 사용할 수 있습니다.
RDBMS의 장점
- 스키마가 명확하게 정의되어 있다
- 데이터 무결성을 보장한다.
- 각 데이터를 중복 없이 한 번만 저장한다.
RDBMS의 단점
- 유연성이 떨어져 데이터 스키마를 사전에 계획해야 하므로 추후 수정이 어렵다.
- 관계를 맺고 있어서 조인문이 많은 복잡한 쿼리가 만들어질 수 있다.
- 대체로 수직적 확장만 가능하다.
RDBMS로는 SQL언어를 사용하는 오라클(PL/SQL), SQL 서버(T- SQL), MySQL 등이 있다. RDBMS 소프트웨어의 대표적인 예시로는 Oracle, MySQL , Microsoft SQL Server 및 PostgreSQL 등이 있다.
NoSQL(비관계형 데이터베이스)이란?
NoSQL은 비관계형 데이터베이스로 SQL 즉, 관계형 데이터베이스를 제외한 나머지 유형을 말합니다. 비관계형 데이터베이스를 칭할 때 NoSQL이라고 부릅니다. 최근 웹 애플리케이션이 보다 보편화되고 복잡해지면서 NoSQL 데이터베이스의 인기가 높아졌습니다.
NoSQL 데이터베이스는 테이블 형식이 아니며, 관계형 테이블과는 다른 방식으로 데이터를 저장합니다. 데이터 유형에 따라 다양한 유형을 갖추고 있으며, 주요 유형으로는 문서, 키 값, 와이드 컬럼, 그래프 등이 있습니다. NoSQL이라고 해서 꼭 스키마가 없는 것은 아닙니다. 유연한 스키마를 제공하며, 대량의 데이터와 높은 사용자 부하에서도 손쉽게 확장할 수 있다는 점이 큰 장점입니다. 또한 데이터를 읽어올 때 스키마에 따라 데이터를 읽어 옵니다.
NoSQL의 장점
- 스키마가 없기 때문에 유연하고 언제든지 저장된 데이터를 조정하고 새로운 필드를 추가할 수 있다.
- 데이터는 애플리케이션이 필요로 하는 형식으로 저장되기 때문에 데이터를 읽어오는 속도가 빨라진다.
- 수직 및 수평 확장이 가능해서 애플리케이션이 발생시키는 모든 읽기와 쓰기 요청 처리가 가능하다.
NoSQL의 단점
- 유연성으로 인해 데이터 구조 결정을 미루게 될 수 있다.
- 데이터 중복을 계속 업데이트해야 한다.
- 데이터가 여러 컬렉션에 중복되어 있기 때문에 수정이 필요한 경우 모든 컬렉션에서 수행해야 한다.
NoSQL의 예시로는 MongoDB, Redis, DynamoDB(aws에서 제공하는 서버리스 기반 Key-Value NoSQL 데이터베이스) 등이 있습니다.
RDBMS VS NoSQL, 차이점은 무엇인가?
데이터 저장(Storage)
RDBMS의 경우 데이터를 SQL 언어를 통해 테이블에 저장합니다. 미리 작성된 스키마를 기반으로 정해진 형식에 맞게 데이터를 저장해야만 합니다.
NoSQL의 경우 key-value, document, wide-column, graph 등의 방식으로 데이터를 저장합니다.
스키마(Schema)
스키마는 데이터베이스(Database) 전체 또는 일부의 논리적인 구조를 표현하는 것으로 데이터베이스 내에서 데이터가 어떤 구조로 저장되는지를 나타냅니다.
RDBMS를 사용하려면 고정된 스키마가 필요합니다. 처리하려는 데이터 속성별로 열(column)에 대한 정보를 미리 정해야만 데이터 처리가 가능한 것입니다. 스키마는 나중에 변경할 수 있지만, 데이터베이스 전체를 수정하거나 오프라인으로 전환해야 할 수도 있기 때문에 처음에 신중하게 스키마를 정의해야 합니다.
NoSQL에서는 관계형 데이터베이스에 비해 유연하게 스키마의 형태를 관리할 수 있습니다. 행을 추가할 때 즉시 새로운 열을 추가할 수 있고, 개별 속성에 대해서 모든 열에 대한 데이터를 반드시 입력하지 않아도 됩니다.
쿼리(Query)
쿼리는 데이터베이스에 대해서 정보를 요청하는 행위입니다.
SQL 기반의 관계형 데이터베이스는 테이블의 형식과 테이블 간의 관계에 맞춰 데이터를 요청해야 합니다. 요청하는 방식이 정해져 있기 때문에 SQL 언어와 같이 구조화된 쿼리 언어를 사용하는 것입니다.
NoSQL의 쿼리는 데이터 그룹 자체를 조회하는 것에 초점을 두고 있기 때문에 구조화되지 않은 쿼리 언어로도 데이터를 요청할 수 있습니다. 이를 UnQL이라고도 부릅니다.
확장성(Scalability)
SQL 기반의 관계형 데이터베이스는 수직적으로 확장하며 높은 메모리와 CPU를 사용합니다. 데이터베이스가 구축된 하드웨어의 성능을 많이 이용하므로 비용이 비싼 편이며, 여러 개의 서버에 걸쳐서 데이터베이스의 관계를 정의할 수 있지만 매우 복잡하고 시간이 오래 걸리는 것이 단점입니다.
NoSQL로 구성된 데이터베이스는 반대로 수평적으로 확장합니다. NoSQL 데이터베이스를 위한 서버를 추가로 구축하게 되면 많은 트래픽을 편리하게 처리할 수 있다는 장점이 있습니다. SQL보다 저렴한 범용 하드웨어나 클라우드 기반의 인스턴스에 NoSQL 데이터베이스를 호스팅 할 수 있어 상대적으로 비용이 저렴한 것이 장점입니다.
RDBMS VS NoSQL, 어떤 때 어떤 데이터베이스를 사용해야 할까?
관계형 데이터베이스(RDBMS)를 사용해야 할 때
- 데이터베이스의 ACID 성질을 준수해야 하는 소프트웨어를 개발하는 경우
ACID란 Atomicity(원자성), Consistency(일관성), Isolation(격리성), Durability(지속성)의 약어로, 데이터베이스에서 실행되는 하나의 트랜잭션(Transaction)에 의한 상태의 변화를 수행하는 과정에서, 안전성을 보장하기 위해 필요한 성질을 뜻합니다. - 관계를 맺고 있는 데이터가 자주 변경되는 애플리케이션의 경우
- 변경될 여지가 없고 명확한 스키마가 사용자와 데이터에게 중요한 경우
NoSQL 데이터베이스를 사용해야 할 때
- 정확한 데이터의 구조를 알 수 없거나 변경, 확장될 가능성이 있는 경우
- 읽기는 자주 해도 데이터 변경은 자주 없는 경우
- 막대한 양의 데이터를 다뤄야 해서 데이터베이스를 수평으로 확장해야 하는 경우
참고자료
'Data' 카테고리의 다른 글
데이터 분석 방향성 (1) | 2024.02.27 |
---|