데이터 카탈로그(Data Catalog)
데이터 카탈로그: 데이터 거버넌스의 핵심 도구
데이터 카탈로그(Data Catalog)는 기업이 보유한 데이터 자산의 메타 정보를 중앙에서 관리하는 저장소입니다. 많은 기업이 데이터 거버넌스의 첫 단계로 데이터 카탈로그를 도입하며, 필요에 따라 커스텀 기능을 추가하여 활용하기도 합니다.


데이터 카탈로그의 핵심 기능
- (반)자동화된 메타데이터 수집
- 데이터 보안 강화: 메타데이터만 수집하여 원본 데이터의 노출 위험을 줄임
- 데이터 자산의 조직적 관리:
- 비즈니스 용어 및 태그 관리
- 데이터 오너(Business & Technical) 지정
- 표준화된 문서 템플릿 제공
데이터 자산의 종류
- 데이터베이스 테이블(DB)
- 대시보드 및 BI 리포트
- 머신러닝(ML) 피처
- 데이터 파이프라인
- 문서 및 메시지(슬랙, JIRA, Github 등)
- 사용자 정보(HR 시스템)
데이터 카탈로그의 주요 기능

주요 데이터 플랫폼 지원

협업 및 관리 기능
- 비즈니스 용어집(Business Glossary)
- 권한이 있는 사용자가 용어 정의
- 계층 구조 관리 지원
- 태그 vs 비즈니스 용어 차별화
- 데이터 리니지(Lineage) 추적
- Dataset-to-Dataset (SQL 파싱)
- Pipeline 기반 리니지 (입출력 데이터셋)
- Dashboard-to-Chart 및 Chart-to-Dataset 리니지
- 검색 및 추천 시스템
- 강력한 통합 검색 (NLP 검색 포함)
- 데이터 추천 기능
- 데이터 사용자 페르소나 (예: 마케팅 분석가)
데이터 카탈로그의 비즈니스 가치
데이터 거버넌스 관점에서의 중요성
- 데이터 자산의 통합 뷰 제공
- 데이터 생산성 향상
- 데이터 요청 및 티켓 감소
- 중복 데이터 생성 방지
- 위험 요소 감소
- 잘못된 데이터 사용 및 개인정보 노출 방지
- 인프라 비용 절감
- 불필요한 데이터셋 정리
- 사용되지 않는 데이터 자산 제거
데이터 카탈로그 이후 다음 스텝
- 자동화된 데이터 거버넌스 워크플로우 추가
- 데이터 품질 관련 경보 시스템 구축
- 중요 메타데이터 변경 감지 및 알림
- 데이터 품질 이슈 발생 시 경보
- 데이터 관련 KPI 리뷰 미팅 운영
데이터 카탈로그 툴 및 트렌드
주요 데이터 카탈로그 툴 비교

대표적인 데이터 카탈로그 솔루션 소개
Atlan
- 2018년 싱가포르/인도 기반 스타트업으로 출발
- 슬로건: Modern Data Workspace (3세대 데이터 카탈로그)
- 주요 특징
- Slack, Jira, Github 등 협업 도구와 연동
- 데이터 관련 이슈를 Jira로 바로 리포팅 가능
- 오픈 API 및 플러그인 마켓플레이스를 통한 확장성
DataHub
- 2013년 LinkedIn 내부 프로젝트로 시작, 2018년 오픈소스화
- 2020년 Acryl Data에서 상용화
- 슬로건: A Metadata Platform for the Modern Data Stack
- 주요 특징
- 메타데이터를 다양한 관점에서 관리 가능
- 데이터 처리 및 품질 관리 강화
- 메타데이터 모니터링 기능 포함
Microsoft Azure Purview Data Catalog
- 2022년 4월 Azure Data Catalog에서 리브랜딩
- Purview Data Map을 기반으로 동작
- 주요 특징
- 다양한 데이터 플랫폼 지원
- 비즈니스 용어 및 태깅 기능 강화
- 데이터 거버넌스 확장 용이
'학습 주제 > DBT' 카테고리의 다른 글
| DBT에서 데이터 관리하기 (0) | 2025.02.09 |
|---|---|
| DBT Models 데모 (0) | 2025.02.09 |
| DBT(Data Build Tool)이란? (0) | 2025.02.09 |