데이터 카탈로그

2025. 2. 9.·학습 주제/DBT
 

데이터 카탈로그(Data Catalog)

 

데이터 카탈로그: 데이터 거버넌스의 핵심 도구

데이터 카탈로그(Data Catalog)는 기업이 보유한 데이터 자산의 메타 정보를 중앙에서 관리하는 저장소입니다. 많은 기업이 데이터 거버넌스의 첫 단계로 데이터 카탈로그를 도입하며, 필요에 따라 커스텀 기능을 추가하여 활용하기도 합니다.

출처: https://www.uber.com/en-KR/blog/databook/

데이터 카탈로그의 핵심 기능

  • (반)자동화된 메타데이터 수집
  • 데이터 보안 강화: 메타데이터만 수집하여 원본 데이터의 노출 위험을 줄임
  • 데이터 자산의 조직적 관리:
    • 비즈니스 용어 및 태그 관리
    • 데이터 오너(Business & Technical) 지정
    • 표준화된 문서 템플릿 제공

데이터 자산의 종류

  • 데이터베이스 테이블(DB)
  • 대시보드 및 BI 리포트
  • 머신러닝(ML) 피처
  • 데이터 파이프라인
  • 문서 및 메시지(슬랙, JIRA, Github 등)
  • 사용자 정보(HR 시스템)

데이터 카탈로그의 주요 기능

출처: https://datacamp.wynisco.com/docs/concepts/dbt

주요 데이터 플랫폼 지원

협업 및 관리 기능

  • 비즈니스 용어집(Business Glossary)
    • 권한이 있는 사용자가 용어 정의
    • 계층 구조 관리 지원
    • 태그 vs 비즈니스 용어 차별화
  • 데이터 리니지(Lineage) 추적
    • Dataset-to-Dataset (SQL 파싱)
    • Pipeline 기반 리니지 (입출력 데이터셋)
    • Dashboard-to-Chart 및 Chart-to-Dataset 리니지
  • 검색 및 추천 시스템
    • 강력한 통합 검색 (NLP 검색 포함)
    • 데이터 추천 기능
    • 데이터 사용자 페르소나 (예: 마케팅 분석가)

데이터 카탈로그의 비즈니스 가치

데이터 거버넌스 관점에서의 중요성

  • 데이터 자산의 통합 뷰 제공
  • 데이터 생산성 향상
    • 데이터 요청 및 티켓 감소
    • 중복 데이터 생성 방지
  • 위험 요소 감소
    • 잘못된 데이터 사용 및 개인정보 노출 방지
  • 인프라 비용 절감
    • 불필요한 데이터셋 정리
    • 사용되지 않는 데이터 자산 제거

데이터 카탈로그 이후 다음 스텝

  • 자동화된 데이터 거버넌스 워크플로우 추가
  • 데이터 품질 관련 경보 시스템 구축
    • 중요 메타데이터 변경 감지 및 알림
    • 데이터 품질 이슈 발생 시 경보
  • 데이터 관련 KPI 리뷰 미팅 운영

데이터 카탈로그 툴 및 트렌드

주요 데이터 카탈로그 툴 비교

대표적인 데이터 카탈로그 솔루션 소개

Atlan

  • 2018년 싱가포르/인도 기반 스타트업으로 출발
  • 슬로건: Modern Data Workspace (3세대 데이터 카탈로그)
  • 주요 특징
    • Slack, Jira, Github 등 협업 도구와 연동
    • 데이터 관련 이슈를 Jira로 바로 리포팅 가능
    • 오픈 API 및 플러그인 마켓플레이스를 통한 확장성

DataHub

  • 2013년 LinkedIn 내부 프로젝트로 시작, 2018년 오픈소스화
  • 2020년 Acryl Data에서 상용화
  • 슬로건: A Metadata Platform for the Modern Data Stack
  • 주요 특징
    • 메타데이터를 다양한 관점에서 관리 가능
    • 데이터 처리 및 품질 관리 강화
    • 메타데이터 모니터링 기능 포함

Microsoft Azure Purview Data Catalog

  • 2022년 4월 Azure Data Catalog에서 리브랜딩
  • Purview Data Map을 기반으로 동작
  • 주요 특징
    • 다양한 데이터 플랫폼 지원
    • 비즈니스 용어 및 태깅 기능 강화
    • 데이터 거버넌스 확장 용이

'학습 주제 > DBT' 카테고리의 다른 글

DBT에서 데이터 관리하기  (0) 2025.02.09
DBT Models 데모  (0) 2025.02.09
DBT(Data Build Tool)이란?  (0) 2025.02.09
'학습 주제/DBT' 카테고리의 다른 글
  • DBT에서 데이터 관리하기
  • DBT Models 데모
  • DBT(Data Build Tool)이란?
굥여9
굥여9
9idryd 님의 블로그 입니다.
  • 굥여9
    문과의 개발
    굥여9
  • 전체
    오늘
    어제
    • 분류 전체보기 (114)
      • 학습 주제 (86)
        • 자료구조와 알고리즘 (8)
        • HTML & 웹크롤링 (4)
        • 데이터 시각화 (4)
        • Django & Django Rest Framew.. (11)
        • AWS 클라우드 (6)
        • SQL & 데이터 웨어하우스 (11)
        • 데이터파이프라인과 Airflow (12)
        • Docker & K8S (8)
        • DBT (4)
        • CI & CD (1)
        • 빅데이터 처리와 Spark (12)
        • Kafka & Spark Streaming (5)
        • 보안 엔지니어링 (0)
      • 구름 프로펙트 클라우드 엔지니어링 (0)
        • [Monolithic] 서비스의 기초와 설계 (0)
        • [MSA & EDA] 비동기 전환과 정합성 (0)
        • [Cloud Native] K8s 기반 인프라와 .. (0)
      • 프로그래머스 데브코스 데이터 엔지니어링 (4)
      • 개발 기록 (24)
        • 일일 (24)
        • 주간 (0)
      • 회고 (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

    • 깃허브
  • 공지사항

  • 인기 글

  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
굥여9
데이터 카탈로그
상단으로

티스토리툴바