Skip to content

feat(catalog): add load_lineage_documents() to DataHubCatalogLoader#214

Merged
seyoung4503 merged 3 commits intomasterfrom
feat/datahub-lineage
Feb 28, 2026
Merged

feat(catalog): add load_lineage_documents() to DataHubCatalogLoader#214
seyoung4503 merged 3 commits intomasterfrom
feat/datahub-lineage

Conversation

@seyoung4503
Copy link
Collaborator

#️⃣ Issue Number

  • TBD

📝 요약(Summary)

  • DataHubCatalogLoaderload_lineage_documents() 메서드를 추가하여 DataHub의 테이블·컬럼 단위
    lineage를 TextDocument로 변환한다.
  • EnrichedNL2SQLdocuments 파라미터에 전달하면 VectorRetriever가 lineage 컨텍스트를 인덱싱하여
    SQL 생성 시 참조할 수 있다.
  • 텍스트 포맷 로직은 _format_lineage() 정적 메서드로, URN별 변환은 _urn_to_lineage_document()
    분리하여 load_lineage_documents()를 단순하게 유지한다.

💬 To Reviewers (선택)

  • 사이클 안전성: lineage 그래프의 사이클 처리는 DataHubCatalogLoader에서 별도로 구현하지 않고 하위
    레이어(get_table_lineage()의 GraphQL degree 필터, min_degree_lineage()의 dict dedup,
    build_table_metadata()의 self-exclusion)에 위임합니다. 실제 DataHub 환경에서도 충분한지 확인
    부탁드립니다.
  • max_degree 기본값: 현재 2로 설정되어 있어 직접 연결(depth 1) + 1단계 확장(depth 2)까지
    포함합니다. 실제 그래프 규모에 따라 조회 시간이 길어질 수 있으므로 적절한 기본값인지 의견 부탁드립니다.
  • CatalogEntry와의 분리: lineage는 CatalogEntry에 포함하지 않고 TextDocument로 분리하여
    DataHub 없이도 CatalogEntry를 사용할 수 있도록 설계했습니다.

PR Checklist

  • 변경 사항에 대한 테스트 (실제 DataHub 연결이 필요하여 unit test 미포함 — integration test로 대체
    필요)
  • 기존 테스트 전체 통과 확인 (pytest tests/ — 145 passed, 6 skipped)
  • load_lineage_documents() docstring에 사용 예시 포함

reference) How to Code Review

  • 따봉(👍): 리뷰어가 리뷰이의 코드에서 칭찬의 의견을 남기고 싶을 때 사용합니다.
  • 느낌표(❗): 리뷰어가 리뷰이에게 필수적으로 코드 수정을 요청할 때 사용합니다.
  • 물음표 (❓): 리뷰어가 리뷰이에게 의견을 물어보고 싶을 때 사용합니다.
  • 알약 (💊): 리뷰어가 리뷰이의 코드에서 개선된 방법을 제안하지만 그것의 반영이 필수까지는 아닐 때 사용합니다.

  build_table_metadata()를 활용하여 DataHub의 upstream/downstream
  테이블 lineage와 컬럼 단위 lineage를 TextDocument로 변환한다.
  EnrichedNL2SQL의 documents 파라미터에 전달하면 VectorRetriever가
  lineage 컨텍스트를 SQL 생성 시 참조할 수 있다.

  - _urn_to_lineage_document(): URN별 변환 로직 분리
  - _format_lineage(): 자연어 텍스트 포맷 정적 메서드로 분리
  - 사이클 안전성은 하위 레이어(min_degree_lineage, degree 필터)에 위임
  - lineage 없는 테이블은 자동 제외
…rit it

  core/ports.py에 CatalogLoaderPort Protocol을 추가하고
  DataHubCatalogLoader가 이를 명시적으로 상속하도록 수정한다.
  다른 Integration(LLMPort, EmbeddingPort, DBPort 등)과 동일한 패턴을 적용한다.
@seyoung4503 seyoung4503 merged commit cc01853 into master Feb 28, 2026
1 check passed
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant