Skip to main content

19 posts tagged with "pe/database"

기술사 데이터베이스 토픽

View All Tags

공공기관 데이터베이스 표준화지침

· 3 min read

공공기관 데이터베이스 표준화지침 개념

  • 공공기관이 생성 또는 취득하여 관리하는 데이터베이스 표준화에 필요한 세부 사항을 정립한 지침
  • 데이터 품질향상, 호환성, 공공기관 간 데이터 상호운용성, 공공데이터 신뢰성, 투명성 보장

공공기관 데이터베이스 표준화지침 구성도, 구성요소, 적용방안

공공기관 데이터베이스 표준화지침 구성도

공공기관 데이터베이스 표준화지침 구성요소

구분내용비고
표준화 관리표준화 관리체계 구축, 표준 수립, 적용, 산출물 관리데이터 표준 사전 작성, 코드 표준 준수
공통 표준용어 관리공통 표준 용어 관리 원칙, 구성요소 및 관리 항목재개정시 이해관계자 협의
메타데이터 관리기관 중앙 메타데이터 관리 시스템 구축 및 운영메타데이터 표준 관리항목 등록

공공기관 데이터베이스 표준화지침 적용방안

구분내용비고
공공기관표준화 관리체계 구축, 메타데이터 등록 및 관리기관 여건에 맞는 시행 세칙 제정
행정안전부예산확보, 지원, 지침 재,개정, 공통 표준 용어 관리표준화 협의체 운영
데이터 활용지원센터표준화 정책, 제도 조사 및 연구, 기술 개발 및 지원, 홍보 교육전담 조직 구성 및 운영

표준화지침 이행시 고려사항

  • 표준화 중요성에 대한 인식 제고 및 주기적인 교육 필요

CAP, PACELC

· 3 min read

CAP 이론 개념

  • 분산시스템이 동시에 일관성, 가용성, 분할내성을 모두 만족시킬 수 없다는 이론
  • 분산시스템의 특성을 이해하고 Trade-Off를 고려하여 데이터베이스를 설계하는 원칙

CAP 이론 개념도, 구성요소

CAP 이론 개념도

CAP 이론 구성요소

구분내용비고
C + P일부 노드 장애시에도 일관성 유지MongoDB
A + P일부 노드 장애시에도 시스템은 계속 응답DynamoDB
C + A네트워크 분할이 없을시 일관성, 가용성 보장RDBMS

PACELC 이론 개념도, 구성요소

PACELC 이론 개념도

  • CAP이론을 보완하여 네트워크 분할 여부나 정상 작동 여부에 따라 지연시간과 일관성의 Trade-Off를 고려한 이론

PACELC 이론 구성요소

구분내용비고
PA/EL장애시 가용성, 정상시 지연시간 우선 고려DynamoDB, Cassandra
PA/EC장애시 가용성, 정상시 일관성 보장MongoDB
PC/EL장애시 일관성, 정상시 지연시간 우선 고려PNUT, CosmosDB
PC/EC장애시 일관성, 정상시 일관성 보장HBase

NoSQL 데이터베이스 도입시 고려사항

  • MongoDB 등 NOSQL의 오픈소스 라이센스가 SSPL로 이동함에 따라 CSP 서비스 개발시 Fork 버전 사용 등 대안 마련

샤딩, 파티셔닝

· 4 min read

샤딩, 파티셔닝 개념

  • 파티셔닝: 큰 테이블을 관리하기 쉬운 단위로 분할하는 기법
  • 샤딩: 테이블을 분리하여 다수의 물리DB서버에 분산 저장하는 기법

샤딩, 파티셔닝 구성요고, 주요 데이터베이스 분할 기법

샤딩, 파티셔닝 구성요소 비교

구분샤딩파티셔닝
목적데이터 분산저장, 고가용성, 성능데이터 관리용이, 성능
분할방법수평분할수평, 수직분할
분할관점테이블을 여러 DB로 분할하나의 DB에서 테이블 분할
관리노드샤드간 라우팅 수행용 마스터마스터노드 없음
테이블연동분할 테이블 간 조인 불가테이블 간 조인 가능

주요 데이터베이스 분할 기법

구분내용비고
Vertical 분할테이블별, 열별 분할구현 간단
Range-Based 분할하나의 기능이나 테이블이 비대해질시 행 분할예측 가능성
Key 또는 Hash 분할엔티티를 해싱하여 분할 결정균등분포 해싱함수
Directory 기반 분할파티셔닝 매커니즘을 제공하는 추상화된 서비스를 사용하여 분할샤딩 사용, 샤드키 연동

데이터베이스 분할 절차도, 세부절차

데이터베이스 분할 절차도

데이터베이스 분할 세부절자

구분내용비고
1. 분할 필요성 증가--
2. 분할 방법 결정--
3. AS-IS 성능 측정--
4. 분할 적용, 이관--
5. 어플리케이션 수정--
6. 테스트, 모니터링--

데이터베이스 분할시 고려사항

  • 수평적 확장이 핑료한 대규모 데이터 분할시 샤딩 고려
  • 특정 액세스 패턴 최적화시 파티셔닝 고려

데이터베이스 옵티마이저

· 3 min read

옵티마이저 개념

  • DBMS 내에서 SQL 쿼리 실행 계획을 분석하고 최적의 계획을 수립하는 핵심 엔진
  • 최적화된 쿼리 실행으로 시스템 자원의 효율적 사용과 응답시간 단축

옵티마이저 구성도, 구성요소, RBO, CBO

옵티마이저 구성도

옵티마이저 구성요소

구분내용비고
1. SQL Parser쿼리파싱, 구문분석, 구문트리생성문법 검사
2. Query Transformer쿼리 변환 하의 최적화 가능성 제고쿼리 재작성
3. Plan Generatorㅇ여러 가능한 실행 계획 생성조인, 인덱스 경로
4. Cost Estimator각 실행 계획 예상 비용 계산통계 저장, 참조
5. Plan Selector가장 낮은 비용 실행 계획 선택, 실행RBO, CBO 방식

RBO, CBO 비교

구분RBOCBO
최적화 기준고정된 규칙 사용실행 비용 추정
결정자인덱스 구조, 연산자, 조건 등레코드 블록 수, 평균 행 길이, 인덱스 높이, 컬럼 수 분포, 디스크 I/O
특징실행 계획 예측 용이저장된 통계 정보 활용
장점규칙 단순, 빠른 최적화더 효율적인 실행 계획 수립
단점복잡한 쿼리 최적화 어려움, 규칙 관리 필요통계 정보 부정확할시 오류 발생
  • 최신 DBMS는 CBO 방식 채택

옵티마이저 적용방안

구분방안비고
DA모델링시 인덱스 전략 설계, 파티셔닝 고려효율적 구조 설계
DBA통계정보 수립 및 갱신, 실행계획 최적화모너티링, 대응
User쵲거화된 쿼리 작성, 인덱스 힌트 사용개발단계 쿼리 최적화, EXPLAIN PLAN

옵티마이저 고려사항

  • 개발자가 쿼리에 EXPLAIN PLAN을 사용하여 분석 후 최적화된 쿼리 구현 필요

데이터베이스 튜닝

· 4 min read

데이터베이스 튜닝 개념

  • 응용프로그램, DB, 운영체제 등을 조정하여 한정된 자원으로 최적의 성능을 얻도록하는 개선 작업
  • 처리능력증대, 처리시간단축, 응답시간단축, DB로드시간단축

데이터베이스 튜닝 절차, 튜닝 기법

데이터베이스 튜닝 절차

설계단계 튜닝 기법

구분내용비고
정규화데이터 중복 제거, 함수종속성 제거무결성 확보
반정규화성능 향상을 위한 중복 허용조회 성능 개선
파티셔닝대용량 데이블 분할 관리관리효율, 조회성능
인덱스 설계데이터 접근, 스캔 경로 최적화CBO, RBO
인덱스 지정PK, FK 지정조회, 수정 성능 개선

SQL 튜닝 기법

구분내용비고
쿼리재작성불필요 연산 제거, 분리실행계획 분석
조인방식변경조인방식, 순서 변경조인 유형 고려
인덱스 활용적절한 인덱스 사용제약조건 확인
힌트 사용최적 실행 계획 제어옵티마이저 제어

힌트 개념 및 유형

힌트 개념

  • SQL문에 주석형태로 옵티마이저에게 실행계획을 지시하는 구문
  • 옵티마이저의 기본 실행 계획이 최적이 아닐 경우, 성능 개선 가능

힌트 유형

구분내용비고
Scan 힌트효율적인 데이터 접근방식 선택테이블 또는 인덱스
Join 힌트효율적인 조인 방식 선택특정 조인 방식 지정
Leading 힌트실행 계획의 조인 순서 제어조인순서 지정
Set 힌트워크로드나 특정 쿼리에 최적화된 파라미터 선택쿼리 변수 오버라이딩

데이터베이스 튜닝시 고려사항

  • 튜닝 전,후 성능 변화를 지속적으로 모니터링하고 필요시 추가 튜닝 (시스템 등) 수행

무결성

· 3 min read

무결성 개념

  • 사용자가 데이터를 변경할 때 관계, 참조 등의 무결성 제약이나 규칙에 의해 데이터의 일관성과 정확성을 유지하는 것

무결성 유형, 보장방법, 적용방안

무결성 유형

구분내용비고
개체무결성각 행을 구분하는 유일한 식별자기본키 사용
참조무결성외래키는 참조 테이블의 기본키와 일치외래키 사용
도메인무결성각 열의 값이 속성에 정의된 도메인 값데이터 형식, 범위 제한
사용자정의무결성비지니스 규칙에 따라 사용자 정의트리거, 프로시저

무결성 보장방법

구분내용비고
응용프로그램무결성 조건 코드 추가프로그램상 구현
DB 트리거Stored Procedure 활용 데이터 변경시 제약 추가복잡한 요구 구현
제약조건스키마에 제약조건 설정변경 용이, 쉬운 구현

무결성 적용방안

단계내용비고
데이터 모델링모델링시 무결성 유형 고려 정의무결성 확보 설계
데이터 설계테이블 생성시 제약조건, 트리거 설정DBMS 기능 활용
응용프로그램 개발데이터 입력, 수정, 삭제시 무결성 검사입력 데이터 검증
운영, 유지보수주기적인 데이터 값 프로파일링진단 및 조치

무결성 고려사항

  • 병행제어를 통해 트랜잭션 실패시 무결성을 위반하지 않도록 제어 필요

데이터 마이그레이션

· 4 min read

데이터 마이그레이션 개념

  • 데이터의 정확성과 무결성을 유지하면서, 기존 시스템의 데이터를 새로운 시스템으로 안전히 이전하는 과정
  • 마이그레이션 대상 데이터의 품질 확인 및 전략 수립을 위해 진단 프로파일링과 마이그레이션 이후 무결성 확인을 위해 검증 테스트 필요

데이터 마이그레이션 절차도, 세부절차, 프로파일링 기법

데이터 마이그레이션 절차도

데이터 마이그레이션 세부절차

구분내용비고
1. 계획 수립마이그레이션 범위, 목표 정의리소스 할당, 일정 계획
2. 데이터 프로파일링데이터 품질 및 구조 분석AS-IS시스템 품질 관리
3. 데이터 변환소스 데이터를 타겟 데이터 포맷으로 변환매핑 테이블 등
4. 데이터 로드변환된 데이터를 타겟 시스템으로 로드롤백 전략 수립
5. 검증 테스트마이그레이션 데이터 검증 및 테스트데이터 무결성 확인
6. 시스템 전환새 시스템으로 운영 전환사용자 교육, 모니터링

데이터 값 진단 프로파일링 기법

구분기법내용
기초 데이터 분석컬럼 속성 분석메타데이터 정합성 확인
컬럼 값 분석누락 값 분석필수 값이지만 누락 데이터 확인
-값 허용범위 분석컬럼 속성 범위 내 값 확인
-허용 값 목록 분석컬럼 허용 값 목록, 집합 확인
-문자열 패턴 분석문자열 반복시 특성 확인
-날짜 유형 분석날짜 포맷, 범위 확인
-특수 도메인 분석주민번호, ISBN 등 특정 패턴 확인
-유일값 분석유일 컬럼 중복값 확인

데이터 마이그레이션 검증테스트 절차도, 세부절차

데이터 마이그레이션 검증테스트 절차도

데이터 마이그레이션 검증테스트 세부절차

구분내용비고
1. 검증팀 구성--
2. 검증 범위 식별--
3. 데이터 검증--
4. 시스템 영향도 파악--
5. 시스템 오픈--

데이터 마이그레이션시 고려사항

  • 테이블 크기에 따라 샘플링하여 마이그레이션 필요
  • 마이그레이션 실패, 검증 실패시 롤백 시나리오 수립 필요

DQM, 데이터 품질관리

· 4 min read

데이터 품질관리 개념

  • 좆기 내 외부 정보시스템 및 이해관계자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리 및 개선활동
  • 안정성, 신뢰성, 이용편의성, 공익성 제고

데이터 품질관리 아키텍처, 대상

데이터 품질관리 아키텍처

구분데이터데이터 구조데이터관리 프로세스
CDO 개괄적관점데이터관리정책
DA 개념적관점표준 데이터개념데이터 모델데이터 표준관리, 요구사항 관리
Modeler 논리적관점몯레데이터논리데이터 모델데이터 모델관리, 데이터 흐름관리
DBA 물리적관점관리데이터물리데이터 모델데이터베이스 관리
User 운용적관점업무데이터사용자 뷰데이터 활용관리

데이터 품질관리 대상

구분내용비고
데이터조직 내 목표 달성을 위해 사용되어지는 전산화된 데이터데이터 현상값, 데이터 구조값
데이터 구조데이터를 취급하는 관점에따라 뷰, 모델, 파일, DB로 제공단계별 데이터 구조, 조직별 데이터 구조
데이터 관리 프로세스데이터, 데이터 구조, 품질을 유지하기 위한 절차, 조직, 인력데이터 정의 프로세스, 데이터 변경 프로세스

데이터 품질관리 성숙모형, 구성요소

데이터 품질관리 성숙모형

데이터 품질관리 성숙도 구성요소

구분내용비고
데이터 픔질기준데이터 품질 정의데이터 유효성, 데이터 활용성
품질관리 프로세스데이터 품질기준 향상을 위한 필요 프로세스요구사항 관리, 데이터 구조 관리, 데이터 흐름관리, DB관리, 표준 관리
품질관리 성숙수준현재 수준 파악 후 5단계 개선 모형 정의도입, 정형화, 통합화, 정량화, 최적화

데이터 품질관리 성숙 수준

도형통량최

단계구분내용
5최적화데이터 품질관리 개선 도출, 지속 적용
4정량화정량적 측정 통한 데이터 품질 관리
3통합화전사적 연계 통합 관점, 일관성 있는 품질 관리
2정형화품질관리 위한 제반 프로세스 정형화
1도입데이터 품질관리 문제점 인식, 부분적 활동

합성데이터

· 3 min read

합성데이터의 개념

  • 실제 데이터의 대체재로서 컴퓨터 시뮬레이션이나 알고리즘을 통해 생성하는 임의의 데이터
  • 모델 학습시 충분한 양의 데이터 확보, 양질의 데이터 확보, 개인정보, 저작권 등 이슈 없는 안전한 데이터 확보

합성데이터의 유형 개념도, 구성요소, 사례

합성데이터의 개념도

합성데이터 구성요소

구분내용비고
완전 합성 데이터공개하려고 하는 데이터에 측정된 실제 데이터가 없는 가상 데이터정보보호 보안성
부분 합성 데이터공개하려는 변수 중 일부만을 선택하여 합성 데이터로 대체한 데이터민감정보 대체
복합 합성 데이터일부 변수 값을 합성 데이터로 생성, 합성된 데이터와 실제 데이터를 모두 사용하여 일부 변수 값을 다시 도출하는 방법으로 생성정확성

합성데이터 사례

구분내용비고
국내자율주행용 합성 비디오데이터셋네이버 Virtual KITTI
국외이미지와 사람 수가 압도적인 군중 계수 데이터셋GTA5 Crowd Counting
-실내 장면 이해를 위한 하이퍼 리얼리즘 장면 데이터셋애플 Hypersim

합성데이터 고려사항

  • 데이터 합성시 목표대로 데이터가 만들어졌는지 검증할 수 있는 측정 기준 마련 필요

텍스트마이닝, 오피니언마이닝

· 2 min read

데이터마이닝의 개념

  • 빅데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하기 위한 분석기법

텍스트마이닝과 오피니언마이닝의 구성요소

텍스트마이닝 구성요소

구분내용비고
개념텍스트데이터에서 패턴, 정보 추출다양한 비정형데이터 처리
절차텍스트 수집 -> 텍스트 전처리 -> 특징 추출 -> 모델 구축 -> 패턴 분석데이터 전처리시 이상치 제거
주요기법표준화, 불용어제거, TF-IDFNLP, ML기법 활용
사례문서분류, 텍스트요약기업문서관리, 정보검색시스템

오피니언마이닝 구성요소

구분내용비고
개념텍스트데이터에서 감정, 의견분석긍정, 부정 분류
절차SNS데이터수집 -> 텍스트 전처리 -> 감성사전구축 -> 감정분류모델 구축 -> 결과시각화감성사전의 품질 중요
주요기법감성사전 구축, 감성분석 모델SVM, 로직스틱회귀, ML기법 활용
사례리뷰분석, SNS분석, 피드백분석마케팅, 고객전략 수립

오피니언마이닝 고려사항

  • 은어, 약어, 이모티콘 등의 비정형 표현들에 대한 추가 전처리 필요.