본문으로 건너뛰기

텍스트마이닝, 오피니언마이닝

· 약 2분

데이터마이닝의 개념

  • 빅데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하기 위한 분석기법

텍스트마이닝과 오피니언마이닝의 구성요소

텍스트마이닝 구성요소

구분내용비고
개념텍스트데이터에서 패턴, 정보 추출다양한 비정형데이터 처리
절차텍스트 수집 -> 텍스트 전처리 -> 특징 추출 -> 모델 구축 -> 패턴 분석데이터 전처리시 이상치 제거
주요기법표준화, 불용어제거, TF-IDFNLP, ML기법 활용
사례문서분류, 텍스트요약기업문서관리, 정보검색시스템

오피니언마이닝 구성요소

구분내용비고
개념텍스트데이터에서 감정, 의견분석긍정, 부정 분류
절차SNS데이터수집 -> 텍스트 전처리 -> 감성사전구축 -> 감정분류모델 구축 -> 결과시각화감성사전의 품질 중요
주요기법감성사전 구축, 감성분석 모델SVM, 로직스틱회귀, ML기법 활용
사례리뷰분석, SNS분석, 피드백분석마케팅, 고객전략 수립

오피니언마이닝 고려사항

  • 은어, 약어, 이모티콘 등의 비정형 표현들에 대한 추가 전처리 필요.

데이터베이스 트랜잭션

· 약 3분

데이터베이스 트랜잭션의 개념

  • 데이터의 정확환 일관성과 무결성을 보장하기 위해 완전히 종료해야하는 데이터베이스 처리의 논리적 작업 단위

데이터베이스 트랜잭션의 특징, 상태전이도, 종료기법

데이터베이스 트랜잭션의 특징

구분내용보장기법
원자성연산전체가 처리되거나 처리되지 않아야함Commit, Rollback
일관성트랜잭션 성공 후 일관된 데이터베이스 상태 유지무결성 제약조건, 동시성 제어
고립성트랜잭션 실행 중 다른 트랜잭션 접근 불가Isolation Level, Locking, 분산 트랜잭션
지속성성공된 트랜잭션은 어떤 고장에도 손실되지 않고 영속 저장회복기법, 회복컴포넌트 관리
  • 트랜잭션 특징에 따라 트랜잭션 상태 변경

데이터베이스 트랜잭션 상태전이도

  • 트랜잭션이 정상적으로 상태 전이되어 작업을 수행하기 위해 ACID와 직렬성 보장 필요

데이터베이스 트랜잭션 종료기법

구분기법내용
명시적 처리Commit변경 내용을 디스크에 영구 저장, 일관적 상태
-Rollback중지 또는 철최하고 갱신 작업취소, 비일관적 상태
묵시적 처리정상종료Commit과 동일하나 새 트랜잭션 다시 시작 안함
-비정상종료Rollback과 동일하나 프로그램 종료

분산DB 트랜잭션 고려사항

  • BASE 특성에 중점을 두어 트랜잭션 구현 및 관리 필요

병행제어

· 약 3분

병행제어의 개념

  • 다수의 트랜잭션이 동일한 데이터에 동시에 접근하고자할 때, 각 트랜잭션이 독립적으로 수행된 결과를 보장하는 기법
  • 갱신손실, 연쇄복귀, 모순성 제거, 무결성 일관성 보장

병행제어 미수행시 문제점과 해결기법

병행제어 미수행시 문제점

문제내용비고
갱실분실트랜잭션의 동일 데이터 동시 갱신시 발생고립성 위배
불일치다중 사용자 트랜잭션들이 동시 실행시 모순된 결과 반환일관성, 고립성 위배
연쇄복귀한 트랜잭션이 실패 후 롤백될 때 다른 트랜잭션 처리 취소 불가일관성, 원자성 위배

병행제어 해결기법

구분내용비고
Locking트랜잭션 사용 자원에 대해 상호배제 기능 제공DB락, Table락, Row락, Column락
2PL모든 트랜잭션의 lock과 unlock 연산을 확장, 수축단계로 구분하여 수행직렬가능성 보장, 교착상태 예방필요
Timestamp트랜잭션 입력시 Timestamp 시간 순으로 직렬화직렬가능성 보장, 교착상태 방지
낙관적 기법트랜잭션 수행시 미검사, 트랜잭션 종료 전 위반 검사Read, Validate, Write 단계
다중버전 병행제어여러 버전 저장 후 일관성이 보장된 트랜잭션 선택동시성 우수, I/O오버헤드 증가

병행제어 고려사항

  • 분산 데이터베이스 시스템의 경우, NW 지연, 노드 장애 등 문제 발생을 대비하기 위해 2PL 기법 사용

NoSQL

· 약 3분

NoSQL의 개념

  • 전통적인 RDBMS의 한계 극복을 위해 비정형 데이터를 다양한 형태로 저장하고 유연한 데이터 모델을 제공하는 데이터베이스
  • 대규모 데이터 R/W 처리 한계 극복, 클라우드 분산 환경 확장성 한계 극복, 스키마 유연성

NoSQL의 BASE특성, 유형

NoSQL의 BASE 특성

구분내용비고
Basically Available시스템 장애에도 부분적으로 데이터 접근 가능모든 요청 응답, 가용성 중시
Soft State데이터 일관성이 즉시 보장되지 않음최종적 일관성
Eventual Consistency모든 복제물이 결국에는 동일한 상태로 수렴일관성 완화

NoSQL의 유형

구분내용비고
Key-Value키와 값의 간단한 쌍으로 저장, 빠른 조회 가능Redis, DynamoDB
Column Family열 기반 데이터 저장, 유연한 스키마Cassandra, HBase
DocumentJSON 문서 형식으로 저장, 빠른 조회 가능MongoDB, CouchDB
Graph노드와 간선으로 구성된 그래프 형식의 데이터베이스Neo4j

NoSQL의 CAP 이론, 유형

CAP 이론

구성내용
Consistency모든 사용자는 항상 동시에 같은 데이터 조회
Availability모든 요청이 장애시에도 동작
Partition Tolerance물리적 분할에도 시스템 동작
  • CAP 중 2가지만 만족 가능

CAP 유형

구분내용비고
C + P네트워크 분할시에도 일관성을 보장, 가용성 일부 희생HBase, MongoDB
A + P네트워크 분할시에도 가용성을 보장, 일관성 일부 희생CouchDB, DynamoDB
C + A네트워크 분할 발생하지 않는 상황에서 일관성과 가용성 모듀 우지RDBMS

NoSQL 모델링시 고려사항

  • 비정형 데이터를 저장해야하므로 도메인 모델링 후 쿼리 결과를 정의한 뒤 저장할 테이블 모델을 설계해야함.

데이터 시각화

· 약 3분

데이터 시각화의 개념

  • 정보의 효과적인 전달을 위해 차트, 그래프, 지도 등 시각적 요소를 활용하여 숨겨진 패턴이나 인사이트를 발견하는 프로세스
  • 시각적 비교, 인과관계 제시, 의사결정 지원

데이터 시각화의 개념도, 세부유형, 적용방안

데이터 시각화의 개념도

데이터 시각화 세부유형

구분내용비고
시간시각화시간에 따른 데이터 변화량막대, 꺾은선
분포시각화최소, 최대, 평균, 기존항목 비교파이, 도넛, 트리맵
관계시각화변수의 상관관계를 토대로 타 변수 분석스케터, 버블, 히스토그램
비교시각화여러 변수 간 비교, 차이 분석히트맵, 스타차트
공간시각화지역 특성, 현황 표현지도 매핑

데이터 시각화 적용방안

구분내용비고
시스템성능 모니터링시스템자원사용량, 응답시간 등병목파악, 스케일업, 튜닝
보안 관제침입시도, 악성코드 유포 시각화위험요소 조기탐지, 대응
서비스 이용현황사용자 행동패턴, 이용량 시각화개선 전략, 마케팅 전략

데이터 시각화 고려사항

  • 시각화를 통해 얻고자하는 정보에 대한 목표를 명확히 정의하여, 효과적 정보 전달과 리소스 비용 절감.

빅데이터 분석

· 약 3분

빅데이터 분석의 개념

  • 대량의 정형, 비정형 데이터를 분석하여 의미있는 정보와 패턴을 추출하고, 의사결정에 활용하는 과정

상관관계, 인과관계의 개념도, 구성요소, 적용방안

상관관계, 인과관계 개념도

  • 인과관계: 독립변인이 종속변인에 영향을 미치는지 둘 간의 관계성 분석
  • 상관관계: 서열척도, 비율척도, 등간척도로 측정된 변수 간 관련성 분석

상관관계, 인과관계 구성요소

구분상관관계인과관계
분석목적파생, 의존관계 분석원인, 결과 관계 분석
분석방법상관분석, 회귀분석, 산점도인과실험, 회귀분석
특징양, 음, 무상관 관계인과성, 시간적 선후관계
관계상호의존성, 상호관계성원인과 결과
  • 상관관계는 인과관계의 필요조건이나 충분조건은 아님

상관관계, 인과관계 적용방안

구분상관관계인과관계
개발코드복잡도와 버그발생률새 방법론 도입 효과
-개발기간과 기능완성도코드리뷰 효과
디자인UI/UX 사용자 만족도와 디자인UI/UX 개선 효과
-페이지 레이아웃과 CTR디자인요소 변경 효과
마케팅캠페인 유형과 매출마케팅 캠페인 효과
-SNS활동과 브랜드 인지도가격 할인 효과

데이터 거버넌스

· 약 3분

데이터 거버넌스의 개념

  • 데이터 생성, 저장, 공유, 사용, 보관, 삭제 방법에 적용되는 내부 데이터 표준과 정책, 관리 프로세스를 설정하는 전사 데이터 통치체계

데이터 거버넌스 개념도, 구성요소, 적용방안

데이터 거버넌스 개념도

데이터 거버넌스 구성요소

구분내용비고
원칙데이터 유지관리 위한 지침 및 가이드보안 품질 기준, 변경관리
조직데이터를 관리할 조직의 역할과 책임데이터 관리자, 소유자, 데이터 아키텍트
프로세스데이터 관리를 위한 활동과 체계작업절차 모니터링, 활용관리

데이터 거버넌스 적용방안

구분내용비고
CDO데이터거버넌스 전략수립, 실행조직문화 조성
-데이터거버넌스 성과측정, 개선성과지표 설정, 주기적 측정
DA데이터 구조관리데이터 표준, 모델 설계 관리
-데이터 품질관리메타데이터 관리, 데이터 정제
DBA데이터 접근통제 관리데이터 오남용 방지
-데이터 변경이력 관리데이터흐름 추적, 무결성 보장
User데이터 활용, 가치 창출데이터 분석, 활용, 의사결정 지원
-데이터 보안 준수데이터 보안 정책 준수

데이터 거버넌스 성숙 단계

단계구분내용
5단계가치창출AI, 빅데이터 기반 신규가치 창출
4단계위험대응정량화된 품질관리, 사전 위험 대응
3단계통합경영데이터 품질관리, 의사결정 체계 도입
2단계프로세스화표준화된 데이터 프로세스 구축
1단계도입데이터 거버넌스 필요성 인식, 기본정책 수립

데이터 표준화

· 약 4분

데이터 표준화의 개념

  • 시스템별로 산재된 데이터, 정보에 대한 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 이를 전사적으로 적용하는 활동
  • 데이터 불일치, 적시성 결여, 데이터 통합의 어려움, 변경 및 유지보수 어려움, MSA 전환으로 불일치 가속화

데이터 표준화의 개념도, 상세설명, 적용방안

데이터 표준화의 개념도

  • 한글명, 영문명, 영문약어명, 타입, 길이, 소수점절삭길이 등 표준화 메타데이터 관리

데이터 표준화 상세설명

구분내용비고
데이터명칭기업 내 데이터를 유일하게 구분해주는 이름유일성, 업무관점 보편성, 의미전달 충분성
데이터정의데이터가 의미하는 범위 및 자격조건제3자 관점 명명, 약어와 전문용어 지양
데이터형식데이터 표현형태 정의를 통해 데이터 입력오류, 통제위험 최소화길이제한, 동질 데이터형식 통일
데이터규칙발생가능한 데이터 값 사전 통제, 무결성 확보기본값, 허용값, 허용범위

데이터 표준화 적용방안

구분방안비고
데이터 표준화 요구사항 수집현업부서 인터뷰, 설문조사, 표준화 현황 진단데이터현황 파악, 데이터 표준화 우선순위 결정
데이터 표준 정의데이터 표준 용어사전 구축, 데이터 표준 메타데이터 정의사내, 국내외 표준 참고, 모델링 도구 사용
데이터 표준 확정데이터 표준 검토, 승인, 데이터 표준 확정, 공표승인 절차 수립, 배포 계획 수립
데이터 표준 관리데이터 표준 변경관리 절차수립, 데이터 표준 준수 여부 모니터링관리조직 운영, 관리시스템 구축

데이터 표준화 기대효과

구분기대효과비고
품질측면데이터 일관성 확보데이터 분석, 의사결정 지원
-데이터 품질 향상불일치 감소, 신뢰성 확보
연계측면데이터 통합 용이성프로세스 표준화
-상호 운용성 향상업계 표준 준수, 타조직과의 협업 용이
기업측면비용절감데이터 관리, 유지보수 비용 절감
-기업전략강화데이터 마트 도입, 기업경쟁력 강화

데이터베이스 용량산정방법

· 약 3분

데이터베이스 용량산정방법 개념

  • 설계된 논리모델을 물리 데이터베이스로 구축할 때, 저장된 데이터양과 인덱스 등 오브젝트가 필요한 공간을 산정하는 방법
  • 저장공간의 효율적인 사용과 확장성 보장, 디스크 입출력 경합 최소화, 데이터베이스 오브젝트의 익스텐트 발생 감소로 성능향상

데이터베이스 용량산정방법 개념도, 세부절차, 산정기준

데이터베이스 용량산정방법 개념도

데이터베이스 용량산정방법 세부절차

구분세부절차내용
오브젝트별 용량산정테이블 크기 계산테이블 Row 평균 수 계산
--테이블 요구 블록, 메서드 계산
테이블스페이스 용량산정테이블 용량 계산테이블 크기기반 스페이스 용량 계산
-여유 용량 계산대략 40% 여유 스페이스 확보
디스크 용량산정데이터 용량 계산DB설치, 관리 위한 시스템 용량 포함
-시스템 사용용량 계산-

데이터베이스 용량산정방법 기준

구분항목비고
트랜잭션 수연간 트랜잭션 현황, 일평균 현황1,000 TPS
-피크타임 현황, 예상증가량30%
온라인업무량CRUD별 레코드 크기300건
배치업무량온라인 업무에 대한 배치업무비9:1
데이터백업데이터 백업여부, 레이드 구성, 백업량50G, RAID5
데이터유형이미지, 텍스트, 미디어 파일 비율1:1:3

데이터베이스 용량산정 고려사항

  • 개발, 테스트, 스테이징 환경에 필요한 추가용량
  • 콜드, 핫 데이터 분리를 위한 보존, 아카이빙 정책 고려

정규화

· 약 3분

정규화의 개념

  • 이상현상을 야기하는 속성 간의 종속관계를 제거하기 위해 릴레이션을 여러 작은 릴레이션으로 무손실분해하는 과정
  • 이상현상제거, 안정성확보, 자료 불일치성 최소화, 중복제거로 인한 저장공간 효율화

정규화의 절차, 함수종속성, 이상현상

정규화의 절차

구분절차비고
제1정규형원자값이 아닌 도메인 분해데이터 중복 높음 / Join 적음 / 결합성 낮음
제2정규형부분함수 종속성 제거-
제3정규형이행함수 종속성 제거-
BCNF정규형결정자가 후보키가 아닌 함수종속 제거-
제4정규형다중값 종속성 제거-
제5정규형조인 종속성 제거데이터 중복 낮음 / Join 많음 / 결합성 높음
  • 무손실 분해와 하수적 종속성 제거를 통한 이상현상 제거

함수 종속성

  • 데이터들이 어떠한 기준 값에 의해 항상 종속되는 현상
  • 종속자는 결정자에 하수적 종속성을 가짐, X->Y

이상현상 개념, 유형

이상현상의 개념

  • 릴레이션의 데이터 중복관리로 인해 데이터 조작시 발생하는 의도치 않은 결과를 초래하는 비합리적 현상

이상현상의 유형

구분내용Anomaly
삽입이상릴렐이션 내 하나의 튜플 삽입시 원하지 않은 추가 데이터 삽입Insertion
삭제이상릴레이션 내 하나의 튜플 삭제시 유지되어야할 정보까지 연쇄 삭제Deletion
갱신이상중복 튜플 중 일부를 업데이트할 때 정보의 모순성 발생Update

정규화시 고려사항

  • 정규화 진행시 테이블과 Join 수가 많아지므로, DX(개발자 경험) 향상을 위해 역정규화 과정도 필요함.