프로젝트/방법론명:
데이터레이크
유형:
프로젝트 및 방법론
개요:
데이터레이크는 다양한 형태의 대량 데이터를 원시 상태로 저장하고 관리하는 데이터 저장소입니다.
추진/개발 주체:
주로 대규모 데이터를 다루는 기업 및 조직
추진 시기:
2010년대 초반부터 본격적으로 도입
적용 분야:
빅데이터 분석, 머신러닝, 데이터 과학, 비즈니스 인텔리전스
핵심 내용 및 구성:
데이터레이크는 구조화된 데이터, 반구조화된 데이터, 비구조화된 데이터를 모두 수용하며, 데이터를 원시 상태로 저장하여 필요에 따라 다양한 분석 작업에 활용할 수 있도록 합니다. 데이터레이크는 데이터 사일로를 제거하고, 데이터 접근성을 높이며, 비용 효율적인 데이터 저장을 가능하게 합니다. 또한, 데이터레이크는 스키마 온 리드(schema-on-read) 방식을 채택하여 데이터를 저장할 때 스키마를 정의하지 않고, 데이터를 읽을 때 필요한 스키마를 적용합니다. 이를 통해 데이터레이크는 유연성과 확장성을 제공하며, 다양한 데이터 소스와 분석 도구와의 통합을 지원합니다.
성과 및 영향:
데이터레이크는 데이터 분석의 유연성을 높이고, 데이터 저장 비용을 절감하며, 데이터 기반 의사결정을 지원하여 기업의 경쟁력을 강화합니다.
관련 사례:
아마존 S3, 마이크로소프트 애저 데이터레이크, 구글 클라우드 스토리지
이칭(alias):
Data Lake
참고 정보:
데이터레이크는 기존의 데이터 웨어하우스와는 달리 데이터의 원시 상태 저장을 강조하며, 다양한 데이터 형식의 통합 분석을 가능하게 합니다.
#DataLake #빅데이터저장소 #스키마온리드 #데이터사일로제거 #비즈니스인텔리전스