본문 바로가기

전체 글7

Airflow란? - Airflow와 DAG 총정리 에어플로우(Airflow) 1. Airflow 에어플로우란 데이터 파이프라인 관리를 위한 오픈소스 플랫폼으로, 워크플로우 관리를 위한 툴입니다. 에어플로우는 초기 airbnb에서 기업의 점차 복잡해지는 워크플로우를 관리하기 위한 해결책으로서 개발되었습니다. 데이터 파이프라인(Data Pipeline): 데이터가 수집, 처리, 저장되는 즉, 데이터의 이동과 처리의 전체 프로세스 ** 데이터 파이프라인은 데이터 수집, 처리, 저장 등을 포함하는 넓은 범위의 개념 워크플로우(Workflow): 일련의 작업의 흐름 및 특정 작업을 완수하기 위한 일련의 태스크 또는 그들 간의 관계 예) ELT(Extract→Loading→Transformation), ETL(Extract→Transformation→Loading.. 2023. 11. 16.
DB와 DBMS, RDB와 RDBMS 및 SQL 총정리 데이터베이스(DataBase, DB) 1. DB 데이터베이스(DataBase, DB)란, 여러 사람들이 공유하고 사용할 목적으로 통합 관리되는 데이터들의 모임을 말합니다. ** 데이터베이스는 등산할 때 기반이 되는 기지를 베이스캠프라 하듯이 데이터베이스라는 용어도 1950년대 미국에서 데이터의 기지라는 뜻에서 데이터베이스라는 용어를 처음 사용함 1.1 유형 1.1.1 계층형(Hierarchical DataBase) 데이터 간의 관계가 부모-자식 관계의 트리 형태의 구조로, 부모-자식 간에는 1:N(일 대 다)로 구성될 수 있습니다. 계층형은 데이터를 세그먼트 (레코드) 단위로 관리하며 세그먼트 간 계층을 트리구조로 관리합니다. 이에 따라, 구조가 간단하고 구현/수정/검색이 쉽지만 부모 자식 간에 N:N(.. 2023. 11. 15.
얀(Yet Another Resource Negotiator, YARN)이란? - 하둡 맵리듀스와 얀 맵리듀스 다시보기 https://nanocoding.tistory.com/entry/%EB%A7%B5%EB%A6%AC%EB%93%80%EC%8A%A4MapReduce-%EB%9E%80-%EB%A7%B5%EB%A6%AC%EB%93%80%EC%8A%A4%EC%99%80-HDFS 맵리듀스(MapReduce) 란? - 맵리듀스와 HDFS 이전 글 https://nanocoding.tistory.com/entry/%ED%95%98%EB%91%A1-%EB%B6%84%EC%82%B0-%ED%8C%8C%EC%9D%BC-%EC%8B%9C%EC%8A%A4%ED%85%9CHadoop-Distributed-File-System-HDFS-%EC%9D%B4%EB%9E%80 하둡 분산 파일 시스템(Hadoop Distributed.. 2023. 8. 21.
하둡 에코시스템(Hadoop EcoSystem) - 하둡 프로젝트와 생태계 이전에 작성한 글을 통해 하둡으로 대용량 데이터를 저장하고 처리할 수 있다고 말씀드렸습니다. 하지만, 아쉽게도 하둡 단 하나만을 가지고 할 수 있는 것은 거의 없습니다. 빅데이터는 수집, 정제, 적재, 분석, 시각화 등의 여러 단계를 거칩니다. 이 단계를 거치는 동안 빅데이터는 여러 가지 기술을 이용하여 처리되고, 이 기술들이 통틀어 에코시스템인 셈입니다. 즉, 하둡에서 데이터를 분석, 유지, 저장, 관리 등을 할 때 필요한 모든 것들을 의미합니다. 하둡 에코시스템(Hadoop EcoSystem) 하둡은 효율적인 데이터 처리와 분석을 위해 HDFS와 MapReduce 말고도 많은 구성요소로 포함됩니다. 여기서 HDFS와 MapReduce는 하둡의 코어 프로젝트이며, 이를 제외한 많은 구성요소인 서브 프로.. 2023. 8. 21.
맵리듀스(MapReduce) 란? - 맵리듀스와 HDFS 이전 글 https://nanocoding.tistory.com/entry/%ED%95%98%EB%91%A1-%EB%B6%84%EC%82%B0-%ED%8C%8C%EC%9D%BC-%EC%8B%9C%EC%8A%A4%ED%85%9CHadoop-Distributed-File-System-HDFS-%EC%9D%B4%EB%9E%80 하둡 분산 파일 시스템(Hadoop Distributed File System, HDFS) 이란? 이전 글 https://nanocoding.tistory.com/entry/%ED%95%98%EB%91%A1Hadoop%EC%9D%B4%EB%9E%80-HDFS-MapReduce-EcoSystem-YARN-%ED%95%9C%EB%B2%88%EC%97%90-%EB%B3%B4%EA%B8%B0 .. 2023. 8. 21.
하둡 분산 파일 시스템(Hadoop Distributed File System, HDFS) 이란? 이전 글 https://nanocoding.tistory.com/entry/%ED%95%98%EB%91%A1Hadoop%EC%9D%B4%EB%9E%80-HDFS-MapReduce-EcoSystem-YARN-%ED%95%9C%EB%B2%88%EC%97%90-%EB%B3%B4%EA%B8%B0 하둡(Hadoop)이란? - HDFS, MapReduce, EcoSystem, YARN 한번에 보기 하둡은 빅데이터를 다루는 유용한 도구로서, 기존의 기술로 할 수 없었던 대량의 데이터를 처리할 수 있게 해 주었습니다. 대량의 데이터에 대한 프로세싱 확장성, 데이터 포맷과 구조에 관계없 nanocoding.tistory.com 하둡 분산 파일 시스템(Hadoop Distributed File System, HDFS) H.. 2023. 8. 21.
하둡(Hadoop) 이란? - 빅데이터와 하둡 하둡은 빅데이터를 다루는 유용한 도구로서, 기존의 기술로 할 수 없었던 대량의 데이터를 처리할 수 있게 해 주었습니다. 대량의 데이터에 대한 프로세싱 확장성, 데이터 포맷과 구조에 관계없이 데이터를 처리할 수 있게 되었습니다. 즉, 하둡의 사용으로 기존의 데이터 관리 솔루션으로 하지 못하던 대용량 데이터를 처리할 수 있게 되었고, 이러한 이유로 하둡과 빅데이터는 밀접하게 관련되어 함께 거론되거나 혹은 같이 등장하는 경우가 많아지게 되었습니다. 하둡(High-Availability Distributed Object-Oriented Platform, Hadoop) 하둡(Hadoop)은 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크입니다. 또한, 대량의 데이터 처리를 위한 병렬 분산 처.. 2023. 2. 12.