본문 바로가기

Big Data6

Airflow란? - Airflow와 DAG 총정리 에어플로우(Airflow) 1. Airflow 에어플로우란 데이터 파이프라인 관리를 위한 오픈소스 플랫폼으로, 워크플로우 관리를 위한 툴입니다. 에어플로우는 초기 airbnb에서 기업의 점차 복잡해지는 워크플로우를 관리하기 위한 해결책으로서 개발되었습니다. 데이터 파이프라인(Data Pipeline): 데이터가 수집, 처리, 저장되는 즉, 데이터의 이동과 처리의 전체 프로세스 ** 데이터 파이프라인은 데이터 수집, 처리, 저장 등을 포함하는 넓은 범위의 개념 워크플로우(Workflow): 일련의 작업의 흐름 및 특정 작업을 완수하기 위한 일련의 태스크 또는 그들 간의 관계 예) ELT(Extract→Loading→Transformation), ETL(Extract→Transformation→Loading.. 2023. 11. 16.
얀(Yet Another Resource Negotiator, YARN)이란? - 하둡 맵리듀스와 얀 맵리듀스 다시보기 https://nanocoding.tistory.com/entry/%EB%A7%B5%EB%A6%AC%EB%93%80%EC%8A%A4MapReduce-%EB%9E%80-%EB%A7%B5%EB%A6%AC%EB%93%80%EC%8A%A4%EC%99%80-HDFS 맵리듀스(MapReduce) 란? - 맵리듀스와 HDFS 이전 글 https://nanocoding.tistory.com/entry/%ED%95%98%EB%91%A1-%EB%B6%84%EC%82%B0-%ED%8C%8C%EC%9D%BC-%EC%8B%9C%EC%8A%A4%ED%85%9CHadoop-Distributed-File-System-HDFS-%EC%9D%B4%EB%9E%80 하둡 분산 파일 시스템(Hadoop Distributed.. 2023. 8. 21.
하둡 에코시스템(Hadoop EcoSystem) - 하둡 프로젝트와 생태계 이전에 작성한 글을 통해 하둡으로 대용량 데이터를 저장하고 처리할 수 있다고 말씀드렸습니다. 하지만, 아쉽게도 하둡 단 하나만을 가지고 할 수 있는 것은 거의 없습니다. 빅데이터는 수집, 정제, 적재, 분석, 시각화 등의 여러 단계를 거칩니다. 이 단계를 거치는 동안 빅데이터는 여러 가지 기술을 이용하여 처리되고, 이 기술들이 통틀어 에코시스템인 셈입니다. 즉, 하둡에서 데이터를 분석, 유지, 저장, 관리 등을 할 때 필요한 모든 것들을 의미합니다. 하둡 에코시스템(Hadoop EcoSystem) 하둡은 효율적인 데이터 처리와 분석을 위해 HDFS와 MapReduce 말고도 많은 구성요소로 포함됩니다. 여기서 HDFS와 MapReduce는 하둡의 코어 프로젝트이며, 이를 제외한 많은 구성요소인 서브 프로.. 2023. 8. 21.
맵리듀스(MapReduce) 란? - 맵리듀스와 HDFS 이전 글 https://nanocoding.tistory.com/entry/%ED%95%98%EB%91%A1-%EB%B6%84%EC%82%B0-%ED%8C%8C%EC%9D%BC-%EC%8B%9C%EC%8A%A4%ED%85%9CHadoop-Distributed-File-System-HDFS-%EC%9D%B4%EB%9E%80 하둡 분산 파일 시스템(Hadoop Distributed File System, HDFS) 이란? 이전 글 https://nanocoding.tistory.com/entry/%ED%95%98%EB%91%A1Hadoop%EC%9D%B4%EB%9E%80-HDFS-MapReduce-EcoSystem-YARN-%ED%95%9C%EB%B2%88%EC%97%90-%EB%B3%B4%EA%B8%B0 .. 2023. 8. 21.
하둡 분산 파일 시스템(Hadoop Distributed File System, HDFS) 이란? 이전 글 https://nanocoding.tistory.com/entry/%ED%95%98%EB%91%A1Hadoop%EC%9D%B4%EB%9E%80-HDFS-MapReduce-EcoSystem-YARN-%ED%95%9C%EB%B2%88%EC%97%90-%EB%B3%B4%EA%B8%B0 하둡(Hadoop)이란? - HDFS, MapReduce, EcoSystem, YARN 한번에 보기 하둡은 빅데이터를 다루는 유용한 도구로서, 기존의 기술로 할 수 없었던 대량의 데이터를 처리할 수 있게 해 주었습니다. 대량의 데이터에 대한 프로세싱 확장성, 데이터 포맷과 구조에 관계없 nanocoding.tistory.com 하둡 분산 파일 시스템(Hadoop Distributed File System, HDFS) H.. 2023. 8. 21.
하둡(Hadoop) 이란? - 빅데이터와 하둡 하둡은 빅데이터를 다루는 유용한 도구로서, 기존의 기술로 할 수 없었던 대량의 데이터를 처리할 수 있게 해 주었습니다. 대량의 데이터에 대한 프로세싱 확장성, 데이터 포맷과 구조에 관계없이 데이터를 처리할 수 있게 되었습니다. 즉, 하둡의 사용으로 기존의 데이터 관리 솔루션으로 하지 못하던 대용량 데이터를 처리할 수 있게 되었고, 이러한 이유로 하둡과 빅데이터는 밀접하게 관련되어 함께 거론되거나 혹은 같이 등장하는 경우가 많아지게 되었습니다. 하둡(High-Availability Distributed Object-Oriented Platform, Hadoop) 하둡(Hadoop)은 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크입니다. 또한, 대량의 데이터 처리를 위한 병렬 분산 처.. 2023. 2. 12.