티스토리 뷰

제목: 파이썬과 대스크를 활용한 고성능 데이터 분석

 

본 리뷰는 한빛미디어 주최의 나는 리뷰어다 이벤트의 진행 지원을 받아 작성합니다.

 

추천 독자: Python 객체, Numpy, Pandas, sklearn 라이브러리 등 을 통해 데이터 파이프라인을 구축했으나, 보다 대용량의 데이터셋을 운용하기위한 분산 시스템을 비교적 빠르게 구성하고싶은 독자분들.

 

제가 책에서 유추한 본 서적의 목표는 다음과 같습니다.

"Dask 라는 라이브러리를 중심으로 분산 환경의 데이터 파이프라인을 구축하자."

본문에는 Dask 라이브러리를 중심으로 놓고 데이터 전처리, 시각화, ML모델링, 클러스터 운영과 확장에 대해서

용례를 설명합니다.

데이터 수집과 보관에 관해선 크게 언급하지않습니다만, 파일 데이터에서 읽어오는 방식을 기반합니다.

DAG와 스케쥴러를 통해 분산환경에서 대규모 데이터셋의 전처리를 효율적으로 핸들링하고

Pandas 의 인터페이스와 거의 유사한 인터페이스로 설계함으로써 기존 Pandas 사용자들이

보다 쉽게 데이터 파이프라인을 확장할 수 있게 하였으며, 단일 머신의 기억장치(HDD, RAM) 용량의 한계를 넘어 분산 환경에서 용이하게 Scale in/out 을 가능케 합니다.

무조건 Dask의 장점 뿐 만이 아닌 3.3절에서 Dask DataFrame의 한계점과 주의사항을 짚어주면서

Dask의 도입 후에도 유의할 사항들을 알려줍니다.

Spark 와 같은 다른 오픈소스들이 존재하지만 학습비용을 줄이고 Python 중심의 기존 데이터 파이프라인에서 Python 객체들의 확장을 지원하는 Dask가 다른 경쟁자들에 비해 개인적으로 호감입니다.

저 또한 단일 머신 환경에서 어떻게 성능을 확장해야하는가에 대해서 현업에서 쓰이는 HDFS, Zookeeper, Spark 스택을 학습할까 생각했습니다. 하지만, 학습비용의 장벽에 진도가 잘 나아가지는 않았습니다.

본 책 덕분에 Dask라는 하나의 시도해볼만한 도구가 생겨 기쁩니다.