파이썬/파이썬일반

python(vscode)/dask와 pandas 대용량 csv 파일 읽어오기/시간비교

gongdol 2023. 8. 8. 21:54
300x250

dask와 pandas csv 파일 읽어오는 시간을 비교해보자. 

dask가 병렬처리를 해서 빠르다고하는데 비교해보자. 

 

0. 예제 파일 csv 을 준비한다.

  1) 파일이 작은거 밖에 없다. 작은거로 해보자. 

 

1. 코드작성

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import time
import dask.dataframe as dd
import pandas as pd
 
filename = r"C:\Users\Documents\test1.csv" #파일명 작성
 
#1. dask 활용 데이터 만들기
start = time.time()
data = dd.read_csv(filename)        #data 변수에 엑셀 데이터를 넣는다
col1 = data.columns # 첫번째 칼럼을 col1 변수에 넣는다.
print("dask time :", time.time() - start)
 
#2. pandas 활용 데이터 만들기
start = time.time()
data = pd.read_csv(filename)        #data 변수에 엑셀 데이터를 넣는다
col1 = data.columns # 첫번째 칼럼을 col1 변수에 넣는다.
print("pandas time :", time.time() - start)
cs

 

2.결과

  1) 파일이 작을때 더 느린것인가..

     ->이것저것 넣어서 다시해보자.

 

300x250