300x250
dask와 pandas csv 파일 읽어오는 시간을 비교해보자.
dask가 병렬처리를 해서 빠르다고하는데 비교해보자.
0. 예제 파일 csv 을 준비한다.
1) 파일이 작은거 밖에 없다. 작은거로 해보자.
1. 코드작성
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
import time
import dask.dataframe as dd
import pandas as pd
filename = r"C:\Users\Documents\test1.csv" #파일명 작성
#1. dask 활용 데이터 만들기
start = time.time()
data = dd.read_csv(filename) #data 변수에 엑셀 데이터를 넣는다
col1 = data.columns # 첫번째 칼럼을 col1 변수에 넣는다.
print("dask time :", time.time() - start)
#2. pandas 활용 데이터 만들기
start = time.time()
data = pd.read_csv(filename) #data 변수에 엑셀 데이터를 넣는다
col1 = data.columns # 첫번째 칼럼을 col1 변수에 넣는다.
print("pandas time :", time.time() - start)
|
cs |
2.결과
1) 파일이 작을때 더 느린것인가..
->이것저것 넣어서 다시해보자.
300x250
'파이썬 > 파이썬일반' 카테고리의 다른 글
python(vscode)/엑셀만들기/엑셀에 입력하기/딕셔너리 엑셀에 추가하기 (1) | 2023.10.09 |
---|---|
python(vscode)/dataframe min max 구하기/원하는 범위만 계산하기 (1) | 2023.10.09 |
python(vscode)/csv 파일 인코딩 형식 알아내기/encoding/chardet (0) | 2023.08.08 |
python(vscode)/전치행렬/내적/역행렬/numpy (0) | 2023.07.27 |
python(vscode)/numpy 행렬 만들기/사칙연산/평균/표준편차 (0) | 2023.07.27 |