기타

tfrecord의 심각한 bottleneck (image read time 속도 지연 문제)

woo11 2022. 6. 14. 18:25

TCMR 코드로 학습을 돌려보던 중 insta variety 데이터셋에서 유독 전처리 시간이 오래 걸렸다.

#insta_utils.py
image = np.expand_dims(sess1.run(tf.image.decode_jpeg(images_data[i], channels=3)), axis=0)

해당 코드는 tfrecord에서 이미지를 session run해서 읽어오고 있는데, 그냥 tfrecord -> jpg 이미지로 바꾼 뒤,

이미지를 읽도록 하니 엄청난 시간 단축이 되었다.

 

image = np.expand_dims(cv2.imread('/home/Data/insta_variety_img/train/'+osp.basename(fname)+'/'+str(vid_idx)+'/'+str(i)+'.jpg'), axis=0)

1 iteration : 3시간 -> 1분 가량으로 단축

 

회사 동료의 조언으로 알게 됐는데,

어이가 없을 정도의 큰 차이를 보인다..

 

tfrecord image는 앞으로 지양하는 게 좋을 것 같습니다..