2024 하계 모각코 4주차
모각코 4주차
😀학번, 이름 : 202102557, 이현
🎡계획 : DataSet 구조 이해
📄결과 :
- PyTorch에서 데이터 셋을 정의하고 사용하는 방법을 알아보았다.
데이터셋
- 데이터셋은
torch.utils.data.Dataset
클래스를 상속받아 구현한다. - 데이터셋은
__len__
과__getitem__
메서드를 구현해야 한다. __len__
메서드는 데이터셋의 크기를 반환한다.-
__getitem__
메서드는 주어진 인덱스에 해당하는 데이터를 반환한다.import torch from torch.utils.data import Dataset
커스텀 데이터셋 구조
- 커스텀 데이터셋을 구현하기 위해
torch.utils.data.Dataset
클래스를 상속받아 구현한다. -
데이터를 다운 받고, 전처리를 수행하는 코드를 작성한다.
- [1] 데이터 다운로드
- 데이터를 다운로드 받아 올 소스를 지정하고,
- 다운 받아온 후 압축을 푸는 등의 처리를 하는 코드를 작성한다.
- 이 때, 만약 데이터 셋 크기가 너무 커서 전처리 하는 데 오래 걸릴 것으로 예상되는 데이터셋의 경우
- 미리 전처리가 끝난 버전으로 받아 올 수 있도록 설계하는 것이 더 좋을 것으로 보인다.
- [2] 데이터 전처리
- 데이터를 다운로드 받은 후, 데이터를 전처리하는 코드를 작성한다.
- [3] 이터레이터 구현
- 데이터를 불러오는 이터레이터를 구현한다.
__len__
과__getitem__
메서드를 구현한다.