2024 하계 모각코 4주차

GITHUB로 편집하기

V.이현ViKapitoshka

모각코 4주차

😀학번, 이름 : 202102557, 이현

🎡계획 : DataSet 구조 이해

📄결과 :

  • PyTorch에서 데이터 셋을 정의하고 사용하는 방법을 알아보았다.

데이터셋

  • 데이터셋은 torch.utils.data.Dataset 클래스를 상속받아 구현한다.
  • 데이터셋은 __len____getitem__ 메서드를 구현해야 한다.
  • __len__ 메서드는 데이터셋의 크기를 반환한다.
  • __getitem__ 메서드는 주어진 인덱스에 해당하는 데이터를 반환한다.

      import torch
      from torch.utils.data import Dataset
    
커스텀 데이터셋 구조
  • 커스텀 데이터셋을 구현하기 위해 torch.utils.data.Dataset 클래스를 상속받아 구현한다.
  • 데이터를 다운 받고, 전처리를 수행하는 코드를 작성한다.

  • [1] 데이터 다운로드
  • 데이터를 다운로드 받아 올 소스를 지정하고,
  • 다운 받아온 후 압축을 푸는 등의 처리를 하는 코드를 작성한다.
  • 이 때, 만약 데이터 셋 크기가 너무 커서 전처리 하는 데 오래 걸릴 것으로 예상되는 데이터셋의 경우
  • 미리 전처리가 끝난 버전으로 받아 올 수 있도록 설계하는 것이 더 좋을 것으로 보인다.

download download

  • [2] 데이터 전처리
  • 데이터를 다운로드 받은 후, 데이터를 전처리하는 코드를 작성한다.

preprocess

  • [3] 이터레이터 구현
  • 데이터를 불러오는 이터레이터를 구현한다.
  • __len____getitem__ 메서드를 구현한다.

iterator