DataSet CLI로 등록하기

작성자 김아름 수정일 2022-10-17 15:30

#dataset, #cli등록, #SparklingSoDA4.0, #스파클링소다4.0, #데이터셋

아티클 관련 제품: SparklingSoDA4.0

이 글을 읽으면

  • dataset을 cli로 등록하는 방법을 알 수 있습니다.



사전 작업 및 준비

  • 노트북(jupyter or vscode)에 업로드 할 데이터를 준비합니다.

  • 파일 확장자는 zip 외에도 가능합니다.



DateSet 업로드 하기

노트북 내에 있는 데이터를 ui의 Dataset 탭에 등록하는 방법입니다.


  1. 먼저, 데이터가 준비되어 있는 노트북을 들어갑니다.

  2. 디렉터리 하나를 생성합니다.
    EXPLORER에서 우클릭 한 후, New Folder 를 클릭합니다.
    cli_upload_dataset 이라는 이름의 디렉터리를 생성하였습니다.
    해당 이름은 ui의 Dataset에 업로드 되는 이름과 동일합니다.

  3. 준비한 데이터를 위 디렉터리로 이동 시킵니다.

  4. 터미널을 열어줍니다.
    EXPLORER에서 우클릭 한 후, Open in Integrated Terminal 을 클릭합니다.

  5. 현재 경로와 업로드 할 데이터를 확인합니다.
    pwd
    /notebooks/test
    
    ls -al cli_upload_dataset/
    total 2032
    drwxr-xr-x 2 winter winter      31 Sep 30 18:22 .
    drwxr-xr-x 5 winter winter     100 Sep 30 18:22 ..
    -rw-r--r-- 1 winter winter 2076945 Sep 30 18:19 train_dataset.tsv

  6. 데이터가 있는 디렉터리를 upload합니다.

    soda-cli upload-ds -d [dataset name] -p [path]
    
    soda-cli upload-ds -d cli_upload_dataset -p /notebooks/test/
    2022-09-30 18:24:01,917 | sodaflow.api | INFO | minio://dvc-storage/datasets/cli_upload_dataset not found. create new dataset.
    2022-09-30 18:24:01,918 | sodaflow.api | INFO | Create dataset[cli_upload_dataset] to repository
    Transferred:            1 / 1, 100%MBytes, 100%, 25.191 MBytes/s, ETA 0s
    2022-09-30 18:24:02,878 | sodaflow.api | INFO | Insert dataset object.


  7. Dataset이 잘 등록되었는지 확인합니다.


DateSet 업데이트 하기

업로드한 dataset에 추가로 데이터를 업데이트 하는 방법입니다.


  1. 다시 노트북으로 들어와, 추가할 데이터를 디렉터리에 넣어줍니다.


  2. 터미널을 열어 아래 명령어를 수행합니다.
    soda-cli update-ds -d [dataset name] -p [path]
    
    soda-cli update-ds -d cli_upload_dataset -p /notebooks/test/
    2022-09-30 18:28:33,846 | sodaflow.api | INFO | Synch local dataset[cli_upload_dataset] to remote repository
    Transferred:            1 / 1, 100%3 kBytes, 100%, 17.935 MBytes/s, ETA 0s
    2022-09-30 18:28:34,559 | sodaflow.api | INFO | Update dataset object.


  3. ui에서 dataset을 확인합니다.

    update 된 시간이 추가로 표시된 것을 확인할 수 있습니다.


    파일 역시 정상적으로 업로드 되었습니다.



마치며

  • cli를 통해 데이터셋을 등록하고, 업데이트 하는 방법을 알아보았습니다.

  • 노트북 내에만 데이터가 존재하고, 로컬에는 존재하지 않을 시 해당 방법을 활용하면 되겠습니다.


아티클이 유용했나요?

훌륭합니다!

피드백을 제공해 주셔서 감사합니다.

도움이 되지 못해 죄송합니다!

피드백을 제공해 주셔서 감사합니다.

아티클을 개선할 수 있는 방법을 알려주세요!

최소 하나의 이유를 선택하세요
CAPTCHA 확인이 필요합니다.

피드백 전송

소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.

02-558-8300