아티클 관련 제품: SparklingSoDA4.0
이 글을 읽으면
- dataset을 cli로 등록하는 방법을 알 수 있습니다.
사전 작업 및 준비
- 노트북(jupyter or vscode)에 업로드 할 데이터를 준비합니다.
- 파일 확장자는 zip 외에도 가능합니다.
DateSet 업로드 하기
노트북 내에 있는 데이터를 ui의 Dataset 탭에 등록하는 방법입니다.
- 먼저, 데이터가 준비되어 있는 노트북을 들어갑니다.
- 디렉터리 하나를 생성합니다.
EXPLORER에서 우클릭 한 후, New Folder 를 클릭합니다.
cli_upload_dataset 이라는 이름의 디렉터리를 생성하였습니다.
해당 이름은 ui의 Dataset에 업로드 되는 이름과 동일합니다. - 준비한 데이터를 위 디렉터리로 이동 시킵니다.
- 터미널을 열어줍니다.
EXPLORER에서 우클릭 한 후, Open in Integrated Terminal 을 클릭합니다. - 현재 경로와 업로드 할 데이터를 확인합니다.
pwd /notebooks/test ls -al cli_upload_dataset/ total 2032 drwxr-xr-x 2 winter winter 31 Sep 30 18:22 . drwxr-xr-x 5 winter winter 100 Sep 30 18:22 .. -rw-r--r-- 1 winter winter 2076945 Sep 30 18:19 train_dataset.tsv
데이터가 있는 디렉터리를 upload합니다.
soda-cli upload-ds -d [dataset name] -p [path] soda-cli upload-ds -d cli_upload_dataset -p /notebooks/test/ 2022-09-30 18:24:01,917 | sodaflow.api | INFO | minio://dvc-storage/datasets/cli_upload_dataset not found. create new dataset. 2022-09-30 18:24:01,918 | sodaflow.api | INFO | Create dataset[cli_upload_dataset] to repository Transferred: 1 / 1, 100%MBytes, 100%, 25.191 MBytes/s, ETA 0s 2022-09-30 18:24:02,878 | sodaflow.api | INFO | Insert dataset object.
Dataset이 잘 등록되었는지 확인합니다.
DateSet 업데이트 하기
업로드한 dataset에 추가로 데이터를 업데이트 하는 방법입니다.
- 다시 노트북으로 들어와, 추가할 데이터를 디렉터리에 넣어줍니다.
- 터미널을 열어 아래 명령어를 수행합니다.
soda-cli update-ds -d [dataset name] -p [path] soda-cli update-ds -d cli_upload_dataset -p /notebooks/test/ 2022-09-30 18:28:33,846 | sodaflow.api | INFO | Synch local dataset[cli_upload_dataset] to remote repository Transferred: 1 / 1, 100%3 kBytes, 100%, 17.935 MBytes/s, ETA 0s 2022-09-30 18:28:34,559 | sodaflow.api | INFO | Update dataset object.
ui에서 dataset을 확인합니다.
update 된 시간이 추가로 표시된 것을 확인할 수 있습니다.
파일 역시 정상적으로 업로드 되었습니다.
마치며
- cli를 통해 데이터셋을 등록하고, 업데이트 하는 방법을 알아보았습니다.
- 노트북 내에만 데이터가 존재하고, 로컬에는 존재하지 않을 시 해당 방법을 활용하면 되겠습니다.
아티클이 유용했나요?
훌륭합니다!
피드백을 제공해 주셔서 감사합니다.
도움이 되지 못해 죄송합니다!
피드백을 제공해 주셔서 감사합니다.
피드백 전송
소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.