스마크 데이터셋

스막 데이터셋이 존재하지 않습니다. 향후에 발생한다면, 이는 원본 �

참고

패럿은 아직 개발 중이라서, 최종 사용자에게는 준비가 되지 않았습니다.

스택 메타데이터

스택은 데이터셋에 대한 정보를 포함하는 별도의

링크를 Git 저장소로:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

데이터 다운로드 중

메타데이터는 전체 데이터세트보다 훨씬 작지만, 여전히 상당한 크기입니다. Git 메타데이터 리포지토리

메타데이터 읽기

스택의 메타데이터는 파케이트 형식으로 저장됩니다. 파케이트 파일은 562기가바이트를

Selecting Repos

적합한 리포지토리를 라이브 기준에 따라 필터링하는 스크립트를 작성하십시오.

리포지터리 복제하기

Write a script to clone the selected repositories.

기차

이스트코드(The Stack의 제작자인 Bigcode)에서 무료로 얻을 수 있는 코드를 모델 학습에 사용하십시오.

스크립트

다음과 같은 스크립트들이 사용 가능합니다:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

코드 도우미

다음 스크립트는 Parrot 코드 어시스트를 사용하여 개발되었습니다:

  • the-stack-headers

  • the-stack-licenses

이러한 스크립트는 TheBloke의 The Phind-CodeLlama-34B-v2_q8.guff 모델을 사용하여 작성되었습니다.

참고

패럿 문서는 영어로 작성되어 있으며, AI 기계 번역을 사용하여 다른 언어로 번역합니다.