Kumpulan Data Smack

The Smack Dataset does not exist. In the future, if it arises, it will be a libre build of The Stack dataset without using the original dataset directly due to non-libre (non-"open source") license encumbrances.

Note

Parrot dalam pengembangan awal, belum bersedia untuk pengguna akhir.

InformasiMetadata Pita

Penyangga mempunyai penyimpanan metadata terpisah yang mengandungi maklumat tentang set data dengan tidak men

Pautan ke repositori Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Mengunduh Metadata

Metadata yang betul-betul dibawah setel data sepenuhnya, tetapi masih sangat besar.Repositori metadat Git adalah kurang lebih satu terabyte saiz.

Membaca Metadata

Metadata telah disimpan dalam format parquet pada tumpukan. Fail parquet meluas hingga 562 gigabait dan terdiri daripada 2,832 fail individu di atas 945 direktori.

Memilih Repositori

Tulis skrip untuk menapiskan repositori yang sesuai berdasarkan kriteria libren.

Pembuatan Klon Repositori

Buat skrip untuk mengklon repositori yang dipilih.

Tempatan

Gunakan kod bebas dari Bigcode (pencipta The Stack) untuk pelatihan model.

Skripte

Skrip-skrip berikut boleh didapati:

  • the-stack-headers -- Retrieves header names from The Stack's parquet files.

  • the-stack-licenses -- Extracts licenses and records from The Stack's license file.

Kode Pembantu

Skrip-skrip ini dikembangkan menggunakan kod pendedahan Kod Parrot:

  • the-stack-headers

  • the-stack-licenses

Ini skrip ini dicipta dengan menggunakan model The Phind-CodeLlama-34B-v2_q8.guff dari TheBloke.

Note

Dokumentasi Parrot ditulis dalam Bahasa Inggeris dan menggunakan terjemahan mesin untuk bahasa lain.