Kumpulan Data Smack
The Smack Dataset does not exist. In the future, if it arises, it will be a libre build of The Stack dataset without using the original dataset directly due to non-libre (non-"open source") license encumbrances.
Note
Parrot dalam pengembangan awal, belum bersedia untuk pengguna akhir.
InformasiMetadata Pita
Penyangga mempunyai penyimpanan metadata terpisah yang mengandungi maklumat tentang set data dengan tidak men
Pautan ke repositori Git:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Mengunduh Metadata
Metadata yang betul-betul dibawah setel data sepenuhnya, tetapi masih sangat besar.Repositori metadat Git adalah kurang lebih satu terabyte saiz.
Membaca Metadata
Metadata telah disimpan dalam format parquet pada tumpukan. Fail parquet meluas hingga 562 gigabait dan terdiri daripada 2,832 fail individu di atas 945 direktori.
Memilih Repositori
Tulis skrip untuk menapiskan repositori yang sesuai berdasarkan kriteria libren.
Pembuatan Klon Repositori
Buat skrip untuk mengklon repositori yang dipilih.
Tempatan
Gunakan kod bebas dari Bigcode (pencipta The Stack) untuk pelatihan model.
Skripte
Skrip-skrip berikut boleh didapati:
the-stack-headers
-- Retrieves header names from The Stack's parquet files.the-stack-licenses
-- Extracts licenses and records from The Stack's license file.
Kode Pembantu
Skrip-skrip ini dikembangkan menggunakan kod pendedahan Kod Parrot:
the-stack-headers
the-stack-licenses
Ini skrip ini dicipta dengan menggunakan model The Phind-CodeLlama-34B-v2_q8.guff dari TheBloke.
Note
Dokumentasi Parrot ditulis dalam Bahasa Inggeris dan menggunakan terjemahan mesin untuk bahasa lain.