Dataset Smack
Dataset Smack tidak ada. Di masa depan, jika timbul, akan berupa pembangunan bebas dari The Stack Dataset tanpa menggunakan dataset asli langsung karena penekanan lisensi
Catatan
Parrot masih dalam pengembangan awal dan belum siap untuk pengguna akhir.
Metadata Pitaan Berbasis
Stack memiliki repositori metadatanya yang terpisah yang mengandung informasi tentang dataset tanpa menyajikan dataset itu sendiri.
Tautan keRepositori Git:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Mengunduh Metadata
Metadata-nya jauh kurang dari seluruh dataset tetapi masih sangat besar. Repositori metadata Git sekitar satu terabyte.
Membaca Metadata
Metadata stog pada format parket disimpan. Berkas-berkas parket mengukur 562 giga-bita dan terdiri dari 2.832 berkas individu di sepanjang 945 direktori.
MemilihRepositori
Tulis skrip untuk menyaring repositori yang sesuai berdasarkan kriteria libre.
MengkloningRepositori
Tulis skrip untuk mengklon repositori yang dipilih.
Kereta Api
Gunakan kode bebas dari Bigcode (pembuat The Stack) untuk latih model.
Skrip
Skrip yang tersedia adalah:
the-stack-headers
-- Retrieves header names from The Stack's parquet files.kode-lisensi-tumpukan
-- Mengekstrak lisensi dan catatan dari berkas lisensi tumpukan The Stack.
Bantuan Kode
Skrip-skrip ini dikembangkan menggunakan kode asisten Parrot:
the-stack-headers
the-stack-licenses
Skrip-skrip ini diciptakan dengan menggunakan model The Phind-CodeLlama-34B-v2_q8.guff dari TheBloke.
Catatan
Dokumentasi Parrot ditulis dalam bahasa Inggris dan menggunakan terjemahan mesin otomatis untuk bahasa lain.