Dataset Smack

Dataset Smack tidak ada. Di masa depan, jika timbul, akan berupa pembangunan bebas dari The Stack Dataset tanpa menggunakan dataset asli langsung karena penekanan lisensi

Catatan

Parrot masih dalam pengembangan awal dan belum siap untuk pengguna akhir.

Metadata Pitaan Berbasis

Stack memiliki repositori metadatanya yang terpisah yang mengandung informasi tentang dataset tanpa menyajikan dataset itu sendiri.

Tautan keRepositori Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Mengunduh Metadata

Metadata-nya jauh kurang dari seluruh dataset tetapi masih sangat besar. Repositori metadata Git sekitar satu terabyte.

Membaca Metadata

Metadata stog pada format parket disimpan. Berkas-berkas parket mengukur 562 giga-bita dan terdiri dari 2.832 berkas individu di sepanjang 945 direktori.

MemilihRepositori

Tulis skrip untuk menyaring repositori yang sesuai berdasarkan kriteria libre.

MengkloningRepositori

Tulis skrip untuk mengklon repositori yang dipilih.

Kereta Api

Gunakan kode bebas dari Bigcode (pembuat The Stack) untuk latih model.

Skrip

Skrip yang tersedia adalah:

  • the-stack-headers -- Retrieves header names from The Stack's parquet files.

  • kode-lisensi-tumpukan -- Mengekstrak lisensi dan catatan dari berkas lisensi tumpukan The Stack.

Bantuan Kode

Skrip-skrip ini dikembangkan menggunakan kode asisten Parrot:

  • the-stack-headers

  • the-stack-licenses

Skrip-skrip ini diciptakan dengan menggunakan model The Phind-CodeLlama-34B-v2_q8.guff dari TheBloke.

Catatan

Dokumentasi Parrot ditulis dalam bahasa Inggris dan menggunakan terjemahan mesin otomatis untuk bahasa lain.