Smack Veri Seti

The Smack Dataset mevcut değil. Gelecekteki bir problem olsa bile, bu da The Stack veri kümesinin özgür bir inşaı olacaktır orijinal veri kümesini doğ

Not

Parrot, geliştirme aşamasında ve son kullanıc

Yığın Meta Verileri

Yığın, veri kümesiyle birlikte barındırmayan ayrı bir meta veri deposu içeren başka

Git Deposu Bağlantısı:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Meta verileri indirme

Meta verisi, toplam veri kümesinden çok daha az fakat hala büyük ölçüde büyük. Git meta veri deposu yaklaşık bir terabayt boyutunda.

Meta verileri okuma

Yığının meta verileri parket biçiminde saklanır. Parette dosyaları 562 gigabayt boyutunda ve 945 dizindeki toplam 2.832 ayrı dosya oluşur.

Seçme Depo

Bir betik yazın, serbest kriterlere göre uygun depoları filtreleyin.

Çatalama Depoları

Bir betik yazın seçili depo klonlamak için.

Tren

Bigcode tarafından The Stack oluşturanların kodunda serbest kullanın, model eğitim için.

Betikler

Aşağıdaki komut dosyaları mevcuttur:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Kod Yardımcısı

Aşağıdaki betikler, Parrot kod yardımcısı kullanılarak geliştirildi:

  • the-stack-headers

  • the-stack-licenses

Bu betikler, TheBloke’dan The Phind-CodeLlama-34B-v2_q8.guff modeli ile yaratıldı.

Not

Parrot belgeleri İngilizce olarak yazılmıştır ve diğer dillere yönelik makine çevirisi ile kullanımı garanti edilir.