Smack Veri Seti
The Smack Dataset mevcut değil. Gelecekteki bir problem olsa bile, bu da The Stack veri kümesinin özgür bir inşaı olacaktır orijinal veri kümesini doğ
Not
Parrot, geliştirme aşamasında ve son kullanıc
Yığın Meta Verileri
Yığın, veri kümesiyle birlikte barındırmayan ayrı bir meta veri deposu içeren başka
Git Deposu Bağlantısı:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Meta verileri indirme
Meta verisi, toplam veri kümesinden çok daha az fakat hala büyük ölçüde büyük. Git meta veri deposu yaklaşık bir terabayt boyutunda.
Meta verileri okuma
Yığının meta verileri parket biçiminde saklanır. Parette dosyaları 562 gigabayt boyutunda ve 945 dizindeki toplam 2.832 ayrı dosya oluşur.
Seçme Depo
Bir betik yazın, serbest kriterlere göre uygun depoları filtreleyin.
Çatalama Depoları
Bir betik yazın seçili depo klonlamak için.
Tren
Bigcode tarafından The Stack oluşturanların kodunda serbest kullanın, model eğitim için.
Betikler
Aşağıdaki komut dosyaları mevcuttur:
the-stack-headers
– Retrieves header names from The Stack’s parquet files.the-stack-licenses
– Extracts licenses and records from The Stack’s license file.
Kod Yardımcısı
Aşağıdaki betikler, Parrot kod yardımcısı kullanılarak geliştirildi:
the-stack-headers
the-stack-licenses
Bu betikler, TheBloke’dan The Phind-CodeLlama-34B-v2_q8.guff modeli ile yaratıldı.
Not
Parrot belgeleri İngilizce olarak yazılmıştır ve diğer dillere yönelik makine çevirisi ile kullanımı garanti edilir.