Smack Datateko agiritegia
Zerbitzariaren datu-agiritegia ez da existitzen. Honen baldin badira, libre ediziozko kontrua izango da Zemerretako datu-agiritegiaren aurka zuten, ordezke original agiriekin dire
Oharra
Zerbatu zaintzen dagoenik ez dago erabiltzaileentzat prestatuta.
Meta-informazioa Taldean
Zerrenda metadatu informazioa dituen eredu bat du gunearen aurkaera eramatenak zurekin. Praktika hori hob
Lotura git-ren hegatsa:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Metadatuak jeistea
Metadatuak daturiendu guztiz agurra da, baina edukiko zaharkitu du. Git metadatu arkibo-zenbakia hegatseko, 1 teraba izango da.
Metadatuak irakurtzen
Zergaaren metadatuak parquet formatuan gordetzen dira. Parquet agiriak 562 giga byte izango ditu eta 2.832 agiri bakarrik 945 direktorio batean zergatzen dira.
Hautatzen biltegiratzeak hautatu
Idatzi script bat hobekuntz artean libre kriteeria bazterako.
Klonatzen repoetatzeak
Idatzi aukeratutako hartzaireak klonatzeko scripta.
Ibilbidea
Erabili Bigcode-ren kodea azkena The Stack sortzatik (baldintza) modelaren entrenamendua.
Parrot scripturak
Hau dauden script-ak erabilgarriak dira:
the-stack-headers
– Retrieves header names from The Stack’s parquet files.the-stack-licenses
– Extracts licenses and records from The Stack’s license file.
Kodearen laguntza
Zure skripteak Parrot kode laguntza erabiliz dituzte:
the-stack-headers
the-stack-licenses
Zure scriptak The Phind-CodeLlama-34B-v2_q8.guff modelera TheBloke-etik sorturitu dira.
Oharra
Parrotaren dokumentazioa ingeles erregistratzen da eta ai-ren masinako itzulpenak erabiltzen dira beste hizkuntetan.