Smack Datateko agiritegia

Zerbitzariaren datu-agiritegia ez da existitzen. Honen baldin badira, libre ediziozko kontrua izango da Zemerretako datu-agiritegiaren aurka zuten, ordezke original agiriekin dire

Oharra

Zerbatu zaintzen dagoenik ez dago erabiltzaileentzat prestatuta.

Meta-informazioa Taldean

Zerrenda metadatu informazioa dituen eredu bat du gunearen aurkaera eramatenak zurekin. Praktika hori hob

Lotura git-ren hegatsa:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Metadatuak jeistea

Metadatuak daturiendu guztiz agurra da, baina edukiko zaharkitu du. Git metadatu arkibo-zenbakia hegatseko, 1 teraba izango da.

Metadatuak irakurtzen

Zergaaren metadatuak parquet formatuan gordetzen dira. Parquet agiriak 562 giga byte izango ditu eta 2.832 agiri bakarrik 945 direktorio batean zergatzen dira.

Hautatzen biltegiratzeak hautatu

Idatzi script bat hobekuntz artean libre kriteeria bazterako.

Klonatzen repoetatzeak

Idatzi aukeratutako hartzaireak klonatzeko scripta.

Ibilbidea

Erabili Bigcode-ren kodea azkena The Stack sortzatik (baldintza) modelaren entrenamendua.

Parrot scripturak

Hau dauden script-ak erabilgarriak dira:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Kodearen laguntza

Zure skripteak Parrot kode laguntza erabiliz dituzte:

  • the-stack-headers

  • the-stack-licenses

Zure scriptak The Phind-CodeLlama-34B-v2_q8.guff modelera TheBloke-etik sorturitu dira.

Oharra

Parrotaren dokumentazioa ingeles erregistratzen da eta ai-ren masinako itzulpenak erabiltzen dira beste hizkuntetan.