La Datumaro de Parrot
La datumaro “Smack” ne ekzistas. En la venonta se tio aperos, estos libera eldono de “The Stack” datumaro sen uzi la originalan datumaron rekte kaŭze de mallibre (sen “fervo
Note
Parrot estas jeunlingve en komenca vikto, ne preta por fnalaj uzantoj.
La Apstraktado de la Stako
La stako havas apartan metadatan deponejon kun informo pri la datensa setoj sen hosting ilin mem. Tio praksa estas utila,
Ligilo al la Git-reponojo:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Elŝutante Metadatenojn
La metadatumoj estas ankaŭ malplenaj ol la tuta datumaro, sed ankaux tre granda. La Git-metadatumo repositorio havas preskaŭ terabajton da grandon.
Leganta Metadatumojn
La metadatumoj de la “stack” konserviĝas en formato parketo. La dosieroj parketo malsupre 562 gigabytes kaj enhavas 2 832 individuale dosierojn tra 945 dosierujoj.
Elektante depozitajn sistemojn
Skribu skripton por filtri akcepteblajn repositoriojn laŭ kriterioj de libero.
Klonante Repojn
Skribu skripton por kloni la elektitajn repositoriovnenojn.
Trenaĵo
Uzu liberan kodon el Bigcode (kreintoj de The Stack) por modelado de modelado.
Skriptoj
La sekvaj skriptoj estas haveblaj:
the-stack-headers
– Retrieves header names from The Stack’s parquet files.the-stack-licenses
– Extracts licenses and records from The Stack’s license file.
Code Assist
La jenan tagadvikitaĵoj estis kreitaj per uzo de Parrot-kodo asistenta:
the-stack-headers
the-stack-licenses
Tiuj skriptoj estas kreitaj kun la The Phind-CodeLlama-34B-v2_q8.guff modelo de TheBloke.
Note
La dokumentado de Parrot estas skribita en la angla, kaj uzas tradukadon de masina per inteligenta agento por aliaj lingvoj.