La Datumaro de Parrot

La datumaro “Smack” ne ekzistas. En la venonta se tio aperos, estos libera eldono de “The Stack” datumaro sen uzi la originalan datumaron rekte kaŭze de mallibre (sen “fervo

Note

Parrot estas jeunlingve en komenca vikto, ne preta por fnalaj uzantoj.

La Apstraktado de la Stako

La stako havas apartan metadatan deponejon kun informo pri la datensa setoj sen hosting ilin mem. Tio praksa estas utila,

Ligilo al la Git-reponojo:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Elŝutante Metadatenojn

La metadatumoj estas ankaŭ malplenaj ol la tuta datumaro, sed ankaux tre granda. La Git-metadatumo repositorio havas preskaŭ terabajton da grandon.

Leganta Metadatumojn

La metadatumoj de la “stack” konserviĝas en formato parketo. La dosieroj parketo malsupre 562 gigabytes kaj enhavas 2 832 individuale dosierojn tra 945 dosierujoj.

Elektante depozitajn sistemojn

Skribu skripton por filtri akcepteblajn repositoriojn laŭ kriterioj de libero.

Klonante Repojn

Skribu skripton por kloni la elektitajn repositoriovnenojn.

Trenaĵo

Uzu liberan kodon el Bigcode (kreintoj de The Stack) por modelado de modelado.

Skriptoj

La sekvaj skriptoj estas haveblaj:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Code Assist

La jenan tagadvikitaĵoj estis kreitaj per uzo de Parrot-kodo asistenta:

  • the-stack-headers

  • the-stack-licenses

Tiuj skriptoj estas kreitaj kun la The Phind-CodeLlama-34B-v2_q8.guff modelo de TheBloke.

Note

La dokumentado de Parrot estas skribita en la angla, kaj uzas tradukadon de masina per inteligenta agento por aliaj lingvoj.