Het Smack Dataset

Het Smack Dataset bestaat niet. In de toekomst, als het voorkomt, zal het een libre bouw van The Stack dataset zijn zonder de oorspronkelijke dataset direct te gebruiken vanwege niet-libre (niet-“open source

Notitie

Parrot is in een vroeg stadium van ontwikkeling en is nog niet klaar voor eindgebruikers.

De stackmetagegevens

Het Stack heeft een afzonderlijke metagegevensopslagplaats die informatie bevat over de dataset zonder de dataset zelf te hosten. Deze praktijk

Koppeling naar de Git-opslagplaats:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Het downloaden van metadata

De metagegevens zijn aanzienlijk minder dan de volledige dataset, maar nog steeds aanzienlijk groot. De Git-metadatopostkoppeling is ongeveer een terabyte groot.

Lezen van metadata

Het metadat van de Stack wordt opgeslagen in parquet-indeling. De parket bestanden beslaan 562 gigabytes en bestaan uit 2.832 afzonderlijke bestanden over 945 mappen.

Repo’s selecteren

Schrijf een script om geschikte opslagplaatsen te filteren op basis van vrije criteria.

Klonen van repositories

Schrijf een script om de geselecteerde repositories te klonen.

Trein

Gebruik vrije code van Bigcode (makelaars van De Stack) voor modeltraining.

Schriften

De volgende scripts zijn beschikbaar:

the-stack-headers – Retrieves header names from The Stack’s parquet files.
the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Codehulp

De volgende scripts zijn ontwikkeld met behulp van Parrot code assist:

the-stack-headers
the-stack-licenses

Deze scripts zijn gemaakt met het The Phind-CodeLlama-34B-v2_q8.guff-model van TheBloke.

Notitie

De Parrot-documentatie is geschreven in het Engels en maakt gebruik van kunstmatige intelligentie voor vertalingen naar andere talen.