Het Smack Dataset

Het Smack Dataset bestaat niet. In de toekomst, als het voorkomt, zal het een libre bouw van The Stack dataset zijn zonder de oorspronkelijke dataset direct te gebruiken vanwege niet-libre (niet-“open source

Notitie

Parrot is in een vroeg stadium van ontwikkeling en is nog niet klaar voor eindgebruikers.

De stackmetagegevens

Het Stack heeft een afzonderlijke metagegevensopslagplaats die informatie bevat over de dataset zonder de dataset zelf te hosten. Deze praktijk

Koppeling naar de Git-opslagplaats:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Het downloaden van metadata

De metagegevens zijn aanzienlijk minder dan de volledige dataset, maar nog steeds aanzienlijk groot. De Git-metadatopostkoppeling is ongeveer een terabyte groot.

Lezen van metadata

Het metadat van de Stack wordt opgeslagen in parquet-indeling. De parket bestanden beslaan 562 gigabytes en bestaan uit 2.832 afzonderlijke bestanden over 945 mappen.

Repo’s selecteren

Schrijf een script om geschikte opslagplaatsen te filteren op basis van vrije criteria.

Klonen van repositories

Schrijf een script om de geselecteerde repositories te klonen.

Trein

Gebruik vrije code van Bigcode (makelaars van De Stack) voor modeltraining.

Schriften

De volgende scripts zijn beschikbaar:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Codehulp

De volgende scripts zijn ontwikkeld met behulp van Parrot code assist:

  • the-stack-headers

  • the-stack-licenses

Deze scripts zijn gemaakt met het The Phind-CodeLlama-34B-v2_q8.guff-model van TheBloke.

Notitie

De Parrot-documentatie is geschreven in het Engels en maakt gebruik van kunstmatige intelligentie voor vertalingen naar andere talen.