Het Smack Dataset
Het Smack Dataset bestaat niet. In de toekomst, als het voorkomt, zal het een libre bouw van The Stack dataset zijn zonder de oorspronkelijke dataset direct te gebruiken vanwege niet-libre (niet-“open source
Notitie
Parrot is in een vroeg stadium van ontwikkeling en is nog niet klaar voor eindgebruikers.
De stackmetagegevens
Het Stack heeft een afzonderlijke metagegevensopslagplaats die informatie bevat over de dataset zonder de dataset zelf te hosten. Deze praktijk
Koppeling naar de Git-opslagplaats:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Het downloaden van metadata
De metagegevens zijn aanzienlijk minder dan de volledige dataset, maar nog steeds aanzienlijk groot. De Git-metadatopostkoppeling is ongeveer een terabyte groot.
Lezen van metadata
Het metadat van de Stack wordt opgeslagen in parquet-indeling. De parket bestanden beslaan 562 gigabytes en bestaan uit 2.832 afzonderlijke bestanden over 945 mappen.
Repo’s selecteren
Schrijf een script om geschikte opslagplaatsen te filteren op basis van vrije criteria.
Klonen van repositories
Schrijf een script om de geselecteerde repositories te klonen.
Trein
Gebruik vrije code van Bigcode (makelaars van De Stack) voor modeltraining.
Schriften
De volgende scripts zijn beschikbaar:
the-stack-headers
– Retrieves header names from The Stack’s parquet files.the-stack-licenses
– Extracts licenses and records from The Stack’s license file.
Codehulp
De volgende scripts zijn ontwikkeld met behulp van Parrot code assist:
the-stack-headers
the-stack-licenses
Deze scripts zijn gemaakt met het The Phind-CodeLlama-34B-v2_q8.guff-model van TheBloke.
Notitie
De Parrot-documentatie is geschreven in het Engels en maakt gebruik van kunstmatige intelligentie voor vertalingen naar andere talen.