Le jeu de données Smack
Le jeu de données Smack n’existe pas. À l’avenir, s’il se présente, il sera une construction libre du jeu de données Pile sans utiliser directement le jeu de données d’origine en raison des contraintes de licence non libres (non
Note
Parrot est en développement précoce et n’est pas prêt pour les utilisateurs finaux.
Les métadonnées de la pile
La pile possède un dépôt de métadonnées distinct contenant des informations sur le jeu de données sans héberger ce dernier. Cette pratique est bénéfique car elle
Lien vers le dépôt Git:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Téléchargement des métadonnées
La métadonnée est considérablement inférieure à l’ensemble du jeu de données, mais elle reste néanmoins assez importante. Le dépôt de métadonnées Git mesure environ un téraoctet.
Lecture des métadonnées
Les métadonnées de la pile sont stockées au format parquet. Les fichiers parquet occupent 562 gigaoctets et comprennent 2 832 fichiers individuels dans 945 répertoires.
Sélection des dépôts
Écrire un script pour filtrer des dépôts appropriés en fonction de critères libres.
Clonage des dépôts
Écrire un script pour cloner les dépôts sélectionnés.
Voiture
Utilisez le code libre de Bigcode (créateurs de The Stack) pour la formation du modèle.
Scripts fr
Les scripts suivants sont disponibles :
the-stack-headers
– Retrieves header names from The Stack’s parquet files.the-stack-licenses
– Extracts licenses and records from The Stack’s license file.
Aide au code
Les scripts suivants ont été développés en utilisant l’assistance au codage de Parrot :
the-stack-headers
the-stack-licenses
Ces scripts ont été créés avec le modèle The Phind-CodeLlama-34B-v2_q8.guff de TheBloke.
Note
La documentation de Parrot est rédigée en anglais et utilise la traduction automatique par ordinateur pour les autres langues.