Le jeu de données Smack

Le jeu de données Smack n’existe pas. À l’avenir, s’il se présente, il sera une construction libre du jeu de données Pile sans utiliser directement le jeu de données d’origine en raison des contraintes de licence non libres (non

Note

Parrot est en développement précoce et n’est pas prêt pour les utilisateurs finaux.

Les métadonnées de la pile

La pile possède un dépôt de métadonnées distinct contenant des informations sur le jeu de données sans héberger ce dernier. Cette pratique est bénéfique car elle

Lien vers le dépôt Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Téléchargement des métadonnées

La métadonnée est considérablement inférieure à l’ensemble du jeu de données, mais elle reste néanmoins assez importante. Le dépôt de métadonnées Git mesure environ un téraoctet.

Lecture des métadonnées

Les métadonnées de la pile sont stockées au format parquet. Les fichiers parquet occupent 562 gigaoctets et comprennent 2 832 fichiers individuels dans 945 répertoires.

Sélection des dépôts

Écrire un script pour filtrer des dépôts appropriés en fonction de critères libres.

Clonage des dépôts

Écrire un script pour cloner les dépôts sélectionnés.

Voiture

Utilisez le code libre de Bigcode (créateurs de The Stack) pour la formation du modèle.

Scripts fr

Les scripts suivants sont disponibles :

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Aide au code

Les scripts suivants ont été développés en utilisant l’assistance au codage de Parrot :

  • the-stack-headers

  • the-stack-licenses

Ces scripts ont été créés avec le modèle The Phind-CodeLlama-34B-v2_q8.guff de TheBloke.

Note

La documentation de Parrot est rédigée en anglais et utilise la traduction automatique par ordinateur pour les autres langues.