Das Smack-Datenset

Das Smack-Datensatz existiert nicht. Wenn es in der Zukunft auftritt, wird es ein libre Bau des Stack-Datensatzes sein, ohne den Originaldatensatz direkt zu verwenden, aufgrund von Nicht-Libre (nicht „Open Source“)

Bemerkung

Parrot ist in der frühen Entwicklungsphase und nicht für Endbenutzer bereit.

Die Stack-Metadaten

Das Stack hat ein separates Metadaten-Repository, das Informationen über das Dataset enthält, ohne das Dataset selbst zu hosten. Diese Praxis ist vorteilhaft

Link to the Git Repository:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Herunterladen von Metadaten

Die Metadaten sind erheblich kleiner als das gesamte Dataset, aber dennoch beträchtlich groß. Der Git-Metadatenrepository ist ungefähr ein Terabyte groß.

Lesen von Metadaten

Das Metadaten-Stack ist im parquet-Format gespeichert. Die parquet-Dateien umfassen 562 Gigabyte und setzen sich aus 2.832 einzelnen Dateien zusammen, die über 945 Verzeichnisse verteilen.

Auswählen von Repositories

Schreiben Sie ein Skript, um geeignete Repositories basierend auf den Kriterien von „libre“ zu filtern.

Klonen von Depots

Schreiben Sie ein Skript, um die ausgewählten Repositories zu klonen.

Zug

Nutzen Sie freien Code von Bigcode (Erschaffer von The Stack) für Modelltraining.

Skripte

Die folgenden Skripte sind verfügbar:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Coder Assistent

Die folgenden Skripte wurden mit Hilfe von Parrot-Codeassistent entwickelt:

  • the-stack-headers

  • the-stack-licenses

Diese Skripte wurden mit dem Modell The Phind-CodeLlama-34B-v2_q8.guff von TheBloke erstellt.

Bemerkung

Die Parrot-Dokumentation ist auf Englisch verfasst und verwendet künstliche Intelligenz für maschinelle Übersetzungen in andere Sprachen.