El conjunto de datos Smack

El conjunto de datos Smack no existe. En el futuro, si surge, será una construcción libre de The Stack Dataset sin utilizar el conjunto de datos original directamente debido a las limitaciones de licencia no libres (no «open source»).

Nota

El Parrot está en desarrollo temprano, no está listo para usuarios finales.

Los metadatos de la pila

El Stack tiene un repositorio de metadatos separado que contiene información sobre el conjunto de datos sin alojar el conjunto de datos mismo. Esta práctica es benefici

Enlace al repositorio de Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Descargando metadatos

La metadatos es significativamente menor que el conjunto de datos completo, pero aún es bastante grande. El repositorio de metadatos de Git tiene aproximadamente un terabyte de tamaño.

Reading Metadata

El metadato de la Pila se almacena en formato parquet. Los archivos parquet abarcan 562 gigabytes y comprenden 2.832 archivos individuales en 945 directorios.

Seleccionar repositorios

Escribe un script para filtrar repositorios adecuados según criterios libres.

Clonando repositorios

Escribe un script para clonar los repositorios seleccionados.

Tren

Utiliza código libre de Bigcode (creadores de The Stack) para el entrenamiento del modelo.

Scripts

Los siguientes guiones están disponibles:

the-stack-headers – Retrieves header names from The Stack’s parquet files.
the-stack-licenses – Extracts licenses and records from The Stack’s license file.

Asistente de código

Los siguientes guiones fueron desarrollados utilizando el asistente de código Parrot:

the-stack-headers
the-stack-licenses

Estos scripts se crearon con el modelo The Phind-CodeLlama-34B-v2_q8.guff de TheBloke.

Nota

La documentación de Parrot está escrita en inglés y utiliza la traducción automática del motor de inteligencia artificial para otros idiomas.