El conjunto de datos Smack
El conjunto de datos Smack no existe. En el futuro, si surge, será una construcción libre de The Stack Dataset sin utilizar el conjunto de datos original directamente debido a las limitaciones de licencia no libres (no «open source»).
Nota
El Parrot está en desarrollo temprano, no está listo para usuarios finales.
Los metadatos de la pila
El Stack tiene un repositorio de metadatos separado que contiene información sobre el conjunto de datos sin alojar el conjunto de datos mismo. Esta práctica es benefici
Enlace al repositorio de Git:
git clone https://huggingface.co/datasets/bigcode/the-stack-metadata
Descargando metadatos
La metadatos es significativamente menor que el conjunto de datos completo, pero aún es bastante grande. El repositorio de metadatos de Git tiene aproximadamente un terabyte de tamaño.
Reading Metadata
El metadato de la Pila se almacena en formato parquet. Los archivos parquet abarcan 562 gigabytes y comprenden 2.832 archivos individuales en 945 directorios.
Seleccionar repositorios
Escribe un script para filtrar repositorios adecuados según criterios libres.
Clonando repositorios
Escribe un script para clonar los repositorios seleccionados.
Tren
Utiliza código libre de Bigcode (creadores de The Stack) para el entrenamiento del modelo.
Scripts
Los siguientes guiones están disponibles:
the-stack-headers
– Retrieves header names from The Stack’s parquet files.the-stack-licenses
– Extracts licenses and records from The Stack’s license file.
Asistente de código
Los siguientes guiones fueron desarrollados utilizando el asistente de código Parrot:
the-stack-headers
the-stack-licenses
Estos scripts se crearon con el modelo The Phind-CodeLlama-34B-v2_q8.guff de TheBloke.
Nota
La documentación de Parrot está escrita en inglés y utiliza la traducción automática del motor de inteligencia artificial para otros idiomas.