Ο σύνολος δεδομένων Smack

Η βάση δεδομένων Smack δεν υπάρχει. Με το μέλλον, αν γίνεται πρόσ

Σημείωση

Το Parrot είναι σε πρώιμη ανάπτυξη, δεν είναι έτοιμο για τους τέλους χρήστες.

Τα μετα-δεδομένα του Stack

Το Stack διατηρεί ξεχωριστό αποθετήριο μετα

Link to the Git Repository:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

Κατέβασμα Στοιχείων

Η μεταδεδομένα είναι σημαντικά λιγότερα από το ολόκληρο dataset, αλλά εξακολουθεί να είναι έ

Ανάγνωση Μεταδεδομένων

Τα μεταδεδομένα της σειράς είναι αποθηκευμένα σε φόρματο parquet. Οι αρχεία parquet κ

Επιλογή αποθεμάτων

Write a script to filter appropriate repositories based on libre criteria.

Κλωνοποίηση Repos

Γράψτε ένα σενάριο για να αντιγράψετε τα επιλεγμένα αποθετήρια.

Τρένο

Χρησιμοποίησε λιβέρο κώδικα από το Bigcode (δημιουργοί του The Stack) για την σχολή μοντέλου.

Σκριπτες

Οι παρακάτω εντολές είναι διαθέσιμες:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • Το αρχείο άδειας χρήσης και έγγραφα από το αρχείο άδειας χρήσης του The Stack.

Κωδικός βοήθειας

Η παρούσα δέσμη ενεργειών έχει ανάπτυξη χρησιμοποιώντας τον κωδικό Parrot:

  • the-stack-headers

  • the-stack-licenses

Αυτοί οι σενάριοι δημιουργήθηκαν με το The Phind-CodeLlama-34B-v2_q8.guff μοντέλο από TheBloke.

Σημείωση

Τη δοκιμές του Parrot είναι γραφεί σε αγγλικά και χρησιμοποιεί αρχιτεχνική μηχανή μετάφρασης για άλλες