המאגר הדיט של סמאק

המجموعת נתונים Smack לא קיימת. בעתיד, אם זאת יקרה, תהיה בניית קו

הערה

התמונה באיכות ראשונית ולא מוכנה עבור משתמשים סופיים.

המетаדאטה של הקו

הייק מכין מאגר מטادית נפרד שמכיל מידע

קישור למחזן ה-Git:

git clone https://huggingface.co/datasets/bigcode/the-stack-metadata

הורדת מידע

המетаדאטה פחות ממאד קטנה מיותר ממהכלל הנתונים, אבל עדיין מאוד גדולה. מחסنת המאגר המета-

קוריעה מידע

המета-נתונים של הצורה מאוחסנים בפורמט parquet. קבצי ה-parquet מכילים 562 ג׳יגהבייט

בחירת מחוזות

כתיבה שקריפט לסנן חלונות מתאימות בהתבסס על קריטריונים חיוברים.

קונפיגורציה של המחסנים

כתיבה של סקריפט ל克隆 את המחלקות הנבחרות.

התחברות

השתמש בקוד חינם מ-Bigcode (יוצרי The Stack) לאימון מודל.

סקריפטים

הקבצים הבאים זמינים:

  • the-stack-headers – Retrieves header names from The Stack’s parquet files.

  • the-stack-licenses – Extracts licenses and records from The Stack’s license file.

קוד מועזר

הסקריפטים הבאים נוצרו באמצעות קוד העזר של Parrot:

  • the-stack-headers

  • the-stack-licenses

הסקריפטים נוצרו באמצעות המודל The Phind-CodeLlama-34B-v2_q8.guff מתוך TheBloke.

הערה

תיעוד לפרוט כותב באנגלית ומשתמש בתרגום מכונה לשפות אחרות.