{"ID":2857543,"CreatedAt":"2026-06-01T04:54:23.091178241Z","UpdatedAt":"2026-06-01T04:54:23.091178241Z","DeletedAt":null,"paper_url":"https://arxiv.org/abs/2510.09316","arxiv_id":"2510.09316","title":"Large Language Model Prompt Datasets: An In-depth Analysis and Insights","abstract":"We compile 129 heterogeneous LLM prompt datasets (\u003e1.22 TB, \u003e673M instances) into a structured taxonomy and conduct a multi-level linguistic analysis (lexical, syntactic, and semantic) on seven representative corpora, surfacing systematic patterns that distinguish prompts from general text. Three downstream experiments validate practical utility: prompt filtering (F1 = 0.90), domain classification (Macro-F1 = 0.975), and prompt quality prediction (AUC = 0.792), all without invoking any additional model. A central finding is that 62-d syntactic features (POS + dependency distributions) serve as a uniquely efficient routing primitive, recovering \u003e93% of GPU-embedding accuracy at 1.9 $\\times$ lower single-request latency (3.0 ms vs. 5.7 ms) with no GPU and no corpus vocabulary. A complementary discriminative--predictive divergence shows that features most useful for routing are precisely those most negatively correlated with response quality, while lexical diversity (Cohen's $d$ = 0.71) dominates the quality signal but carries minimal routing weight, directly motivating two-stage pipeline design. Our datasets and code are available.","short_abstract":"We compile 129 heterogeneous LLM prompt datasets (\u003e1.22 TB, \u003e673M instances) into a structured taxonomy and conduct a multi-level linguistic analysis (lexical, syntactic, and semantic) on seven representative corpora, surfacing systematic patterns that distinguish prompts from general text. Three downstream experiments...","url_abs":"https://arxiv.org/abs/2510.09316","url_pdf":"https://arxiv.org/pdf/2510.09316v2","authors":"[\"Yuanming Zhang\",\"Yan Lin\",\"Arijit Khan\",\"Huaiyu Wan\"]","published":"2025-10-10T12:15:55Z","proceeding":"cs.LG","tasks":"[\"cs.LG\",\"cs.CL\"]","methods":"[\"Large Language Model\",\"Language Model\"]","has_code":false}