LLM训练数据包｜Cursor软件生态代码数据 1500G｜给类似Cursor软件大模型训练专用｜全新AI大模型训练数据包｜支持企业定制合作

描述

一、产品概述

面向“会写完整可用软件”的代码类 LLM/智能开发代理（Agent）的训练数据包，围绕真实开发全流程补齐第三方服务调用、依赖管理、错误修复、文档—实现对齐等生态知识。
数据规模：≈1500G
价格：HKD 99,000（9.9W）
上线时间：9 月 21 日（现已开售）
支持：企业定制扩容 / 行业专用包

二、核心价值

生态级覆盖：不仅含源码，还覆盖第三方 API/SDK 使用、依赖与构建、配置与部署要点。
可执行导向：围绕“能跑通”组织与标注，提升编译/运行通过率与 API 调用成功率。
高质量清洗：去重、脱敏、许可扫描与结构化标识，便于直接用于预训练/指令微调。
专为代码模型：更适配 Code LLM、Agent、IDE Copilot、RAG+执行等场景。

三、数据内容构成（示例）

1) 代码与依赖

多语言源码：Python / JS/TS / Go / Rust / Java / C# / Bash 等
依赖与构建：requirements.txt、package.json、go.mod、Dockerfile、CI 配置
配置与环境：常见服务连接配置模板与最佳实践（已脱敏）

2) 第三方服务知识

API/SDK 文档要点 ↔ 代码调用示例对齐
常用生态：支付/消息/存储/搜索/AI 推理/云平台（如 Stripe、Telegram Bot、OpenAI、AWS 等）的调用范式与错误处理模式
接口类型：OpenAPI/GraphQL 结构与客户端调用样例

3) 工程化与质量

任务/提交信息 ↔ 代码变更（commit/PR 摘要与 diff 对）
常见错误日志 ↔ 修复补丁（error→fix patterns）
单测样例与覆盖率标记（抽样）

4) 指令到代码的映射（训练友好）

需求/指令 → 代码片段/补丁成对样本（便于 SFT）
工具/CLI 调用与脚手架生成轨迹（利于 Agent 规划—执行学习）

四、标注与清洗流程（关键环节）

结构化标注：语言、领域/场景、功能（鉴权/支付/存储/消息等）、第三方服务、复杂度、可执行性标签
去重与归并：语义与 AST 双重去重；去镜像、去垃圾文件
质量抽测：编译/运行抽样验证；错误与修复模式对齐标注

五、适用场景

类 Cursor 的 IDE 智能体 / 代码助手
代码 LLM 预训练/指令微调（SFT）、RAG + 执行、Agent 规划-调用-调试链路学习
企业内部“应用生成器”、低门槛自动化开发工具
行业专用软件模型（电商、内容、客服、数据工具等）

六、交付与集成

交付方式：S3/OSS 直链、专线传输、加密硬盘寄送
文件格式：JSONL / Parquet（样本与标注）、tar.gz / Git bundle（代码与资源）
配套资料：样例解析脚本、训练/微调参考配置、数据字典
兼容性：适配多数主流训练框架与向量/检索系统；支持与现有语料做去重对齐
购买方式：请联系商务support@llmjiekou.shop。

七、版本与定价

标准版（≈1500G）：HKD99,000（一次性授权）
企业定制版（可扩展）：价格面议（行业专包、特定生态新增、强化“需求→代码→测试/部署”成对数据）

八、常见问题（FAQ）

Q1：能否先评估效果？
A：可申请小样本试用片段，用于验证训练/微调流程与指标口径。请联系商务support@llmjiekou.shop。

Q2：与通用代码语料有何不同？
A：强调 “生态与可执行性”：第三方服务调用范式、依赖/构建、错误—修复模式与文档—实现对齐，这些都是“能写成可用软件”的关键补全。

LLM接口
一站式AI服务商城

描述