您的购物车目前是空的!
LLM训练数据包|Cursor软件生态代码数据 1500G|给类似Cursor软件大模型训练专用|全新AI大模型训练数据包|支持企业定制合作
一、产品概述 面向“会写完整可用软件”的代码类 LLM/智能开发代理(Agent)的训练数据包,围绕真实开发全 […]
描述
一、产品概述
面向“会写完整可用软件”的代码类 LLM/智能开发代理(Agent)的训练数据包,围绕真实开发全流程补齐第三方服务调用、依赖管理、错误修复、文档—实现对齐等生态知识。
数据规模:≈1500G
价格:HKD 99,000(9.9W)
上线时间:9 月 21 日(现已开售)
支持:企业定制扩容 / 行业专用包
二、核心价值
-
生态级覆盖:不仅含源码,还覆盖第三方 API/SDK 使用、依赖与构建、配置与部署要点。
-
可执行导向:围绕“能跑通”组织与标注,提升编译/运行通过率与 API 调用成功率。
-
高质量清洗:去重、脱敏、许可扫描与结构化标识,便于直接用于预训练/指令微调。
-
专为代码模型:更适配 Code LLM、Agent、IDE Copilot、RAG+执行 等场景。
三、数据内容构成(示例)
1) 代码与依赖
-
多语言源码:Python / JS/TS / Go / Rust / Java / C# / Bash 等
-
依赖与构建:
requirements.txt、package.json、go.mod、Dockerfile、CI 配置 -
配置与环境:常见服务连接配置模板与最佳实践(已脱敏)
2) 第三方服务知识
-
API/SDK 文档要点 ↔ 代码调用示例对齐
-
常用生态:支付/消息/存储/搜索/AI 推理/云平台(如 Stripe、Telegram Bot、OpenAI、AWS 等)的调用范式与错误处理模式
-
接口类型:OpenAPI/GraphQL 结构与客户端调用样例
3) 工程化与质量
-
任务/提交信息 ↔ 代码变更(commit/PR 摘要与 diff 对)
-
常见错误日志 ↔ 修复补丁(error→fix patterns)
-
单测样例与覆盖率标记(抽样)
4) 指令到代码的映射(训练友好)
-
需求/指令 → 代码片段/补丁 成对样本(便于 SFT)
-
工具/CLI 调用与脚手架生成轨迹(利于 Agent 规划—执行学习)
四、标注与清洗流程(关键环节)
-
结构化标注:语言、领域/场景、功能(鉴权/支付/存储/消息等)、第三方服务、复杂度、可执行性标签
-
去重与归并:语义与 AST 双重去重;去镜像、去垃圾文件
-
质量抽测:编译/运行抽样验证;错误与修复模式对齐标注
五、适用场景
-
类 Cursor 的 IDE 智能体 / 代码助手
-
代码 LLM 预训练/指令微调(SFT)、RAG + 执行、Agent 规划-调用-调试链路学习
-
企业内部“应用生成器”、低门槛自动化开发工具
-
行业专用软件模型(电商、内容、客服、数据工具等)
六、交付与集成
-
交付方式:S3/OSS 直链、专线传输、加密硬盘寄送
-
文件格式:JSONL / Parquet(样本与标注)、tar.gz / Git bundle(代码与资源)
-
配套资料:样例解析脚本、训练/微调参考配置、数据字典
-
兼容性:适配多数主流训练框架与向量/检索系统;支持与现有语料做去重对齐
- 购买方式:请联系商务support@llmjiekou.shop。
七、版本与定价
标准版(≈1500G):HKD99,000(一次性授权)
企业定制版(可扩展):价格面议(行业专包、特定生态新增、强化“需求→代码→测试/部署”成对数据)
八、常见问题(FAQ)
Q1:能否先评估效果?
A:可申请小样本试用片段,用于验证训练/微调流程与指标口径。请联系商务support@llmjiekou.shop。
Q2:与通用代码语料有何不同?
A:强调 “生态与可执行性”:第三方服务调用范式、依赖/构建、错误—修复模式与文档—实现对齐,这些都是“能写成可用软件”的关键补全。



