行业数据集 – LLMJiekou – 专业LLM接口供应商 / Fri, 03 Oct 2025 12:03:26 +0000 zh-Hans hourly 1 https://wordpress.org/?v=6.8.3 /wp-content/uploads/2025/09/ChatGPT-Image-Sep-29-2025-07_08_19-PM-100x100.png 行业数据集 – LLMJiekou – 专业LLM接口供应商 / 32 32 Rubii/Mufy 角色卡资料包丨原生设定全收录丨213,418张完整人设丨30天持续更新丨比自行整理省时90%丨含公开+私密角色丨支持单卡定制购买丨全球用户可用丨AI角色设定商城丨立即获取 /index.php/product/roleplay-dataset-sample/ Wed, 01 Oct 2025 12:32:22 +0000 /?post_type=product&p=154 应广大用户需求,我们现正式推出 Rubii/Mufy 平台角色扮演的角色卡设定资料包
内容完整、整理有序,涵盖大量热门与私密角色卡,支持收藏、复用与创作。

数据集预览地址:点击查看

/roleplay_sample/index.html

一、版本介绍

公开版(精选 100 张热门角色卡)

  • 随机选取 100 个 Rubii/Mufy 热门角色卡

  • 每张角色卡包含:

    • 角色名称

    • 创作者名称

    • 人设设定

    • 全局美化代码

    • 小剧场代码

    • 开场设计

    • 默认认知

    • 情节设定

    • 输出设定

    • 样例对话 & 文风

    • 物品栏配置(Mufy 专属)

 进阶版(精选 5,000 张热门角色卡)

  • 覆盖度更广,适合 高频玩家与创作者

  • 内容字段同公开版

  • 全部来自人气排行前列角色卡

 完整版(213,418 张角色卡)

(数据截至 2025 年 10 月 1 日)

  • 收录 Rubii/Mufy 平台全部 公开与私密角色卡

  • 每张卡均含完整设定与美化代码

  • 附带:

    • 角色相关世界观设定文档

    • 资料库原文

二、 后续计划预告

  • 即将上线 “单卡购买”服务

  • 只需提供角色名称,即可获取完整设定

  • 适合个性化收藏或创作需求

三、 持续更新说明

  • 我们通过平台调用的大语言模型接口 实时提取最新角色卡信息

  • 确保资料库持续更新,保证您获取的始终是 最新内容

]]>
LLM训练数据包|情感陪伴生态对话数据|面向陪伴/角色扮演/ROLEPLAY的专业语料 /index.php/product/ds-roleplay/ Mon, 29 Sep 2025 15:15:33 +0000 /?post_type=product&p=133 一、产品概述

情感陪伴与角色扮演(Roleplay)多模态对话数据是为“长对话、沉浸式互动、人物不崩”的 LLM/陪伴助手打造的训练数据包。不同于只提供短句闲聊的通用语料,本数据围绕长时多轮陪伴酒馆(Tavern)式场景组织,补齐HTML/富文本页面、角色卡(Persona)、世界观设定、房间/看板内容、图片占位描述等多模态上下文,适合打造可长期维系关系的情感陪伴模型与沉浸式 RP 智能体。
数据规模:标准版≈60G(可扩至 150G+)
价格HKD 24,999(标准版)HKD 44,999(专业版)
上线时间:9月23日起(现已开售)
支持:企业定制扩容 / 行业专用包(来源网站 rubii.ai/mufy.chat真实上游调用数据


二、核心价值

长对话优势:覆盖 20~200 轮真实陪伴场景,情绪起伏与关系推进自然,利于训练长程记忆角色一致性
多模态对齐:不只文本,包含 HTML 酒馆房间页/角色主页/剧情看板、Markdown 模板、图片占位与描述、(可选)音频转写,贴近实际 App 呈现。
场景化沉浸:人物设定、世界观、事件钩子(纪念日/任务/复盘)以富文本/页面形式提供,模型更容易“在界面里说话、围绕素材接话”。
高质量清洗:去重、脱敏、敏感与越界标注,结构化元信息,便于直接用于预训练/指令微调(SFT)/RLAIF/RAG+记忆


三、数据内容构成(示例维度)

长对话与情绪轨迹

  • 多主题长对话:日常陪伴、安抚与鼓励、冲突修复、成长计划等

  • 轮级情绪:类别(愉悦/焦虑/悲伤/愤怒…)、强度(0–1)、转折点

角色与世界观(Tavern 风格)

  • 角色卡(Persona):人设、口吻、禁忌、价值观与边界

  • 世界观/时间线:背景设定、事件节点、关系脉络

多模态资源

  • HTML:酒馆房间页、角色主页、剧情看板(标题/段落/注释/内链)

  • 图片占位+描述:头像、贴纸、场景插图的文本化说明

基础标注

  • 场景标签、情绪类别与强度、角色一致性标记(In-Character)、敏感/越界标签与重定向样本


四、标注与清洗流程

结构化标注:场景、意图、情绪(类别/强度)、角色一致性、敏感/越界分类
去重与归并:语义指纹与规则并用,去模板/去垃圾/聚合相似会话
质量抽测:人设一致性抽检、语言自然度抽检、敏感重定向覆盖率抽检、多模态引用一致性抽检


五、适用场景

  • 角色扮演 / 情感陪伴 App(酒馆/房间/看板式互动)

  • 长剧情互动与沉浸式对话产品

  • RAG + 角色记忆/世界观检索(HTML/富文本对齐)

  • 企业关怀/轻心理支持助手


六、交付与集成

交付方式:S3/OSS 直链、专线传输或加密硬盘寄送
文件格式JSONL / Parquet(样本与标注)、HTML/MD 资源包、tar.gz(静态素材)
兼容性:可用于主流训练框架与检索系统;支持与你现有语料进行去重对齐

购买方式:请联系support@llmjiekou.shop


七、版本与定价

试用版(≈2K 角色、10K聊天):HKD 4,999(包含批量真实角色卡片,以及10K随机规模聊天记录)
标准版(≈60G、10K级别角色卡、100K 聊天)HKD24,999(一次性授权)
专业版(≈150G、20K级别角色卡、200K 聊天)HKD 44,999(长剧情占比↑、多模态 HTML/富文本占比↑、角色卡片数量↑)

企业定制版(选配)

  • 体量扩展与行业专包(如社交、两性关系)

  • 指定题材/语言/文化语域/口吻风格占比

  • 更高比例的 HTML 场景页与多模态资源

  • 更多精选角色

欲进行购买,请联系商务support@llmjiekou.shop。

 


八、常见问题(FAQ)

Q1:能否先评估效果?
A:可申请小样本试用片段与解析/评测脚本,用于快速验证训练流程与指标口径。申请需要支付预付金用来验证sample,请联系商务support@llmjiekou.shop。

Q2:与通用聊天语料相比差异?
A:本包强调长聊天文本 + 多模态 + 酒馆式场景:提供 HTML/富文本页面、角色卡与世界观、事件化对话与情绪轨迹,贴近真实产品形态,更有利于长程记忆、人物不崩与多模态对齐

Q3:如何集成到现有系统?
A:提供 JSONL/Parquet + HTML/MD 的统一目录结构与示例解析代码,适配 SFT / RLAIF / RAG+记忆,并支持与你的私有语料做去重与占比调优。

]]>
LLM训练数据包|Cursor软件生态代码数据 1500G|给类似Cursor软件大模型训练专用|全新AI大模型训练数据包|支持企业定制合作 /index.php/product/ds-cursor/ Mon, 29 Sep 2025 12:35:15 +0000 /?post_type=product&p=104 一、产品概述

面向“会写完整可用软件”的代码类 LLM/智能开发代理(Agent)的训练数据包,围绕真实开发全流程补齐第三方服务调用、依赖管理、错误修复、文档—实现对齐等生态知识。
数据规模:≈1500G
价格:HKD 99,000(9.9W)
上线时间:9 月 21 日(现已开售)
支持:企业定制扩容 / 行业专用包

二、核心价值

  • 生态级覆盖:不仅含源码,还覆盖第三方 API/SDK 使用、依赖与构建、配置与部署要点。

  • 可执行导向:围绕“能跑通”组织与标注,提升编译/运行通过率与 API 调用成功率。

  • 高质量清洗:去重、脱敏、许可扫描与结构化标识,便于直接用于预训练/指令微调。

  • 专为代码模型:更适配 Code LLM、Agent、IDE Copilot、RAG+执行 等场景。

三、数据内容构成(示例)

1) 代码与依赖

  • 多语言源码:Python / JS/TS / Go / Rust / Java / C# / Bash 等

  • 依赖与构建:requirements.txtpackage.jsongo.modDockerfile、CI 配置

  • 配置与环境:常见服务连接配置模板与最佳实践(已脱敏)

2) 第三方服务知识

  • API/SDK 文档要点 ↔ 代码调用示例对齐

  • 常用生态:支付/消息/存储/搜索/AI 推理/云平台(如 Stripe、Telegram Bot、OpenAI、AWS 等)的调用范式与错误处理模式

  • 接口类型:OpenAPI/GraphQL 结构与客户端调用样例

3) 工程化与质量

  • 任务/提交信息 ↔ 代码变更(commit/PR 摘要与 diff 对)

  • 常见错误日志 ↔ 修复补丁(error→fix patterns)

  • 单测样例与覆盖率标记(抽样)

4) 指令到代码的映射(训练友好)

  • 需求/指令 → 代码片段/补丁 成对样本(便于 SFT)

  • 工具/CLI 调用与脚手架生成轨迹(利于 Agent 规划—执行学习)

四、标注与清洗流程(关键环节)

  • 结构化标注:语言、领域/场景、功能(鉴权/支付/存储/消息等)、第三方服务、复杂度、可执行性标签

  • 去重与归并:语义与 AST 双重去重;去镜像、去垃圾文件

  • 质量抽测:编译/运行抽样验证;错误与修复模式对齐标注

五、适用场景

  • 类 Cursor 的 IDE 智能体 / 代码助手

  • 代码 LLM 预训练/指令微调(SFT)、RAG + 执行、Agent 规划-调用-调试链路学习

  • 企业内部“应用生成器”、低门槛自动化开发工具

  • 行业专用软件模型(电商、内容、客服、数据工具等)

六、交付与集成

  • 交付方式:S3/OSS 直链、专线传输、加密硬盘寄送

  • 文件格式:JSONL / Parquet(样本与标注)、tar.gz / Git bundle(代码与资源)

  • 配套资料:样例解析脚本、训练/微调参考配置、数据字典

  • 兼容性:适配多数主流训练框架与向量/检索系统;支持与现有语料做去重对齐

  • 购买方式:请联系商务support@llmjiekou.shop。

七、版本与定价


标准版(≈1500G)HKD99,000(一次性授权)
企业定制版(可扩展)价格面议(行业专包、特定生态新增、强化“需求→代码→测试/部署”成对数据)

八、常见问题(FAQ)

Q1:能否先评估效果?
A:可申请小样本试用片段,用于验证训练/微调流程与指标口径。请联系商务support@llmjiekou.shop。

Q2:与通用代码语料有何不同?
A:强调 “生态与可执行性”:第三方服务调用范式、依赖/构建、错误—修复模式与文档—实现对齐,这些都是“能写成可用软件”的关键补全。

]]>