您的购物车目前是空的!
LLM训练数据包|情感陪伴生态对话数据|面向陪伴/角色扮演/ROLEPLAY的专业语料
一、产品概述 情感陪伴与角色扮演(Roleplay)多模态对话数据是为“长对话、沉浸式互动、人物不崩”的 LL […]
描述
一、产品概述
情感陪伴与角色扮演(Roleplay)多模态对话数据是为“长对话、沉浸式互动、人物不崩”的 LLM/陪伴助手打造的训练数据包。不同于只提供短句闲聊的通用语料,本数据围绕长时多轮陪伴与酒馆(Tavern)式场景组织,补齐HTML/富文本页面、角色卡(Persona)、世界观设定、房间/看板内容、图片占位描述等多模态上下文,适合打造可长期维系关系的情感陪伴模型与沉浸式 RP 智能体。
数据规模:标准版≈60G(可扩至 150G+)
价格:HKD 24,999(标准版)|HKD 44,999(专业版)
上线时间:9月23日起(现已开售)
支持:企业定制扩容 / 行业专用包(来源网站 rubii.ai/mufy.chat真实上游调用数据)
二、核心价值
长对话优势:覆盖 20~200 轮真实陪伴场景,情绪起伏与关系推进自然,利于训练长程记忆与角色一致性。
多模态对齐:不只文本,包含 HTML 酒馆房间页/角色主页/剧情看板、Markdown 模板、图片占位与描述、(可选)音频转写,贴近实际 App 呈现。
场景化沉浸:人物设定、世界观、事件钩子(纪念日/任务/复盘)以富文本/页面形式提供,模型更容易“在界面里说话、围绕素材接话”。
高质量清洗:去重、脱敏、敏感与越界标注,结构化元信息,便于直接用于预训练/指令微调(SFT)/RLAIF/RAG+记忆。
三、数据内容构成(示例维度)
长对话与情绪轨迹
-
多主题长对话:日常陪伴、安抚与鼓励、冲突修复、成长计划等
-
轮级情绪:类别(愉悦/焦虑/悲伤/愤怒…)、强度(0–1)、转折点
角色与世界观(Tavern 风格)
-
角色卡(Persona):人设、口吻、禁忌、价值观与边界
-
世界观/时间线:背景设定、事件节点、关系脉络
多模态资源
-
HTML:酒馆房间页、角色主页、剧情看板(标题/段落/注释/内链)
-
图片占位+描述:头像、贴纸、场景插图的文本化说明
基础标注
-
场景标签、情绪类别与强度、角色一致性标记(In-Character)、敏感/越界标签与重定向样本
四、标注与清洗流程
结构化标注:场景、意图、情绪(类别/强度)、角色一致性、敏感/越界分类
去重与归并:语义指纹与规则并用,去模板/去垃圾/聚合相似会话
质量抽测:人设一致性抽检、语言自然度抽检、敏感重定向覆盖率抽检、多模态引用一致性抽检
五、适用场景
-
角色扮演 / 情感陪伴 App(酒馆/房间/看板式互动)
-
长剧情互动与沉浸式对话产品
-
RAG + 角色记忆/世界观检索(HTML/富文本对齐)
-
企业关怀/轻心理支持助手
六、交付与集成
交付方式:S3/OSS 直链、专线传输或加密硬盘寄送
文件格式:JSONL / Parquet(样本与标注)、HTML/MD 资源包、tar.gz(静态素材)
兼容性:可用于主流训练框架与检索系统;支持与你现有语料进行去重对齐
购买方式:请联系support@llmjiekou.shop
七、版本与定价
试用版(≈2K 角色、10K聊天):HKD 4,999(包含批量真实角色卡片,以及10K随机规模聊天记录)
标准版(≈60G、10K级别角色卡、100K 聊天):HKD24,999(一次性授权)
专业版(≈150G、20K级别角色卡、200K 聊天):HKD 44,999(长剧情占比↑、多模态 HTML/富文本占比↑、角色卡片数量↑)
企业定制版(选配):
-
体量扩展与行业专包(如社交、两性关系)
-
指定题材/语言/文化语域/口吻风格占比
-
更高比例的 HTML 场景页与多模态资源
- 更多精选角色
欲进行购买,请联系商务support@llmjiekou.shop。
八、常见问题(FAQ)
Q1:能否先评估效果?
A:可申请小样本试用片段与解析/评测脚本,用于快速验证训练流程与指标口径。申请需要支付预付金用来验证sample,请联系商务support@llmjiekou.shop。
Q2:与通用聊天语料相比差异?
A:本包强调长聊天文本 + 多模态 + 酒馆式场景:提供 HTML/富文本页面、角色卡与世界观、事件化对话与情绪轨迹,贴近真实产品形态,更有利于长程记忆、人物不崩与多模态对齐。
Q3:如何集成到现有系统?
A:提供 JSONL/Parquet + HTML/MD 的统一目录结构与示例解析代码,适配 SFT / RLAIF / RAG+记忆,并支持与你的私有语料做去重与占比调优。




