描述

一、产品概述

情感陪伴与角色扮演（Roleplay）多模态对话数据是为“长对话、沉浸式互动、人物不崩”的 LLM/陪伴助手打造的训练数据包。不同于只提供短句闲聊的通用语料，本数据围绕长时多轮陪伴与酒馆（Tavern）式场景组织，补齐HTML/富文本页面、角色卡（Persona）、世界观设定、房间/看板内容、图片占位描述等多模态上下文，适合打造可长期维系关系的情感陪伴模型与沉浸式 RP 智能体。
数据规模：标准版≈60G（可扩至 150G+）
价格：HKD 24,999（标准版）｜HKD 44,999（专业版）
上线时间：9月23日起（现已开售）
支持：企业定制扩容 / 行业专用包（来源网站 rubii.ai/mufy.chat真实上游调用数据）

二、核心价值

长对话优势：覆盖 20～200 轮真实陪伴场景，情绪起伏与关系推进自然，利于训练长程记忆与角色一致性。
多模态对齐：不只文本，包含 HTML 酒馆房间页/角色主页/剧情看板、Markdown 模板、图片占位与描述、（可选）音频转写，贴近实际 App 呈现。
场景化沉浸：人物设定、世界观、事件钩子（纪念日/任务/复盘）以富文本/页面形式提供，模型更容易“在界面里说话、围绕素材接话”。
高质量清洗：去重、脱敏、敏感与越界标注，结构化元信息，便于直接用于预训练/指令微调（SFT）/RLAIF/RAG+记忆。

三、数据内容构成（示例维度）

长对话与情绪轨迹

多主题长对话：日常陪伴、安抚与鼓励、冲突修复、成长计划等
轮级情绪：类别（愉悦/焦虑/悲伤/愤怒…）、强度（0–1）、转折点

角色与世界观（Tavern 风格）

角色卡（Persona）：人设、口吻、禁忌、价值观与边界
世界观/时间线：背景设定、事件节点、关系脉络

多模态资源

HTML：酒馆房间页、角色主页、剧情看板（标题/段落/注释/内链）
图片占位+描述：头像、贴纸、场景插图的文本化说明

基础标注

场景标签、情绪类别与强度、角色一致性标记（In-Character）、敏感/越界标签与重定向样本

四、标注与清洗流程

结构化标注：场景、意图、情绪（类别/强度）、角色一致性、敏感/越界分类
去重与归并：语义指纹与规则并用，去模板/去垃圾/聚合相似会话
质量抽测：人设一致性抽检、语言自然度抽检、敏感重定向覆盖率抽检、多模态引用一致性抽检

五、适用场景

角色扮演 / 情感陪伴 App（酒馆/房间/看板式互动）
长剧情互动与沉浸式对话产品
RAG + 角色记忆/世界观检索（HTML/富文本对齐）
企业关怀/轻心理支持助手

六、交付与集成

交付方式：S3/OSS 直链、专线传输或加密硬盘寄送
文件格式：JSONL / Parquet（样本与标注）、HTML/MD 资源包、tar.gz（静态素材）
兼容性：可用于主流训练框架与检索系统；支持与你现有语料进行去重对齐

购买方式：请联系support@llmjiekou.shop

七、版本与定价

试用版（≈2K 角色、10K聊天）：HKD 4,999（包含批量真实角色卡片，以及10K随机规模聊天记录）
标准版（≈60G、10K级别角色卡、100K 聊天）：HKD24,999（一次性授权）
专业版（≈150G、20K级别角色卡、200K 聊天）：HKD 44,999（长剧情占比↑、多模态 HTML/富文本占比↑、角色卡片数量↑）

企业定制版（选配）：

体量扩展与行业专包（如社交、两性关系）
指定题材/语言/文化语域/口吻风格占比
更高比例的 HTML 场景页与多模态资源
更多精选角色

欲进行购买，请联系商务support@llmjiekou.shop。

八、常见问题（FAQ）

Q1：能否先评估效果？
A：可申请小样本试用片段与解析/评测脚本，用于快速验证训练流程与指标口径。申请需要支付预付金用来验证sample，请联系商务support@llmjiekou.shop。

Q2：与通用聊天语料相比差异？
A：本包强调长聊天文本 + 多模态 + 酒馆式场景：提供 HTML/富文本页面、角色卡与世界观、事件化对话与情绪轨迹，贴近真实产品形态，更有利于长程记忆、人物不崩与多模态对齐。

Q3：如何集成到现有系统？
A：提供 JSONL/Parquet + HTML/MD 的统一目录结构与示例解析代码，适配 SFT / RLAIF / RAG+记忆，并支持与你的私有语料做去重与占比调优。

LLM接口
一站式AI服务商城

LLM训练数据包｜情感陪伴生态对话数据｜面向陪伴/角色扮演/ROLEPLAY的专业语料

描述