LLM接口
一站式AI服务商城


想采购Claude-5官方接口?
想采购GPT-5 API? 采买超低成本Gemini服务?
想采购LLM大模型训练数据?

我们专业提供一站式
AI、API、LLM数据等服务,源头直供!

LLM训练数据包|情感陪伴生态对话数据|面向陪伴/角色扮演/ROLEPLAY的专业语料

一、产品概述 情感陪伴与角色扮演(Roleplay)多模态对话数据是为“长对话、沉浸式互动、人物不崩”的 LL […]

Category:

描述

一、产品概述

情感陪伴与角色扮演(Roleplay)多模态对话数据是为“长对话、沉浸式互动、人物不崩”的 LLM/陪伴助手打造的训练数据包。不同于只提供短句闲聊的通用语料,本数据围绕长时多轮陪伴酒馆(Tavern)式场景组织,补齐HTML/富文本页面、角色卡(Persona)、世界观设定、房间/看板内容、图片占位描述等多模态上下文,适合打造可长期维系关系的情感陪伴模型与沉浸式 RP 智能体。
数据规模:标准版≈60G(可扩至 150G+)
价格HKD 24,999(标准版)HKD 44,999(专业版)
上线时间:9月23日起(现已开售)
支持:企业定制扩容 / 行业专用包(来源网站 rubii.ai/mufy.chat真实上游调用数据


二、核心价值

长对话优势:覆盖 20~200 轮真实陪伴场景,情绪起伏与关系推进自然,利于训练长程记忆角色一致性
多模态对齐:不只文本,包含 HTML 酒馆房间页/角色主页/剧情看板、Markdown 模板、图片占位与描述、(可选)音频转写,贴近实际 App 呈现。
场景化沉浸:人物设定、世界观、事件钩子(纪念日/任务/复盘)以富文本/页面形式提供,模型更容易“在界面里说话、围绕素材接话”。
高质量清洗:去重、脱敏、敏感与越界标注,结构化元信息,便于直接用于预训练/指令微调(SFT)/RLAIF/RAG+记忆


三、数据内容构成(示例维度)

长对话与情绪轨迹

  • 多主题长对话:日常陪伴、安抚与鼓励、冲突修复、成长计划等

  • 轮级情绪:类别(愉悦/焦虑/悲伤/愤怒…)、强度(0–1)、转折点

角色与世界观(Tavern 风格)

  • 角色卡(Persona):人设、口吻、禁忌、价值观与边界

  • 世界观/时间线:背景设定、事件节点、关系脉络

多模态资源

  • HTML:酒馆房间页、角色主页、剧情看板(标题/段落/注释/内链)

  • 图片占位+描述:头像、贴纸、场景插图的文本化说明

基础标注

  • 场景标签、情绪类别与强度、角色一致性标记(In-Character)、敏感/越界标签与重定向样本


四、标注与清洗流程

结构化标注:场景、意图、情绪(类别/强度)、角色一致性、敏感/越界分类
去重与归并:语义指纹与规则并用,去模板/去垃圾/聚合相似会话
质量抽测:人设一致性抽检、语言自然度抽检、敏感重定向覆盖率抽检、多模态引用一致性抽检


五、适用场景

  • 角色扮演 / 情感陪伴 App(酒馆/房间/看板式互动)

  • 长剧情互动与沉浸式对话产品

  • RAG + 角色记忆/世界观检索(HTML/富文本对齐)

  • 企业关怀/轻心理支持助手


六、交付与集成

交付方式:S3/OSS 直链、专线传输或加密硬盘寄送
文件格式JSONL / Parquet(样本与标注)、HTML/MD 资源包、tar.gz(静态素材)
兼容性:可用于主流训练框架与检索系统;支持与你现有语料进行去重对齐

购买方式:请联系support@llmjiekou.shop


七、版本与定价

试用版(≈2K 角色、10K聊天):HKD 4,999(包含批量真实角色卡片,以及10K随机规模聊天记录)
标准版(≈60G、10K级别角色卡、100K 聊天)HKD24,999(一次性授权)
专业版(≈150G、20K级别角色卡、200K 聊天)HKD 44,999(长剧情占比↑、多模态 HTML/富文本占比↑、角色卡片数量↑)

企业定制版(选配)

  • 体量扩展与行业专包(如社交、两性关系)

  • 指定题材/语言/文化语域/口吻风格占比

  • 更高比例的 HTML 场景页与多模态资源

  • 更多精选角色

欲进行购买,请联系商务support@llmjiekou.shop。

 


八、常见问题(FAQ)

Q1:能否先评估效果?
A:可申请小样本试用片段与解析/评测脚本,用于快速验证训练流程与指标口径。申请需要支付预付金用来验证sample,请联系商务support@llmjiekou.shop。

Q2:与通用聊天语料相比差异?
A:本包强调长聊天文本 + 多模态 + 酒馆式场景:提供 HTML/富文本页面、角色卡与世界观、事件化对话与情绪轨迹,贴近真实产品形态,更有利于长程记忆、人物不崩与多模态对齐

Q3:如何集成到现有系统?
A:提供 JSONL/Parquet + HTML/MD 的统一目录结构与示例解析代码,适配 SFT / RLAIF / RAG+记忆,并支持与你的私有语料做去重与占比调优。