小黄鸡最新版 小黄鸡聊天网页版登录



小黄鸡最新版 小黄鸡聊天网页版登录

文章插图

本文约1000字,建议阅读5分钟 。
该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 。


语料内容
该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的 。
小黄鸡最新版 小黄鸡聊天网页版登录

文章插图



小黄鸡最新版 小黄鸡聊天网页版登录

文章插图





使用方法


下载语料


将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为:
raw_chat_corpus-- language-- process_pipelines-- raw_chat_corpus---- chatterbot-1k---- douban-multiturn-100w---- ....-- main.py-- ...

执行命令即可
python main.py

生成结果


每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下 。
生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer
query \t answer

编辑:王菁
校对:林亦霖
— 完 —
【小黄鸡最新版 小黄鸡聊天网页版登录】关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容 。


    特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。