学习笔记:《如何打造你自己的聊天机器人》系列课程1/2讲

以下笔记整理自《如何打造你自己的聊天机器人》系列课程之

  1. 第一讲《聊天机器人的前世今生》
  2. 第二讲《聊天机器人的关键技术》

一、聊天机器人的发展

1. 第一个机器人:ALICE

  • ALICE组织发表:in short for Artificial Linguistic Internet Computer Entity(电脑做成实体化的东西)

  • Program A——>D(D:java语言)——代号变化,荣获20多个奖项

  • does't not have a purpose(不能完成特定任务)

  • amazing derivatives,e.g.A.L.I.C.E.Brain Picture Gallery(用技术做出可视化的东西,一些爱好者自己尝试做的)

2. 16年至今井喷的过程:机器人应用和创业公司都变多

image

日本2016年Q4的聊天机器人产业图谱

image

二、机器人形态-功能划分及其在企业和教育中的重要性

1. 形态方面

  • 人形:有四肢,可是做动作(抓握等)

  • 胖胖的非人形机器人:主要是社交机器人social robot(跟人沟通)

2. 功能划分

  • Chitchat bots闲聊机器人
    • Xiaoice(小冰)、Cortana(英文版小冰),Tay(泰国版小冰),Siri,Allo(Google的聊天机器人助手)
    • 小i机器人,Turing
    • Facebook Wit.ai()
  • Personal Assistant个人助理类机器人
    • information inquiry信息查询
      • Siri
      • 出门问问(谷歌开发者团队)——问路、问天气、附近的吃喝玩乐
    • plan management行程/日程管理(Google一直在做,携程/穷游都可以做)
      • Allo
    • running assistant
    • M.A.R.A
    • more:http://wit.ai/community
  • Customer Service客户服务类机器人
    • sell
      • Jingdong
      • Ali
    • booking
      • restaurant
      • hotel

3. 聊天机器人在企业和教育中的重要性

  • 对企业
    • 解放劳动力,节约生产成本;
    • 提供7*24小时的客服服务,服务时间更长、回复更快更及时;
    • 走在AI前端对公司形象有助益。
  • 对学术界/教育
    • 分词、识别、机器翻译、语义理解都涵盖,提供了丰富的数据和技术资源;
    • 真正的人工智能源自于交互,从交互中产生新的东西。

三. 两大类主流聊天机器人对比

1. 任务驱动型聊天机器人

a)特点

  • tsk-oriented完成某个任务,如完成订餐/Q&A

  • Domain-specific特定领域/封闭域

  • Dialog System(不是chatbot)

  • 精准的用户需求理解,对数据标注、数据的干净程度要求比较高;京东/中国移动等公司可能有数据

  • 模块化的,通过一个个模块处理,一个模块没处理完就会问你,一个模块卡住就没法完成,反馈结果;好处在于评价很容易——是否完成

b)系统模块组成

image
  • SLU语言理解模块

    • 根据用户的输入,输出两部分内容: user intention and slot-values
    • user intention是一个类别category;神经网络可以做分类任务,可以用来得到intention的类别;intent parser意图识别/分析
    • slot抽象化的想要表达的东西,e.g.菜系;vlue对应的是slot的具体内容,一个slot下有多种可能的value,e.g.日料、重庆火锅、东北菜、西餐等
    • 抽取slot-value的方法是delexization,是一个专门的任务,类似命名实体识别,有很多专门的api可以直接调用
  • DST对话状态追踪模块【最核心最重要的部分】

    • 追踪并输出当前对话状态,进行到哪个步骤;

    • 状态包含的是整个任务中可能涉及的“知识点”,是各种可能的slot-value组合,状态其实是用小型的知识图谱ontology组成的

    • 输出的是基于多个slot的多元概率分布,即当前状态,并把当前状态返回到整个系统中去

      image

    Belief tacker可能同时维护者多个slot下的多个分布;

    • informable slots:用户需要去约束的信息
    • requestable slots:用户可以去进一步查询的信息
  • DPL对话策略学习/决策模块(对话系统的桥梁类模块,是一个综合模块)

    • 根据当前状态决定下一步做什么
    • 输入部分有很多;最终输出action,相当于一个压缩的向量


      image
  • NLG自然语言生成模块

    • 生成/转换成自然语言

    • 生成的可能是一个模板,而不是最终的句子,最终传达给用户的句子还需要在slot里面填回value

对话系统4大模块

2. 开放领域的闲聊机器人

a)特点

  • Chit-chat闲聊

  • Open Domain开放域

  • Conversational Agent(or chatbot)

  • 大量数据,可以用任意数据,电影台词、微博评论;但数据噪音比较大

  • 端对端的方法,纯数据驱动,数据质量直接导致训练结果的好坏;很难评估。

b)两类闲聊机器人

  • Retrieval-based基于检索式

    • 从已有语库中匹配最相关的、最相似的
image
  • @微软小冰:多轮中考虑历史信息的匹配
多轮中考虑历史信息的匹配
  • Generation-based基于生成式的

    • Encoder-decoder编码器解码器模型:输入一句话,经过一堆编码/神经网络(LSTM),压缩成一个向量,再用相似的模型进行编码(LSTM)——最终生成内容

    • 基于注意力机制的RNNSearch

    • 循环神经网络
      RNN
    • RNN最优问题
      梯度消失问题
    • LSTM解决梯度消失问题
      LSTM
    • HRED:考虑历史信息——中和考虑当前对话和上下文

  • Enocoder-decodrer模型的特点

    • 综合性

    • 灵活性

    • 扩展性

  • RNN/LSTM的问题

    • 对长句的处理效果依旧不好

    • 语法问题

    • 模板化问题

    • 可能的解决办法:VAE variational autoencoder

    • 比VAE更简单的办法——注意力机制Attention Mechanism

四. 聊天机器人的知识库和个性化

1. Emotional情感陪伴

  • "Her"in the science fiction film
  • "smart-aging"老年人:说话更慢、语气更柔和、说成年人觉得很无聊的东西、说有趣的事情

2. Knowledgable聪明/博学

  • 通用知识

    • Fact事实类信息

    • Entity命名实体类信息

    • Linguistic knowledge语言信息

    • Knowledge base and knowledge graph可以调用知识库和知识图谱类的信息

  • Other Knowledge高级的知识

    • Topic话题类信息

    • History历史信息类——考虑机器人人格前后一致

    • Scenario(e.g.image)

    • News/Articles/Rationales

3. Personalized个性化(跟A聊天跟别人不一样,非常了解A的喜好)

  • Transfer Learning迁移学习

  • Lifelong Learning终身学习

  • Lack of Personal Data但很难收集到用户个人信息

附课程PPT:

《聊天机器人的前世今生》
链接:https://pan.baidu.com/s/1Es0d8VMkCyDnsioNhLYNCg
提取码:74ba

《聊天机器人的关键技术》
链接:https://pan.baidu.com/s/11LOTqLHUMyDQV28ihM74qg
提取码:5tqm

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容