AI学习笔记01：AI基本常识

AI技术正成为一个新的风口，不管是创业还是就业，AI越来越成为一个新的选择。拥抱AI，将使我们获得更多机会，那么如何学习AI就成为大家比较关心的问题，这里梳理几个比较关键知识点，帮助你快速理解AI，主要分为几个部分：

什么是AI

AI，是人工智能（Artificial Intelligence）的英文缩写，百度百科将之解释为：它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。很多行业大咖也都有自己给出的解释，在众多理解中，我比较认同连诗沐的定义：人工智能就是利用交叉学科对于人的能力和意识进行模仿和超越。

这里的交叉学科，包括计算机科学、心理学、控制学、脑科学等多门学科。这些都是AI技术发展的理论基础及所涉及的技术范围，也进一步说明AI是一门相对综合性比较强的技术，涵盖人文科学、自然科学、思维科学。而对人的能力进行模仿及超越，其实主要有3点：视觉感知与语言交流、推理与问题求解、协同控制，这也就刚好对应目前AI的几个主要应用方向：计算机视觉、自然语言处理、语音交互、机器学习。举通俗一点的例子解释，比如我们平时使用到的人脸识别、天猫精灵、商品智能推荐、淘小蜜智能客服等，这些我们日常都有接触到的产品/服务。

而使用到AI技术的产品，基本上都可以成为人工智能产品，业界普遍有这么一条公式：人工智能产品=数据+算法+算力。

1、数据，包括输入数据跟输出数据，比如在训练模型时训练数据、测试数据及验证数据等；形成具体可以应用的模型后，需要的向配置好的模型中输入数据，比如用户的操作行为数据，图片信息等；模型根据输入数据的特殊，输出匹配的数据，也就是我们看到的最终结果。

2、算法，指的就是需要应用到的技术，按学习方式，即数据样本是否有标签，可以分为监督学习（包括半监督学习）、无监督学习、强化学习、迁移学习。

3、算力，这其实计算机网络概念，是衡量在一定的网络消耗下生成新块的单位的总计算能力，简单理解就是数据处理速率的快慢效率，AI智能时代会生成海量数据，意味着必须有着匹配的计算能力。

什么要用AI

一、使用AI能提高劳动生产率，完成重复性工作

机器可以不需要休息，可以比人类工作得更快，还可以同时完成多项任务，而且不受个人情绪影响，此外还能被用来执行一些危险的任务。

重复性劳动，特别是在相同或非常相似的地方完成的工作将有AI机器人来完成，比如现在使用广泛的工业机器人，就可以长时间、高质量地完成重复性工作；另外，还有就是有固定台本和对白内容的各种互动，比如客户服务、电话营销；以及一些相对简单的数据分类，比如文件归档、作业打分、名片筛选，这些都有可能被AI取代

二、AI将刺激更多行业发展，促进更多AI+应用场景落地

自从人工智能自诞生以來，就开始与各类行业深度融合，成为经济结构转型升级的新支点，比如在人脸识别和无人驾驶等各个领域就已得到了快速的应用。

AI技术的发展，将刺激更多行业的变革，促成“行业+AI”，更多应用场景落地并使用。从机场、车站刷脸进站，旅行中无人机拍照，到语音识别口语教学、人脸识别刑侦破案及AI辅助医疗诊断，越来越多的“AI+”应用场景落地，得到资本青睐和市场认可。在制造业方面，未来汽车行业的研发设计、供应链运输、驾驶技术的提供以及交通的解決方案等將有人工智能的参与。

三、AI成为新的风口，将创造经济效益。

2017年7月8日，中国国务院印发《新一代人工智能发展规划》，人工智能正式上升为国家战略。人工智能正全面创造新市场、新机会，全面重塑传统行业发展模式和格局，在推动经济繁荣、民生改善、保障国家安全等方面发挥着越来越重要的作用。据统计，截至2017年年底，我国人工智能核心产业规模超过180亿元，相关产业规模达到2200亿元。智能网联汽车、智能服务机器人、医疗影像辅助诊断系统等智能化产品已经有较好的技术和产业基础。

人工智能已然成为新的行业风口，不管是就业还是创业，拥抱AI也将获得更多成长与机会。

AI目前产业结构发展

根据AI技术应用的位置及结合程度，行业普遍有这么一种分法：提供基础AI技术平台的公司、AI+行业的公司、行业+AI的公司。

一、提供基础AI技术平台的公司

这一类公司，主要侧重于AI基础层，提供技术/设备支持与服务的，比如芯片、技术平台/框架、数据中心服务、数据服务，更加侧重底层技术框架的研究，从而帮助其他企业高效完成AI技术对接，减少研发成本及周期。

二、AI+行业的公司

这一类公司，主要侧重于AI技术层，比如计算机视觉、语音识别及语义处理、机器学习，并将打包成一类可通用的解决方案或是服务，例如智能客服，智能外呼等

三、行业+AI的公司

这一类公司，主要侧重于AI应用层，企业自身有着一定的行业积累，主要是使用AI技术赋能，让用户提供更加优质的产品或服务，比如个性推荐及广告营销、智能金融、智能客服、智能教育、智能家居、机器人、新零售等

AI目前几个重要应用

目前AI主要的应用领域有3个方向：计算机视觉、自然语言处理、语音交互、机器学习。

一、计算机视觉

（一）、什么是计算机视觉（CV）

百度百科上的解释是，它是通过摄影机和电脑等机器来代替人眼对目标物体进行识别、跟踪和测量，接着进一步对图形进行处理，使之成为更适合人眼观察或传送给仪器检测的图像。它是一门研究如何使机器“看”的科学，研究如何让计算机通过图象传感器或其它光传感器来感知、分析和理解周围环境的技术。

（二）、计算机视觉有几大任务：

1、物体检测：这是视觉感知的第一步，其目标就是用框去标出物体的位置，并给出物体的类别

2、物体识别（狭义）：判定一组图像数据中是否包含某个特定的物体，图像特征或运动状态

3、图像分类：给输入图像分配标签的任务，分类可以是任意的目标，可能是物体，也可能是一些属性或者场景。这一点同物体检测存在差异，检测侧重于物体的搜索，且其目标必须有固定的形状和轮廓。

4、物体定位：找到某一目标物体在图像中的位置，定位出来，物体识别是识别出什么（what），物体定位则是直接定位出来（where）

5、图像分割：将图像细分为多个子区域（像素的集合）的过程，便于简化或改变图像的表示形式，使得图像更容易理解和分析。

（三）、计算机视觉的现状

计算机视觉的应用场景非常广，例如无人驾驶、无人安防、人脸识别、光学字符识别、物体追踪、车辆车牌识别、以图搜图、医学图像分析等。

目前在这方面比较知名的企业有旷视、商汤科技、图普科技、格灵深瞳、超多维，深兰科技、依图科技、云从科技，有兴趣的可以自行百度。

二、自然语言处理

（一）、什么是自然语言处理（NLP）

它是一门计算机科学，人工智能和语言学的交叉领域。其目标是让计算机处理、理解自然语言，以执行语言翻译、问题回答等任务，帮助计算机以各种形式使用自然语言同人类进行交流。NLP涉及两个主要流程：自然语言理解（NLU）、自然语言生成（NLG）。

（二）、自然语言理解（NLU）：

顾名思义，要让计算机“理解”自然语言，实现人机间自然语言通信。人类自然语言文本、对话存在各种各样的歧义性或多义性，这是造成NLU困难的根本原因。NLU的常用步骤是：

1、获取语料：这里简单解释一下什么是语料，它是语言学研究的内容，也是是构成语料库的基本单元。日常中，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。获取语料的方式有两种：一是直接用自己公司现有积累的语料库，另外一种就是从网络上下载语料库，比如人民日报语料，或者使用爬虫技术抓取。

2、预处理：拿到数据后，进行一些预处理，比如去掉一些参差不齐的数据、去除停用词、分词、词性标注等。去掉一些参差不齐的数据，比如异常符号、空格等。停用词指的是那些几乎出现在每一篇文本，数量很多但是没区分度的词，比如的、一、等等。如果做分类的话，这些词对处理结果有一定影响，所以可以考虑先去掉。汉语文本的词与词之间并没有任何空格之类的显性标记标识词的边界，所以分词问题就成了汉语自然语言处理时所面临的重要问题，其主要困难在于分词规范不定、歧义切分和未登录词标识。

3、特征工程：把分词之后的字和词语表示成计算机能够计

算的类型，比如向量、矩阵等等可计算的形式。有两种常用的表示模型分别是词袋模型和词向量。

2、然后通过信息抽取（Information Extraction）从文本信息中找到有用的信息，摒弃无用的噪音。

4、模型训练：在特征向量选择好之后，接下来要做的事情当然就是训练模型，对于不同的应用需求，我们使用不同的模型

（三）、自然语言生成（NLG）

NLG 是从结构化数据中以可读地方式自动生成文本的过程。难以处理是自然语言生成的主要问题。自然语言生成可被分为三个阶段：

文本规划：完成结构化数据中基础内容的规划。

语句规划：从结构化数据中组合语句，来表达信息流。

实现：产生语法通顺的语句来表达文本。

三、语音交互

（一）、什么是语音交互（CV）

语音交互，应该是目前相对比较成熟的应用，适合语音交互的场景有几个特征：使用后更高效、指令更偏重执行、有设备优势。

其流程一般分为：语音识别（ASR）---自然语言理解（NLU）---对话管理（DM）---自然语言生成（NLG）---语音合成（TTS）。

其中NIU、NLG在前面已经讲过，这里主要介绍一下语音识别（ASR）、对话管理（DM）、语音合成（TTS）。

（二）、语音识别（ASR）：

1、ASR，就是将声音转化为文字的过程，相当于人类的耳朵。语音识别原理流程：“输入——编码（特征提取）——解码——输出”。其大体可分为“传统”识别方式，它一般采用隐马尔可夫模型（HMM）；另外一种就是“端到端”识别方式，其主要差异就体现在声学模型上，一般采用深度神经网络（DNN）。其中几个环节的大概步骤如下：

输入：未知语音经过话筒等机器，变换成电信号后加在识别系统的输入端，

编码（特征提取）：经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。

解码：通过声学模型（AM），字典，语言模型(LM)对提取特征后的音频数据进行文字输出。其中声学模型指的是通过对语音数据进行训练获得，输入是特征向量，输出为音素信息；语言模型指的是通过对大量文本信息进行训练，得到单个字或者词相互关联的概率；

2、语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”)，得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

3、其他相关技术：

1）语音激活检测（voice active detection，VAD）

在远场识别场景下，用户不能用手接触设备，这时噪声比较大，信噪比（SNR）下降剧烈，简单可以理解为信号不清晰，必须使用VAD了。其作用就是判断什么时候有语音什么时候没有语音（静音），后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上进行的。

2）语音唤醒（voice trigger，VT）

同样是在远场识别时，需要在VAD检测到人声之后，进行语音唤醒，相当于叫这个设备的名字，引起它的注意，比如百度小度的“小度小度”，天猫智能音箱的“天猫精灵”。其作用就是判断是否为唤醒词，触发后续的语音识别了

3）麦克风阵列（Microphone Array）

这是一套用来对声场的空间特性进行采样并处理的系统，有一定数目的声学传感器（一般是麦克风）组成。其目的有几个：语音增强，从含噪声的语音信号中提取出纯净语音的过程；声源定位，使用麦克风阵列来计算目标说话人的角度和距离，从而实现对目标说话人的跟踪以及后续的语音定向拾取；去混响，减少一些反射声的影响；声源信号提取/分离，将多个混合声音全部提取出来。主要是适用于户外、超市等多杂音、噪音、回音的复杂环境

（三）、语音合成（TTS）

跟ASR相反，TTS是将文字转化为声音，让机器朗读出来，相当于人类的嘴巴。主要分为3个模块：前端处理、建模和声码器。TTS的实现方法，主要有2种：拼接法和参数法，这两种方式都有前端模块，主要区别在于后端声学建模方法

1、拼接法：从预先录制的大量语音中，选择所需的基本单位拼接而成，比如音节、音素等。其优点就是语音质量较高，缺点也比较明显，数据库要求太大。

2、参数法：根据统计模型来产生每时每刻的语音参数（包括基频、共振峰频率等），然后把这些参数转化为波形，其优点就是数据库要求相对较小一些，缺点就是质量比拼接法差一些

（四）、对话管理（DM）

对话管理（Dialog Management, DM）控制着人机对话的过程，它会根据对话的历史信息，决定该对用户做出什么样的反应。

最常见的应用还是任务驱动的多轮对话，用户带着明确的目的如订单查询等，用户需求比较复杂，有很多限制条件，可能需要分多轮进行陈述。本质上，任务驱动的对话管理实际就是一个决策过程，系统在对话过程中不断根据当前状态决定下一步应该采取的最优动作（如：提供结果，询问特定限制条件，澄清或确认需求等），从而最有效的辅助用户完成信息或服务获取的任务。

四、机器学习

机器学习是在不直接针对问题进行编程的情况下，赋予计算机学习能力的一个研究领域，是其他三大领域的底层基础。

在传统算法设计中，由人来分析问题得到模型，并将模型编码输

入机器，机器只负责根据人编写好的算法模型将输入转化为输出；而在机器学习算法中，人们并不直接编写处理问题的算法模型，而是吧利用数据进行学习的方法教给机器，机器自己根据输入与输出的对应关系抽象出问题处理模型。

根据学习方式的不同，机器学习算法通常分为几类：监督学习、无监督学习、强化学习、迁移学习。关于机器学习的分类，将在下一篇学习笔记中分享，敬请期待。

参考阅读资料：

1、黄钊，饭团APP，“AI产品经理大本营”2、朱鹏臻@我偏笑_NSNirvana，《人人机对话系统设计逻辑》

3、连沐诗，起点学院，《15天入门AI产品经理》

4、gwgwymx，CSDN博客，《人工智能行业市场分析》

5、IT资讯，简书，《【干货】一篇文章读懂计算机视觉五大关键任务》

6、lt77701，CSDN博客，《自然语言处理基本过程理解》

7、光影流年925，CSDN博客，《语音识别ASR技术通识》

8、郭少悲，简书，《语音识别技术基础理解》

9、光影流年925，CSDN博客，《语音合成TTS（Text-To-Speech，从文本到语音）》

10、小何先生，豆瓣，《AI是否会成为下一个创业风口？》