【读书笔记】《人工智能基础——高中版》

《人工智能基础——高中版》.png

下载链接(也可以直接在线看):https://ppt.baomitu.com/d/a8a18874
顺便推荐这个在线做PPT/PDF的网站,不用担心PPT找不到啦!!

就是这个书,我一个啥都不懂的文科生竟然能看懂各种专业名词,我真厉害哈哈哈,顺便记录一下~
这是一本很科普又很专业的书(相对某些畅销书来说),几句话就把几个概念说明白。定位受众是高中生,没机会回炉重造读高中了,只能读读书了,hhhh......

【第一章】人工智能:新时代的开启

1956年,闵斯基、约翰·麦卡锡、克劳德·香农、纳撒尼尔·罗切斯特在美国组织了达特茅斯会议,会议提出了Artificial Intelligent(AI)即人工智能,宣告人工智能作为一门学科的诞生。

  • 第一次浪潮(1956-1974):伟大的首航——人工智能初露头角
  • 第二次浪潮(1980-1987):专家系统的兴衰——专家系统、人工神经网络
  • 第三次浪潮(2011-今):厚积薄发、再造辉煌——重大突破
人工智能在各个领域的应用:
  • 安防:视频分析、视频检测、检测异常;
  • 医疗:医学影像分析;
  • 智能克服:电子商务、金融、通信、物流、旅游等;
  • 自动驾驶
  • 工业制造:工业4.0,人工智能系统提升生产效率、降低生产风险;

监督学习:为每个样本提供预测量的真实值来获得模型;
无监督学习:在不提供监督信息(预测量的真实值)的条件下进行学习;
半监督学习:对小部分样本提供预测量的真实值;
强化学习:在下棋、股票交易、或商业决策等场景中,关注行动能否带来最大收益,目标是获得一个策略去指导行动;

【第二章】牛刀小试:察异辨花(分类问题)

  • 分类器(classifier):完成分类任务的人工智能系统


    分类器
  • 向量:把数据中的特征放在一组数据
    向量可以做加减法、乘法、内积(对应相乘并求和)
    向量内积:(X1 , X2)·(Y1, Y2)=(X1Y1+X2Y2)


    特征空间

    特征点与特征点之间的距离被用来衡量相似程度;

  • 训练集:当一个数据集被用于分类器训练,我们称之为训练集;
    训练线性分类器的方法:

  • 感知器:使用被分错的样本来调整分类器
    损失函数:误分类的数据点离得越远,损失函(loss)数越大;
    优化:调整分类器的参数,使损失函数最小;

  • 支持向量机SVM(support vector machine):在特征空间上,分类间隔最大的分类器



归一化:将一个向量压缩到另一个向量中,使其每一个元素的范围在(0,1)之间,并且所有元素的和为1。也就是看每一个向量的概率

【第三章】别具慧眼:识图人物(图像分类)

图像可以表示成为一个由数字组成的矩阵阵列,即矩阵(matrix)
彩色图片(RGB),按立方体排列的数字阵列为三阶张量(tensor)


色彩表示

张量:标量属于零阶张量;向量属于一阶张量;矩阵是二阶张量。

卷积:卷积和加减乘除一样,是一种数学运算,参与卷积运算的可以是向量、矩阵、三阶张量;

向量卷积
矩阵的卷积
  • 卷积神经网络:当一个神经网络以卷积层为主体时,我们称之为卷积神经网络;

  • 全连接层:输入图片在经过若干卷积层之后,会将得到的特征图转换为特征向量,用到的就是全连接层;

  • 非线性激活层:保留多层结果(这个不是很理解??)

  • 池化层:降低特征图的分辨率,减少计算量;

  • 反向传播算法:从后往前调整参数;


  • 过拟合:迎合训练数据,在新数据上表现很差;(在已有数据优秀)

  • 欠拟合:在训练数据和新数据上表现都很差;(都不行)

【第四章】耳听八方:析音赏月(声音识别)

声音:频率是声音的重要特征;人的发声的频率范围在85-1100Hz;
声波到Mp3 文件的过程:采样(sampling)、量化(quantization)、编码(encoding);

计算机里音频文件是按照时间先后顺序排列的数据点,所以也被称为“时间序列”;
采样的频率比较高时,波形看起来是近似连续的;


声音的变化
  • 声学模型:把一系列语言转为若干音素的过程利用了语言的声学特性;
  • 语言模型:从音素到文字的过程需要用到语言表达的特点,这样才能从同音字中挑出正确的文字,组成意义明确的语句;

【第五章】冰雪聪明:看懂视频(视频识别)

小伙伴的iPad丢了,今天和她去警察局看录像,警察局的录像,真的是无力吐槽啊,作为一个在AI公司工作的人,我们表示,现在技术的发展和应用的鸿沟还蛮大的。。

  • 小插曲:
    警察叔叔说他们在招“视频员”,问我俩换不换工作,我们只想技术应用赶紧替换掉他们需要的这个人。
    【视频员,顾名思义—— 1、随时检查辖区内的发生的情况,有什么事件发生赶紧通知在外的同事去处理(人工的视频行为识别);2、在有人需要看回放的时候帮别人找录像资料(人工视频数据员)】


  • 行为识别的重要特征:运动
  • 运动的刻画:光流
    光流就是同一个点在相邻两帧的位移,计算光流的关键就是把两帧之间相同的点对应起来;


【第六章】无师自通:分门别类(图片分类)

  • K值聚类:
    KMeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代次数。


  • 层次聚类:将每个样本单独当成一个类,而后重复地合并最相似的两个类,当所有的类别间的距离都超过一个预设的截止距离时,层次聚类就完成了;

【第七章】识字断文:理解文本(语义分析)

  • 词袋模型(bag-of-words model): 用于描述文本的一个数学模型,也是常用的一种文本特征提取方式;——词袋模型将一篇文档看作装有若干词语的袋子,只考虑词语在文档中出现的次数,而忽略词语的顺序和句子的结构;


  • 停止词:“的”“也”“了”这样不携带任何主体信息的高频词;

TF-IDF(词频-逆文档频率):

  • 词频 (term frequency, TF)指的是某一个给定的词语在该文件中出现的次数。
  • 逆文档频率(nverse Document Frequency,IDF) 是一个词语普遍重要性的度量,它的大小与一个词的常见程度成反比,计算方法是语料库的文档总数除以语料库中包含该词语的文档数量,再将得到的商取对数。


    IDF

【第八章】神来之笔:创作图画(图像生成)

  • 对抗生成网络(GAN:generative adversarial network):由生成网络(generative network)——生成器 和判别网络(discriminative network)——判别器 两部分组成,生成网络用于生成数据,判别网络用来分辨数据是真还是假;
  • 数据空间(data space):数据所在的空间;
  • 数据分布(data distribution):数据在空间中的分布情况;

emmm较好的视觉效果???

【第九章】运筹帷幄:围棋高手(强化学习,reinforcement learning)

  • 强化学习:强化学习与监督学习、无监督学习一样,为机器学习算法中的一种,强化学习与监督学习最主要的区别在于其收到的反馈是评估性的,而不是指导性的。
    强化学习使计算机像人一样通过完全自主学习来掌握一项技能。alphago通过自我对弈左右互搏来提升棋技。
    *主题与环境的交互:
    做出决策的实体叫主体(agent),主体存在于环境(environment)中,主体行为作用于环境并接受环境的反馈。
    主体通过发出特定的动作(action),来改变环境目前的状态(state),环境改变后,会返回给主体一个观察(observation),同时返回给主体一个回报(reward)。


  • 策略(policy):指的是主体的行为是一个从状态集合到动作集合的映射;强化学习的目的就是找到一个最佳策略。
  • 蒙特卡洛搜索算法(Monte Carlo tree search):一种通过随机推演建立一颗搜索树的启发式搜索过程,我们也可以将其看成某种意义上的强化学习算法。

alphago的部分有的没看懂。。。就大概是这样

推荐阅读更多精彩内容