Topic: unsupervised learning
回顾监督学习,每一个training data都被给予了正确或错误的值。
比如这几个数据中,每个数据是良性或恶性肿瘤的信息。
但对于无监督学习,我们并没有被给予每个数据具体的值。
形象的说,我们需要根据这些数据点在几何空间上的接近程度,来分辨出哪些点是一类的,这个操作叫做聚类(Clustering)
实际上,我们是根据模型函数的一些特征,通过一定的权重或公式,来计算一个绝对值差。
一个具体的例子是Google News对新闻的分类
Google News会把同一个问题的各大网站报道聚集到一个页面下,形成一个clustering。
另一个经典问题 - Cocktail party Problem
鸡尾酒会问题:假设有两个演讲者同时持有麦克风,并且各自的麦克风独立的起到扩音作用.
我们怎样能够通过程序,把两段音频独立的分离出来呢?
(其实这个问题在中国还不如叫ktv唱歌遇到人渣问题)
通过无监督学习,找到每个人发出声音的特征,进行声纹的聚类,就可以得到两个不同的类。
看不懂这个公式,不求甚解了,实际遇到再去查
以上是本节全部内容。