https://beinsure.com/faq/what-is-difference-between-database-and-big-data/
https://www.teradata.com/glossary/what-are-the-5-v-s-of-big-data
传统的数据库系统处理结构化数据。大数据系统处理结构化、半结构化和非结构化数据
我们可以将大数据视为传统数据的上层版本。大数据处理的数据集太大或太复杂,传统的数据处理应用软件很难管理。它处理大量结构化、半结构化和非结构化数据。容量(Volume)、速度(Velocity)和多样性(Variety)、准确性(Veracity)和价值(Value)是指大数据的5'V特征
数量:公司管理和分析的大数据的大小和数量
价值:从业务角度来看最重要的“V”,大数据的价值通常来自于洞察发现和模式识别,从而带来更有效的运营、更牢固的客户关系以及其他清晰且可量化的商业利益
多样性:不同数据类型的多样性和范围,包括非结构化数据、半结构化数据和原始数据
速度:公司接收、存储和管理数据的速度——例如,一天、一小时或其他时间单位内收到的社交媒体帖子或搜索查询的具体数量
真实性:数据和信息资产的“真实性”或准确性,通常决定高管层的信心
可变性:公司寻求捕获、管理和分析的数据性质不断变化,例如,在情绪或文本分析中,关键词或短语含义的变化
从数据列数的角度来说,我感觉大数据这个大或许不单是指的数据条数,而是我们的数据收集的口径,比如如果我们只是收集一个人的性别,年龄,性别那这个数据就不大,但如果我们想收集一个人所有的信息,不管啥信息,只要和他有关的我都要,那这个数据就是大
从数据条数的角度来说,我们之前的产品是低日活但是高用户价值类型的产品,这种我觉得就适合 rds,但现在的产品的理想情况是用户价值比较平均,然后日活会比较高,这种或许就适合用大数据
从可变的角度来说,大数据存储了大量的原始数据,大数据根据我们希望的统计要求提取出我们关心的结构数据字段来进行展示,可是如果有一天我关心的字段增加了,那么大数据就可以从原始数据提取出我新的关心的字段,但对于传统的数据库,就很难满足这一点
从速度的角度来说,有观点认为rds 在巨量数据时,数据查询和写入将变得很慢,不过这点我并不能确定
另外我发现当我们去查大数据资料的时候,大数据往往被解释的过于魔幻,像是一个神丹妙药,仿佛它能自动的去帮我们解决很多问题,可事实上并不是,大数据可以理解为数据库的升级版,它只是能存储和处理更多的数据,而并不能够帮我们做更多的决策,想根据海量数据做出决策,你需要自己拥有分析解读海量数据的能力,而大数据只是帮你存储了这些数据,它是你数据分析的基础,不是告诉你数据分析的结果
因为大数据和数据科学是两个不同的事情,而往往一些人试图夸大大数据本身的能力,你在选择要不要使用大数据的时候应该专注于它本身存储处理海量数据的能力,而不是它画出来的饼
Big data refers to storing, managing, and processing large volumes of data, while data science focuses on analyzing and interpreting data to gain insights and make informed decisions