考点一、数据科学(丹麦 彼得·诺尔)
1、数据科学(data science):是一门通过系统性研究获取与数据相关的知识体系的学科。
2、数据科学研究的是从“数据”整合成“信息”进而组织成“知识”的整个过程,包含对数据进行采集、存储、处理、分析、表现等一系列活动。
3、数据科学研究对象是数据,研究目标是获得洞察力和理解力。
4、数据科学涉及的范围非常广泛,例如统计学、机器学习、计算机科学、可视化、人工智能、领域知识等。
考点二、大数据
1、大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2、大数据具有“4V”特性:
(1)数据量大(Volume)。
(2)数据多样性(Variety):大数据类型繁多,包括网络日志、音频、视频、图片、地理位置等各种结构化、半结构化和非结构化的数据。
(3)价值密度低(Value):大数据价值密度的高低与数据总量的大小成反比。以视频为例,在连续不间断的监控中,有用数据可能仅有一两秒。
(4)数据的产生和处理速度快(Velocity):一般要在秒级时间范围内给出分析结果,超出这个时间数据就可能失去价值,即大数据的处理要符合“1秒定律”。
考点三、数据挖掘
1、数据挖掘:指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。
(1)数据源必须是真实的、大量的、有噪声的;
(2)发现的是用户感兴趣的知识;
(3)发现的知识是可接受、可理解、可运用的;
(4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。
2、数据挖掘以解决实际问题为出发点,核心任务是对数据关系和特征进行探索。
3、常见的数据挖掘方法:2022年教材细节化,更详细了
方法 | 具体内容 |
1.监督 | (1)根据已有的数据集,训练出模型可以根据自变量数据得到因变量预测结果的过程称为监督学习 ②回归:通过特征变量确定观测单位因变量的取值,因变量是定量变量。常用的回归方法有线性回归、非线性回归和分位数回归等 |
2.无监督学习 | (1)主要任务是探索数据之间的内在联系和结构 |
3.半监督学习 | (1)是监督学习与无监督学习相结合的一种学习方法 |
真题示例:
关于大数据特性的说法,正确的有( )
A、大数据都是结构化数据
B、大数据的产生和处理速度快
C、大数据具有4V特性
D、大数据的价值密度低
E、大数据类型繁多
为帮助考生们通过中级经济师考试,233网校特隆重推出:2023年经济师好课,三大阶段系统化辅导,8大班级课程+配套锁分,去购买>>
①帮助零基础考生快速进入学习状态,了解考情,梳理学习思路。②系统性的帮助考生夯实基础,掌握新教材考点。③针对性讲解典型习题,让你掌握考核方式、出题方式,提升做题技巧及效率。
①串讲考试中反复出题的考点,针对性突破重难点,稳抓核心分值。②针对性拆分讲解重难点,帮助考生攻克难题,抓住重要分值。③对当年考试真题进行详细讲解,并结合课程预测考试趋势及方向。
①讲解高含金量考题突击卷,帮助考生做"考题",短期冲分。②临考直播总结历年高分考点,预测当年考点,实现考前迅猛锁分。