读[数据分析实战45讲]
一:概要 1.1.参考 1.2 基础概念 为什么要数据挖掘
我们生活在数据驱动一切的时代,数据挖掘和数据分析就是这个时代的“淘金”,从国家、企业、组织到个人,都一定会关注各种数据,从这些数据中得到价值。通过数据挖掘学会如何从海量的数据中找到关联关系,以及如何进行价值挖掘。
通过数据分析,我们可以更好地了解用户画像,为企业做留存率、流失率等指标分析,进而精细化产品运营。
如果你关注比特币,数据分析可以帮助你预测比特币的走势。
面对生活中遇到的种种麻烦,数据分析也可以提供解决方案,比如信用卡反欺诈,自动屏蔽垃圾邮件等
MAS 方法
Multi-Dimension:想要掌握一个事物,就要从多个角度去认识它。 Ask:不懂就问,突破这一点,不懂就问最重要。 Sharing:最好的学习就是分享。用自己的语言讲出来,是对知识的进一步梳理。 怎么和数据分析建立多维度连接呢?
与数据分析建立多维度连接的过程,也是我们从“思维”到“工具”再到“实践”的一个突破过程。学习数据分析的核心就是培养数据思维,掌握挖掘工具,熟练实践并积累经验。
第一类是基础概念。这是我们学习的基础,一定不能落下。
第二类是工具。这个部分可以很好地锻炼你的实操能力。
第三类是题库。题库的作用是帮你查漏补缺,在这个过程中,你会情不自禁地进行思考。
第一模块:数据分析基础篇 01丨数据分析全景图及修炼指南 掌握数据,就是掌握规律。当你了解了市场数据,对它进行分析,就可以得到市场规律。当你掌握了产品自身的数据,对它进行分析,就可以了解产品的用户来源、用户画像等等。所以说数据是个全新的视角。数据分析如此重要,它不仅是新时代的“数据结构 + 算法”,也更是企业争夺人才的高地。数据分析分成三个重要的组成部分。
数据采集。它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据源。 数据挖掘。它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI。 数据可视化。它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析的结果。 数据采集 数据挖掘 数据可视化 数据往往是隐性的,尤其是当数据量大的时候很难感知,可视化可以帮我们很好地理解这些数据的结构,以及分析结果的呈现。
修炼指南 借用傅盛的话来说,人与人最大的差别在于“认知”,所谓成长就是认知的升级。 我们只有把知识转化为自己的语言,它才真正变成了我们自己的东西。这个转换的过程,就是认知的过程。
通过“知行合一”提升自己的学习吸收能力。 如果说认知是大脑,那么工具就好比我们的双手,数据工程师和算法科学家每天打交道最多的就是工具。
如果你开始做数据分析的项目,你脑海中已经思考好了数据挖掘的算法模型,请牢记下面这两点原则。
不重复造轮子
工具决定效率 “不要重复造轮子”意味着首先需要找到一个可以用的轮子,也就是工具。工具没有好坏之分,只有适合与否。
工具没有好坏之分,只有适合与否。工程师会选择使用者最多的工具。因为:Bug 少、文档全、案例多
最后就是积累 “资产”了。我们很难记住大段的知识点,也背不下来工具的指令,但是我们通常能记住故事、做过的项目、做过的题目。这些题目和项目是你最先行的“资产”。 通过熟练度快速积累这些“资产”,当熟练度增加的时候,你的思考认知模型也在逐渐提升
02丨学习数据挖掘的最佳路径是什么? 举个例子,对于普通人来说,大海是很难感知的,就更不用说找到宝藏了。但对于熟练的石油开采人员来说,大海是有坐标的。他们对地质做勘探,分析地质构造,从而发现哪些地方更可能有石油。然后用开采工具,进行深度挖掘,直到打到石油为止。 大海、地质信息、石油对开采人员来说就是数据源、地理位置、以及分析得到的结果。
我们要做的数据挖掘工作,就好像这个钻井一样,通过分析这些数据,从庞大的数据中发现规律,找到宝藏。只有对知识有全面的认知,才能确保在以后的工作中即使遇到了问题,也可以快速定位问题所在,然后找方法去对应和解决。
数据挖掘的基本流程 商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。
模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。
上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要。
数据挖掘的十大算法 为了进行数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。
按照不同的目的,我可以将这些算法分成四类
分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART C4.
Read More »
读[数据分析实战45讲]
一:概要 1.1.参考 1.2 基础概念 为什么要数据挖掘
我们生活在数据驱动一切的时代,数据挖掘和数据分析就是这个时代的“淘金”,从国家、企业、组织到个人,都一定会关注各种数据,从这些数据中得到价值。通过数据挖掘学会如何从海量的数据中找到关联关系,以及如何进行价值挖掘。
通过数据分析,我们可以更好地了解用户画像,为企业做留存率、流失率等指标分析,进而精细化产品运营。
如果你关注比特币,数据分析可以帮助你预测比特币的走势。
面对生活中遇到的种种麻烦,数据分析也可以提供解决方案,比如信用卡反欺诈,自动屏蔽垃圾邮件等
MAS 方法
Multi-Dimension:想要掌握一个事物,就要从多个角度去认识它。 Ask:不懂就问,突破这一点,不懂就问最重要。 Sharing:最好的学习就是分享。用自己的语言讲出来,是对知识的进一步梳理。 怎么和数据分析建立多维度连接呢?
与数据分析建立多维度连接的过程,也是我们从“思维”到“工具”再到“实践”的一个突破过程。学习数据分析的核心就是培养数据思维,掌握挖掘工具,熟练实践并积累经验。
第一类是基础概念。这是我们学习的基础,一定不能落下。
第二类是工具。这个部分可以很好地锻炼你的实操能力。
第三类是题库。题库的作用是帮你查漏补缺,在这个过程中,你会情不自禁地进行思考。
第一模块:数据分析基础篇 01丨数据分析全景图及修炼指南 掌握数据,就是掌握规律。当你了解了市场数据,对它进行分析,就可以得到市场规律。当你掌握了产品自身的数据,对它进行分析,就可以了解产品的用户来源、用户画像等等。所以说数据是个全新的视角。数据分析如此重要,它不仅是新时代的“数据结构 + 算法”,也更是企业争夺人才的高地。数据分析分成三个重要的组成部分。
数据采集。它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据源。 数据挖掘。它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI。 数据可视化。它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析的结果。 数据采集 数据挖掘 数据可视化 数据往往是隐性的,尤其是当数据量大的时候很难感知,可视化可以帮我们很好地理解这些数据的结构,以及分析结果的呈现。
修炼指南 借用傅盛的话来说,人与人最大的差别在于“认知”,所谓成长就是认知的升级。 我们只有把知识转化为自己的语言,它才真正变成了我们自己的东西。这个转换的过程,就是认知的过程。
通过“知行合一”提升自己的学习吸收能力。 如果说认知是大脑,那么工具就好比我们的双手,数据工程师和算法科学家每天打交道最多的就是工具。
如果你开始做数据分析的项目,你脑海中已经思考好了数据挖掘的算法模型,请牢记下面这两点原则。
不重复造轮子
工具决定效率 “不要重复造轮子”意味着首先需要找到一个可以用的轮子,也就是工具。工具没有好坏之分,只有适合与否。
工具没有好坏之分,只有适合与否。工程师会选择使用者最多的工具。因为:Bug 少、文档全、案例多
最后就是积累 “资产”了。我们很难记住大段的知识点,也背不下来工具的指令,但是我们通常能记住故事、做过的项目、做过的题目。这些题目和项目是你最先行的“资产”。 通过熟练度快速积累这些“资产”,当熟练度增加的时候,你的思考认知模型也在逐渐提升
02丨学习数据挖掘的最佳路径是什么? 举个例子,对于普通人来说,大海是很难感知的,就更不用说找到宝藏了。但对于熟练的石油开采人员来说,大海是有坐标的。他们对地质做勘探,分析地质构造,从而发现哪些地方更可能有石油。然后用开采工具,进行深度挖掘,直到打到石油为止。 大海、地质信息、石油对开采人员来说就是数据源、地理位置、以及分析得到的结果。
我们要做的数据挖掘工作,就好像这个钻井一样,通过分析这些数据,从庞大的数据中发现规律,找到宝藏。只有对知识有全面的认知,才能确保在以后的工作中即使遇到了问题,也可以快速定位问题所在,然后找方法去对应和解决。
数据挖掘的基本流程 商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。
数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。
数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。
模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。
模型评估:对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标。
上线发布:模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程。数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要。
数据挖掘的十大算法 为了进行数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM (the IEEE International Conference on Data Mining)评选出了十大经典的算法。
按照不同的目的,我可以将这些算法分成四类
分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART C4.
Read More »
bigdata
Install Hugo on macOS, Linux, Windows, BSD, and on any machine that can run the Go compiler tool chain.
Read More »
bigdata
Install Hugo on macOS, Linux, Windows, BSD, and on any machine that can run the Go compiler tool chain.
Read More »