
1. 面向分析工程
1.1. 数据科学的本质是根据原则性技术,提取数据中的信息或知识
1.2. 很难把技术与重要的商业问题完全匹配,也很难得到能直接应用于技术的数据
1.2.1. 商业人士通常比数据科学新手更容易接受这个事实,因为在统计学、机器学习和数据挖掘等领域的教学过程中,学生们面对的问题通常都可以用他们所学的工具直接解决
1.3. 商业问题很少是单纯的分类问题、回归问题或聚类问题,它们就是商业问题
1.4. 许多行业都存在类似目标市场营销的问题
1.5. 目标市场营销问题的基本结构也出现在许多其他问题中
1.6. 期望值框架可以有助于把很复杂的商业问题分解成一个个子问题,以便于寻找解决方案
1.6.1. 期望值的分解能使我们在数据理解环节的努力更集中
1.7. 选择性偏差
1.7.1. 数据来自于以前的捐款活动,即来自于以前的确响应过的捐款人
1.7.2. 选择性偏差,数据不是从需要实际应用模型的总体中随机选择的,相反它在某种程度上是有偏的
1.7.3. 有的数据科学技术能够帮助建模者处理这样的选择性偏差
1.8. 数据应该被作为一项资产来处理
1.8.1. 不仅要考虑如何利用已有资产,还要考虑如何投资资产,以得到高额回报
1.8.2. 不只对数据资产的投资需要谨慎进行,工具也是如此
1.8.3. 学习曲线有助于理解数据量和相应的泛化能力提升的关系
1.8.4. 对数据进行投资,以观察更大的数据量是否会带来更好的性能,以及曲线外凸是否代表了更大的提升空间
1.8.4.1. 如果通过分析发现投资并不划算,那么我们可以停止投资
1.9. 我们无法从这个事件中获取数据
1.10. 在这方面准确建模的成本太高
1.11. 该事件太不可能发生,可直接忽略
1.12. 对现在这种情况而言,这个公式已经足够了,我们可以用它进行下一步了
1.13. 分析工程的重点不在于找出可以处理所有的偶然情况的复杂的解决方案
1.13.1. 要深化对问题的数据分析式思考,从而明确数据挖掘的作用,考虑业务约束、成本和收益,并有意识地、明确地简化假设
1.13.2. 项目成功的概率就会提升,部署过程中出现意外的风险也就降低了
2. 其他数据科学任务与技术
2.1. 商业问题本身提供了其解决方案的目标和约束条件,而数据和领域知识提供了原材料,数据科学则提供了可以将问题分解为子问题的框架以及用于解决这些问题的工具与技术
2.2. 共现和关联
2.2.1. 寻找匹配项
2.2.2. 共现分组或关联发现是根据涉及实体的事件,找出实体间的关联
2.2.3. 规模较小的、区域性的配送中心只会存储卖得较好的产品
2.2.4. 共现分组就是在数据中寻找统计数字“有趣”的数据项组合
2.2.5. 关联的支持度
2.2.5.1. 一种控制复杂度的简单方法是建立约束条件,即符该合共现规则的数据必须达到某个最小比例
2.2.6. 规则的置信度或强度
2.3. 提升度和杠杆率
2.3.1. 提升度,即某种关联出现的频率比偶然出现高多少
2.3.2. 如果关联出现的次数比偶然情况下更频繁,那么该关联就是意料之外的
2.3.3. 提升度的计算仅需应用概率的基本概念
2.3.4. A与B的共现的提升度是两者实际同时出现的概率,与两者不相关(互相独立)时同时出现的概率相比较的结果
2.3.5. 提升度只是计算所发现的关联出现的概率比偶然情况下高多少的方法的其中一种
2.3.6. 计算两个量的差值(而非比例),被称作杠杆率
2.3.7. 一种适用于几乎不可能偶然出现的关联,而另一种则更适用于相对更可能偶然出现的关联
2.4. 用户画像
2.4.1. 寻找典型行为
2.4.2. 用户画像的目的是描述个人、群组或总体的典型行为特征
2.4.3. 欺诈检测的画像可能需要关于用户工作日和周末信用卡使用均值、信用卡跨国使用情况、商家和产品类别的使用情况和可疑商家的使用情况复杂的描述
2.4.4. 用户行为的画像一般可以在整个总体、小群体、甚至每个人的层面上来进行
2.4.5. 高斯混合模型(GMM)
2.4.6. “软”聚类,也称概率聚类
2.5. 链路预测和社交推荐
2.5.1. 有时,与其预测数据项的性质(目标变量值),不如预测数据项之间的关系
2.5.2. 链路预测在社交网络系统中非常常用
2.6. 数据约简、潜在信息和电影推荐
2.6.1. 针对某些商业问题,我们希望把大型数据集替换成较小的数据集,但是该小数据集要保留大数据集中的大部分重要信息
2.6.2. 较小的数据集不仅处理起来更方便,或许还能更好地展现其中的信息
2.6.3. 数据约简通常需要牺牲一些信息,但是在数据的洞察或易处理性与信息损失之间进行权衡非常重要,而这种权衡往往证明牺牲信息是值得的
2.6.4. 数据约简和链路预测一样,都是一种一般任务,而不是一种特殊技术
2.6.5. 最常用方法是把模型建立在偏好的潜在维度的基础上
2.6.6. 用潜在维度进行电影推荐的思路是,把每部电影用潜在维度表示成特征向量,同时把每个用户的偏好也用潜在维度表示成特征向量,然后计算用户和所有电影的相似度评分,并据此向用户推荐电影
2.7. 偏差、方差和集成方法
2.7.1. 构造很多推荐模型,并把它们组合成一个“超级模型”
2.7.1.1. 构造了一个集成模型
2.7.2. 在很多情况下,集成模型可以提高模型的泛化能力
2.7.2.1. 不仅适用于推荐问题,还广泛适用于分类、回归、类概率估计等问题
2.7.3. 如果我们把每个模型当作目标预测任务中的一种“专家”,那么模型的组合就是一群专家
2.7.3.1. 如果每个专家知道的事情完全一样,那么他们就会给出相同的预测,这会使集成模型的优势无法体现
2.7.3.2. 如果每个专家理解问题的角度稍有不同,那么他们就会给出互补的预测,因而整个专家组的预测会比个人的预测信息量更大
2.7.4. 误差越不相关越好,最好能完全独立
2.7.4.1. 在整合所有预测时,这些误差就能互相抵消,使预测真正互补,从而使集成模型优于任意一个独立的模型
2.7.5. 误差因素
2.7.5.1. 内在随机性
2.7.5.1.1. 仅包括预测非“确定性”的情况
2.7.5.1.2. 贝叶斯率
2.7.5.2. 偏差
2.7.5.2.1. 建模过程可能是“有偏差的”。
2.7.5.2.2. 我们没有无限多的训练数据,只有一些有限的样本
2.7.5.3. 方差
2.7.5.3.1. 方差小的模型通常偏差较大,反之亦然
2.7.5.3.2. 如果我们的建模方法方差极高,那么对多次预测取平均就能降低预测的方差
2.7.5.3.3. 集成方法会大幅度提升高方差方法的预测能力
2.7.5.3.4. 集成方法通常用于树型归纳,因为分类树和回归树往往方差较高
2.7.6. 随机森林、套袋法和自助法,这些都是用于树形模型的常见集成方法
2.8. 数据的因果解释
2.8.1. 病毒式营销的目标是构造像传染病一样迅速流行的活动,但这种流行背后的关键假设是消费者之间会互相影响
2.8.2. 无法在不理解基本原则的前提下理解因果数据科学
Powered by leyu乐鱼官网登陆 @2013-2022 RSS地图 HTML地图