快捷搜索:

当贝叶斯,数据发掘之贝叶斯

日期:2019-06-18编辑作者:澳门新葡8455手机版

倒计时8**天**

1. 贝叶斯推理

--提供了推理的一种概率手段

--两个基本假设:

(1)待考察的量遵循某概率分布

(2)可根据这些概率以及观察到的数据进行推理,以作作出最优的决策

--贝叶斯推理对机器学习十分重要:

        为衡量多个假设的置信度提供了定量的方法

        为直接操作概率的学习算法提供了基础

        为其他算法的分析提供了理论框架

--机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设

        最佳假设: 在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设

--概率学习系统的一般框架

图片 1

MDL表明,如果选择假设的表示(representation)使得h的大小为-log2 P(h),并且如果异常(错误)的表示被选择,那么给定h的D的编码长度等于-log2 P(D | h),然后MDL原则产生MAP假设。

4. 文本分类

算法描述:

图片 2

图片 3

不过,我在这段话的最后一句话里耍了个小花招。你注意了吗?我提到了一个词“假设”。

贝叶斯推理

贝叶斯法则

朴素贝叶斯分类器

应用:文本分类

给定假设是数据的长度。这是什么意思?

2. 贝叶斯法则

2.1 基本术语

D :训练数据;

H : 假设空间;

h : 假设;

P(h):假设h的先验概率(Prior Probability)

        即没有训练数据前假设h拥有的初始概率

P(D):训练数据的先验概率

        即在没有确定某一假设成立时D的概率

P(D|h):似然度,在假设h成立的情况下,观察到D的概率;

P(h|D):后验概率,给定训练数据D时h成立的概率;

2.2 贝叶斯定理(条件概率的应用)

图片 4

公式

        后验概率正比于P(h)和P(D|h)

        反比于P(D):D独立于h出现的概率越大,则D对h的支持度越小

2.3 相关概念

极大后验假设MAP:给定数据D和H中假设的先验概率,具有最大后验概率的假设h:

图片 5

计算公式

极大似然假设ML:当H中的假设具有相同的先验概率时,给定h,使P(D|h)最大的假设hml:

图片 6

计算公式

没有。

3. 贝叶斯分类器

图片 7

图片 8

图片 9

图片 10

对于实际的机器学习,人类设计者有时可能更容易指定一种表示来获取关于假设的相对概率的知识,而不是完全指定每个假设的概率。

听起来十分简单而且直观是吧?很好。

罗素说:“只要有可能,用已知实体的结构去替代未知实体的推论。”

新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,MIT物理教授、未来生命研究所创始人、《生命3.0》作者Max Tegmark,将发表演讲《我们如何利用AI,而不是被其压制》,探讨如何直面AI军事化和杀人武器的出现,欢迎到现场交流!

图片 11

Length (h): 奥卡姆剃刀

Thomas Bayes

因此,我们可以说,在贝叶斯推理的世界中,最可能的假设取决于两个术语,它们引起长度感(sense of length),而不是最小长度。

因此,让我们尝试用不同的符号重新定义贝叶斯定理——用与数据科学相关的符号。我们用D表示数据,用h表示假设,这意味着我们使用贝叶斯定理的公式来尝试确定数据来自什么假设,给定数据。我们把定理重新写成:

因此,贝叶斯推理告诉我们,最好的假设就是最小化两个项之和:假设的长度和错误率

返回搜狐,查看更多

这就是知识表示和领域专业知识变得无比重要的地方。它使(通常)无限大的假设空间变小,并引导我们走向一组高度可能的假设,我们可以对其进行最优编码,并努力找到其中的一组MAP假设。

我们从托马斯·贝叶斯(Thomas Bayes)说起,顺便一提,他从未发表过关于如何做统计推理的想法,但后来却因“贝叶斯定理”而不朽。

原文链接:

想想它的结果:

那么Length(D | h)是什么?

自那以后,统计科学的两个派别——贝叶斯学派和频率学派(Frequentists)之间发生了许多争论。但为了回归本文的目的,让我们暂时忽略历史,集中于对贝叶斯推理的机制的简单解释。请看下面这个公式:

但是如果数据与假设有很大的偏差,那么你需要对这些偏差是什么,它们可能的解释是什么等进行详细描述。

香农在MIT电子工程系完成的硕士论文被誉为20世纪最重要的硕士论文:在这篇论文中,22岁的香农展示了如何使用继电器和开关的电子电路实现19世纪数学家乔治布尔(George Boole)的逻辑代数。数字计算机设计的最基本的特征——将“真”和“假”、“0”和“1”表示为打开或关闭的开关,以及使用电子逻辑门来做决策和执行算术——可以追溯到香农论文中的见解。

而且,存在着权衡。

那是在18世纪下半叶,当时还没有一个数学科学的分支叫做“概率论”。人们知道概率论,是因为亚伯拉罕 · 棣莫弗(Abraham de Moievre)写的《机遇论》(Doctrine of Chances)一书。

图片 12

图片 13

将所有这些结合起来

来源:towardsdatascience

这个公式实际上告诉你,在看到数据/证据(可能性)之后更新你的信念(先验概率),并将更新后的信念程度赋予后验概率。你可以从一个信念开始,但每个数据点要么加强要么削弱这个信念,你会一直更新你的假设

而这正是在贝叶斯定理中的最大后验表达式中出现的那些术语的本质!

倒计时 8

现在,我们应用以下数学技巧:

如果你用奥卡姆剃刀刮掉你的假设,你很可能会得到一个简单的模型,一个无法获得所有数据的模型。因此,你必须提供更多的数据以获得更好的一致性。另一方面,如果你创建了一个复杂的(长的)假设,你可能可以很好地处理你的训练数据,但这实际上可能不是正确的假设,因为它违背了MAP 原则,即假设熵是小的。

在统计推理的世界里,假设就是信念。这是一种关于过程本质(我们永远无法观察到)的信念,在一个随机变量的产生背后(我们可以观察或测量到随机变量,尽管可能有噪声)。在统计学中,它通常被称为概率分布。但在机器学习的背景下,它可以被认为是任何一套规则(或逻辑/过程),我们认为这些规则可以产生示例或训练数据,我们可以学习这个神秘过程的隐藏本质。

1763年,贝叶斯的著作《机会问题的解法》(An Essay toward solving a Problem in the Doctrine of opportunities)被寄给英国皇家学会,但经过了他的朋友理查德·普莱斯(Richard Price)的编辑和修改,发表在伦敦皇家学会哲学汇刊。在那篇文章中,贝叶斯以一种相当繁复的方法描述了关于联合概率的简单定理,该定理引起了逆概率的计算,即贝叶斯定理。

图片 14

即使没有一个对假设的“长度”的精确定义,我相信你肯定会认为左边的树(A)看起来更小或更短。当然,你是对的。因此,更短的假设就是,它要么自由参数更少,要么决策边界更不复杂,或者这些属性的某种组合可以表示它的简洁性。

香农和信息熵

图片 15

本文由澳门新葡8455手机版发布于澳门新葡8455手机版,转载请注明出处:当贝叶斯,数据发掘之贝叶斯

关键词: