香农熵是如何对沟通施加根本性限制?

黄先生斜杠青年 2022-09-07 21:34:26

我是斜杠青年,一个热爱前沿科学的“杂食性”学者!

信息是什么,是真的吗?克劳德·香农认识到元素成分令人惊讶。

来源:维基共享资源

要传达一系列随机事件,例如硬币翻转,你需要使用大量信息,因为消息没有结构。香农熵衡量了这一基本约束。

如果有人告诉你一个你已经知道的事实,他们基本上什么都没告诉你。然而,如果他们泄露了一个秘密,可以公平地说,有些事情真的被传达了。

这种区别是克劳德·香农信息理论的核心。它由1948年一篇划时代的论文《通信数学理论》介绍,为量化准确发送和接收消息所需的信息量提供了一个严格的数学框架,这取决于预期信息可能表达什么的不确定性程度。

也就是说,举个“栗子”吧……

在一个场景中,我有一个诡计硬币——它两边都有头。我要翻两次。传达结果需要多少信息?根本没有,因为在收到消息之前,你完全可以肯定两个翻转都会出现。

在第二个场景中,我用普通硬币翻转两次——一边是头,另一边是尾巴。我们可以使用二进制代码传达结果:头部为0,尾巴为1。有四条可能的消息——00、11、01、10——每条消息都需要两位信息。

那么,这有什么意义呢?在第一个场景中,你对消息的内容完全确定,并且传输它需要零位。在第二场景中,你有1比4的机会猜出正确的答案——25%的确定性——消息需要两位信息来解决这种模糊性。一般地说,你对信息表达什么了解越少,传达的信息就越多。

香农是第一个使这种关系在数学上精确的人。他在计算消息所需的最小位数(后来称为香农熵的阈值)的公式中捕获了它。他还表明,如果发件人使用的位数少于最小值,消息将不可避免地被扭曲。

加州大学圣地亚哥分校的信息理论家塔拉·哈维迪表示:“他也有这样的直觉,即当你对学习某事最惊讶时,信息就会最大化。”

“熵”一词来自于物理学中,熵是紊乱的衡量标准。云的熵高于冰立方体,因为云比立方体的晶体结构允许更多的方法来排列水分子。在类似的情况下,随机消息具有很高的香农熵——如何排列其信息的可能性很大——而遵循严格模式的消息具有较低的熵。在物理学和信息论中计算熵的方式也存在形式相似之处。在物理学中,熵公式涉及对可能的物理状态进行对数。在信息论中,它是可能的事件结果的对数。

香农熵的对数公式掩盖了它捕获内容的简单性——因为思考香农熵的另一种方式是,平均而言,确定消息内容所需的是或否问题的数量。

例如,想象一下两个气象站,一个在圣地亚哥,另一个在圣彼得堡。每个人都想将自己城市的七天天气预报发送给另一个。圣地亚哥几乎总是阳光明媚,这意味着你对天气预报会的传播充满信心。圣彼得堡的天气不确定——晴天的机会更接近50-50。

1954年,Claude Shannon在贝尔实验室。来源:Francis Bello的遗产/科学来源

发送每个七天的预测需要多少个是或否问题?对圣地亚哥来说,有利可图的第一个问题可能是:所有七天的天气预报都是晴天吗?如果答案是肯定的(而且可能性是肯定的),那么你已经在一个问题中确定了整个预测。但对于圣彼得堡,你几乎必须一天一天地完成天气预报:第一天阳光明媚吗?第二天呢?

消息内容的确定性越高,平均而言,你确定它所需的是或否问题就越少。

要再举一个例子,请考虑两个版本的字母游戏。首先,我从英文字母表中随机选择了一个字母,我想让你猜猜。如果你使用最好的猜测策略,平均需要4.7个问题才能得到它。(一个有用的第一个问题是:“字母在字母表的前半部分吗?”)

在游戏的第二个版本中,你不是猜测随机字母的价值,而是试图猜测实际英语单词中的字母。现在,你可以调整你的猜测,以利用一些字母比其他字母出现得更频繁的事实(“它是元音吗?”)了解一个字母的值有助于你猜测下一个字母的值(q几乎总是跟着u)。香农计算出,英语的熵为每个字母2.62位(或2.62是或否问题),远远低于每个字母随机出现时所需的4.7位。换句话说,模式减少了不确定性,这使得使用相对较少的信息进行大量通信成为可能。

请注意,在这样的示例中,你可以提出更好或更糟糕的问题。香农熵设置了一个不可侵犯的底线:这是传达信息所需的绝对最小位数,或是或否问题。

“香农展示了光速之类的东西,这是一个基本的极限。”“香农熵是我们可以压缩源的根本限制,而不会冒失真或损失的风险。”

今天,香农熵是许多应用环境中的尺度,包括信息压缩技术。例如,你可以压缩大型电影文件,这要归功于像素颜色具有统计模式,就像英语单词一样。工程师可以为从一帧到下一帧的像素颜色模式构建概率模型。这些模型可以通过为模式分配权重,然后根据像素可能出现的所有可能方式获取权重的对数来计算香农熵。该值告诉你“无损”压缩的极限——在你开始丢失有关其内容的信息之前,电影绝对可以压缩。

任何压缩算法的性能都可以与此限制进行比较。如果你离它很远,你有动力更努力地工作,找到更好的算法。但如果你接近它,宇宙的信息定律就会阻止你做得更好。

了解更多信息科学,关注我就是你最好的选择!

拓展阅读:

半导体纳米晶体的液细胞透射电子显微镜分析

一段漫长而动荡的电动汽车史

物理学家发现了新的湍流动态框架

无物物理学如何成为一切的基础?

(几乎)一切理论的入门

特斯拉Dojo架构大解析——道场微架构 - Hot Chips 34

最新前沿科技视频:

网络生态大变革,web3蓄势待发#涨知识 #科普知识 #知识分享

互联网巨头笼罩下,关于Web3.0的一些思考3/3集#科普知识 #互联网创业 #一起涨知识​

0 阅读:49

黄先生斜杠青年

简介:#共同富裕探索者,不务正业。蝴蝶号“黄先生斜杠青年