约率只有 3.7%,但事实上隐含了一定比

就数据科学的理论层面而言,因为无法事前知道哪些数据具备有意义的高应用价值,所以通常会选择尽可能地储存所能收集到的数据,但在实务面因为营运成本考虑(大数据的广义定义),全面性的数据收集与分析往往不可行,同时数据过多所造成的噪声(noise)也会使分析结果打折扣。然而事前规划受限制的收集面向与范畴,如此又一定程度上违背了数据采矿(Data mining)的原则,使得欲投入大数据领域者陷入两难。

二、预测的主观性

大至天灾、人祸、经济、政治,小至保险、投资、博弈,人类从占卜、观星到目前发展成熟的数据科学,预测(Prediction)始终都是最重要的目的,只要预测的结果能产生一定程度以上的正确性,数据和数据模型就有了存在的价值。

这就牵涉到所谓「客观的」预测是否存在的讨论。精准预测的作者 Nate Silver 抱持否定态度,认为所有的预测都是主观的,即便数据都是由外部产生,但数据模型(model)和数据解读结果,都必然存在着人为的主观判断。自我实现(Self-fullfilling)和自我取消(Self-defeating)是预测存在主观性的论证。

自我实现的预测,指得是事前预测的行为,会促使预测结果实现,例如选举民调,投票日前某位候选人民调的大幅上升或落后,会使支持者产生乐观或悲观的情绪,进而提升或降低该候选人的得票率,因此民主制度下的选举通常会有投票前十日(或一段时间内)禁止媒体公布民调的规定,亦即所谓的封关民调。

自我取消的预测,则刚好相反。最明显的例子就是流行性疾病预报,当国家卫生机构依据温度、环境因子、全国病例等数据,预估今年冬天流行感冒患者将会大幅增加时,民众会因为害怕疾病而严加防上海翻译公司范(注意保暖、外出戴口罩等),使得疾病预报的准确性降低了。

三、失误的代价

2007年出版的「黑天鹅效应(The Balck Swan)」一书中,已经充分论述了离群值(outlier)所带来的巨大冲击。就一般的统计理论而言,离群值因为发生的机率微小,且对模型的影响程度不高,一般会忽略这种离群事件所造成的误差。但正是这种微小误差的累积,造成美国 911 攻击事件、金融海啸、以及日常生活中所发生的诸多大小意外。

以金融海啸的源头──次级房贷(Subprime Mortgage Loan)而言,根本问题出在于雷曼兄弟这类的信评机构(Rating agency),根据模型所包装成的衍生性金融商品,很大程度低估了潜在的违约风险(default risk)。当市场上已经发行了大量的高风险商品时,即使违约机率很低,然而一旦发上海翻译公司生所造成的连锁伤害就会非常巨大,也就是后来的 2008-2009 金融海啸。如下图所示,如以加权平均方式计算,资产整体的违约率只有 3.7%,但事实上隐含了上海翻译公司一定比重的高风险资产。

就数据科学的理论层面而言,因为无法事前知道哪些数据具备有意义的高应用价值,所以通常会选择尽可能地储存所能收集到的数据,但在实务面因为营运成本考虑(大数据的广义定义),全面性的数据收集与分析往往不可行,同时数据过多所造成的噪声(noise)也会使分析结果打折扣。然而事前规划受限制的收集面向与范畴,如此又一定程度上违背了数据采矿(Data mining)的原则,使得欲投入大数据领域者陷入两难。

二、预测的主观性

大至天灾、人祸、经济、政治,小至保险、投资、博弈,人类从占卜、观星到目前发展成熟的数据科学,预测(Prediction)始终上海翻译公司都是最重要的目的,只要预测的结果能产生一定程度以上的正确性,数据和数据模型就有了存在的价值。

这就牵涉到所谓「客观的」预测是否存在的讨论。精准预测的作者 Nate Silver 抱持否定态度,认为所有的预测都是主观的,上海翻译公司即便数据都是由外部产生,但数据模型(model)和数据解读结果,都必然存在着人为的主观判断。自我实现(Self-fullfilling)和自我取消(Self-defeating)是预测存在主观性的论证。

上海翻译公司自我取消的预测,则刚好相反。最明显上海翻译公司的例子就是流行性疾病预报,当国家卫生机构依据温度、环境因子、全国病例等数据,预估今年冬天流行感冒患者将会大幅增加时,民众会因为害怕疾病而严加防范(注意保暖、外出戴口罩等),使得疾病预报的准确性降低了。

三、失误的代价

2007年出版的「黑天鹅效应(The Balck Swan)」一书中,已经充分论述了离群值(outlier)所带来的巨大冲击。就一般的统计理上海翻译公司论而言,离群值因为发生的机率微小,且对模型的影响程度不高,一般会忽略这种离群事件所造成的误差。但正是这种微小误差的累积,造成美国 911 攻击事件、金融海啸、以及日常生活中所发生的诸多大小意外。

以金融海啸的源头──次级房贷(Subprime Mortgage Loan)而言,根本问题出在于雷曼兄弟这类的信评机构(Rating agency)上海翻译公司,根据模型所包装成的衍生性金融商品,很大程度低估了潜在的违约风险(default risk)。当市场上已经发行了大量的高风险商品时,即使违约机率很低,然而一旦发生所造成的连锁伤害就会非常巨大,也就是后来的 2008-2009 金融海啸。如上海翻译公司下图所示,如以加权平均方式计算,资产整体的违约率只有 3.7%,但事实上隐含了一定比重的高风险资产。

就数据科学的理论层面而言,因为无法事前知道哪些数据具备有意义的高应用价值,所以通常会选择尽可能地储存所能收集到的数据,但在实务面因为营运成本考虑(大数据的广义定义),全面性的数据收集与分上海翻译公司析往往不可行,同时数据过多所造成的噪声(noise)也会使分析结果打折扣。然而事前规划受限制的收集面向与范畴,如此又一定程度上违背了数据采矿(Data mining)的原则,使得欲投入大数据领域者陷入两难。

二、预测的主观性

大至天灾、人祸、经济、政治,小至保险、上海翻译公司投资、博弈,人类从占卜、观星到目前发展成熟的数据科学,预测(Prediction)始终都是最重要的目的,只要预测的结果能产生一定程度以上的正确性,数据和数据模型就有了存在的价值。

这就牵涉到所谓「客观的」预测是否存在的讨论。精准预测的作者 Nate Silver 抱持否定态度,认为所有的预测都是主观的,上海翻译公司即便数据都是由外部产生,但数据模型(model)和数据解读结果,都必然存在着人为的主观判断。自我实现(Self-fullfilling)和自我取消(Self-defeating)是预测存在主观性的论证。

自我实现的预测,指得是事前预测的行为,会促使预测结果实现,例如选举民调,投票日前某位候选人民调的大幅上上海翻译公司升或落后,会使支持者产生乐观或悲观的情绪,进而提升或降低该候选人的得票率,因此民主制度下的选举通常会有投票前十日(或一段时间内)禁止媒体公布民调的规定,亦即所谓的封关民调。

自我取消的预测,则刚好相反。最明显的例子就是流行性疾病预报,当国家卫生机构依据温度、环境因子、全国病例等数上海翻译公司据,预估今年冬天流行感冒患者将会大幅增加时,民众会因为害怕疾病而严加防范(注意保暖、外出戴口罩等),使得疾病预报的准确性降低了。

三、失误的代价

2007年出版的「黑天鹅效应(The Balck Swan)」一书中,已经充分论述了离群值(outlier)所带来的巨大冲击。就一般的上海翻译公司统计理论而言,离群值因为发生的机率微小,且对模型的影响程度不高,一般会忽略这种离群事件所造成的误差。但正是这种微小误差的累积,造成美国 911 攻击事件、金融海啸、以及日常生活中所发生的诸多大小意外。

以金融海啸的源头──次级房贷(Subprime Mortgage Loan)而言,根本问题出在于雷曼兄弟这类的信评机构(Rating agen上海翻译公司cy),根据模型所包装成的衍生性金融商品,很大程度低估了潜在的违约风险(default risk)。当市场上已经发行了大量的高风险商品时,即使违约机率很低,然而一旦上海翻译公司发生所造成的连锁伤害就会非常巨大,也就是后来的 2008-2009 金融海啸。如下图所示,如以加权平均方式计算,资产整体的违约率只有 3.7%,但事实上隐含了一定比重的高风险资产。

就数据科学的理论层面而言,因为无法事前知道哪些数据具备有意义的高应用价值,所以通常会选择尽可能地储存所能收集到的数据,但在实务面因为营运成本考虑(大数据的广义定义),全面性的上海翻译公司数据收集与分析往往不可行,同时数据过多所造成的噪声(noise)也会使分析结果打折扣。然而事前规划受限制的收集面向与范畴,如此又一定程度上违背了数据采矿(Data mining)的原则,使得欲投入大数据领域者陷入两难。

二、预测的主观性

大至天灾、人祸、经济、政治,小至保险、投资、博弈,人类从占卜、观星到目前发展成熟的数据科学,预测(Prediction)始上海翻译公司终都是最重要的目的,只要预测的结果能产生一定程度以上的正确性,数据和数据模型就有了存在的价值。

这就牵涉到所谓「客观的」预测是否存在的讨论。精准预测的作者 Nate Silver 抱持否定态度,认为所有的预测都是主观的,即便上海翻译公司数据都是由外部产生,但数据模型(model)和数据解读结果,都必然存在着人为的主观判断。自我实现(Self-fullfilling)和自我取消(Self-defeating)是预测存在主观性的论证。

自我实现的预测,指得是事前预测的行为,会促使预测结果实现,例如选举民调,投票日前某位候选人民调的大幅上升或落后,会使支持者产生乐观或悲观的情绪,进而提升或降低该候选人的得票率,因此民主上海翻译公司制度下的选举通常会有投票前十日(或一段时间内)禁止媒体公布民调的规定,亦即所谓的封关民调。

自我取消的预测,则刚好相反。最明显上海翻译公司的例子就是流行性疾病预报,当国家卫生机构依据温度、环境因子、全国病例等数据,预估今年冬天流行感冒患者将会大幅增加时,民众会因为害怕疾病而上海翻译公司严加防范(注意保暖、外出戴口罩等),使得疾病预报的准确性降低了。

三、失误的代价

2007年出版的「黑天鹅效应(The Balck Swan)」一书中,已经充分论述了离群值(outlier)所带来的巨大冲击。就一般的统计理论而言,离群值因为发生的机率微小,且对模型的影响程度不高,一般上海翻译公司会忽略这种离群事件所造成的误差。但正是这种微小误差的累积,造成美国 911 攻击事件、金融海啸、以及日常生活中所发生的诸多大小意外。

以金融海啸的源头──次级房贷(Subprime Mortgage Loan)而言,根本问题出在于雷曼兄弟这类的信评机构(Rating agency),根据模型所包装成的衍生性金融商品,很大程度低估了潜在的违上海翻译公司约风险(default risk)。当市场上已经发行了大量的高风险商品时,即使违约机率很低,然而一旦发生所造成的连锁伤害就会非常巨大,也就是后来的 2008-2009 金融海啸。如下图所示,如以加权平均方式计算,资产整体的违约率上海翻译公司只有 3.7%,但事实上隐含了一定比重的高风险资产。

發表留言

使用 WordPress.com 設計專業網站
立即開始使用