回歸分析
本條目存在以下問題,請協助改善本條目或在討論頁針對議題發表看法。
此條目需要擴充。 (2018年11月8日)请協助改善这篇條目,更進一步的信息可能會在討論頁或扩充请求中找到。请在擴充條目後將此模板移除。
此條目需要精通或熟悉相关主题的编者参与及协助编辑。 (2018年11月8日)請邀請適合的人士改善本条目。更多的細節與詳情請參见討論頁。
此條目需要补充更多来源。 (2018年11月8日)请协助補充多方面可靠来源以改善这篇条目,无法查证的内容可能會因為异议提出而被移除。致使用者:请搜索一下条目的标题(来源搜索:"迴歸分析" — 网页、新闻、书籍、学术、图像),以检查网络上是否存在该主题的更多可靠来源(判定指引)。
统计学系列条目迴歸分析
模型
線性回歸
简单线性回归
普通最小二乘法(OLS)
多项式回归
一般线性模型
廣義線性模式
离散选择(英语:Discrete choice)
对数几率回归
多项罗吉特(英语:Multinomial logit)
混合罗吉特
波比(英语:Probit model)
多项式波比(英语:Multinomial probit)
排序性模型(英语:Ordered logit)
有序波比(英语:Ordered probit)
泊松回归
等级线性模型
固定效应(英语:Fixed effects model)
随机效应(英语:Random effects model)
混合模型(英语:Mixed model)
非线性回归
非参数
半参数
稳健
分位数迴歸
保序回归
主成分
最小角
局部(英语:Local regression)
分段
含误差变量(英语:Errors-in-variables models)
估计
最小二乘法
普通最小二乘法
线性
偏最小二乘回归
总体(英语:Total least squares)
广义
加权
非线性
非负(英语:Non-negative least squares)
重复再加权(英语:Iteratively reweighted least squares)
脊迴歸(嶺迴歸)
LASSO
最小绝对值导数法(英语:Least absolute deviations)
贝叶斯(英语:Bayesian linear regression)
贝叶斯多元
背景
回归模型驗證(英语:Regression model validation)
平均响应和预测响应(英语:Mean and predicted response)
误差和残差
拟合优度
学生化残差(英语:Studentized residual)
高斯-马尔可夫定理
概率与统计主题查论编
簡單線性迴歸分析的例子
迴歸分析(英語:Regression Analysis)是一種統計學上分析數據的方法,目的在於了解兩個或多個變數間是否相關、相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。
迴歸分析是建立被解釋變數
Y
{\displaystyle Y}
(或稱應變數、依變數、反應變數)與解釋變數
X
{\displaystyle X}
(或稱自變數、獨立變數)之間關係的模型。簡單線性回歸使用一個自變量
X
{\displaystyle X}
,複迴歸使用超過一個自變量(
X
1
,
X
2
.
.
.
X
i
{\displaystyle X_{1},X_{2}...X_{i}}
)。
起源[编辑]
回归的最早形式是最小二乘法,由1805年的勒让德(Legendre)[1],和1809年的高斯(Gauss)出版[2]。勒让德和高斯都将该方法应用于从天文观测中确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展[3],包括高斯-马尔可夫定理的一个版本。
「迴歸」一詞最早由法蘭西斯·高爾頓(Francis Galton)所使用[4][5]。他曾對親子間的身高做研究,發現父母的身高雖然會遺傳給子女,但子女的身高卻有逐漸「回歸到中等(即人的平均值)」的現象。不過現在的迴歸已经和当初的意義不盡相同。
在1950年代和60年代,经济学家使用机械电子桌面计算器来计算回归。在1970年之前,这种计算方法有时需要长达24小时才能得出结果[6]。
迴歸分析原理[编辑]
目的在於找出一條最能夠代表所有觀測資料的函數曲线(迴歸估計式)。
用此函數代表因變數和自變數之間的關係。
母數估計[编辑]
動差估計(Method of Moment;MOM)
最小二乘法(Ordinary Least Square Estimation;OLSE)
最大似然估计(Maximum Likelihood Estimation;MLE)
回归模型[编辑]
回归模型主要包括以下变量:
未知参数,记为
β
{\displaystyle \beta }
,可以代表一个标量或一个向量。
自变量,
X
{\displaystyle \mathbf {X} }
。
因变量,
Y
{\displaystyle Y}
。
回归模型将
Y
{\displaystyle Y}
和一个关于
X
{\displaystyle \mathbf {X} }
和
β
{\displaystyle \beta }
的函数关联起来。
在不同的应用领域有各自不同的术语代替这里的“自变量”和“因变量”。
Y
≈
f
(
X
,
β
)
{\displaystyle Y\approx f(\mathbf {X} ,{\boldsymbol {\beta }})}
这个估计值通常写作:
E
(
X
|
Y
)
=
f
(
X
,
β
)
{\displaystyle E(X|Y)=f(\mathbf {X} ,{\boldsymbol {\beta }})}
。
在进行回归分析时,函数
f
{\displaystyle f}
的形式必须预先指定。有时函数
f
{\displaystyle f}
的形式是在对
Y
{\displaystyle Y}
和
X
{\displaystyle \mathbf {X} }
关系的已有知识上建立的,而不是在数据的基础之上。如果没有这种已有知识,那么就要选择一个灵活和便于回归的
f
{\displaystyle f}
的形式。
假设现在未知向量
β
{\displaystyle \beta }
的维数为k。为了进行回归分析,必须要先有关于
Y
{\displaystyle Y}
的信息:
如果以
(
Y
,
X
)
{\displaystyle (Y,\mathbf {X} )}
的形式给出了
N
{\displaystyle N}
个数据点,当
N
<
k
{\displaystyle N 时,大多数传统的回归分析方法都不能进行,因为数据量不够导致回归模型的系统方程不能完全确定 β {\displaystyle \beta } 。 如果恰好有 N = k {\displaystyle N=k} 个数据点,并且函数 f {\displaystyle f} 的形式是线性的,那么方程 Y = f ( X , β ) {\displaystyle Y=f(\mathbf {X} ,{\boldsymbol {\beta }})} 能精确求解。这相当于解一个有 N {\displaystyle N} 个未知量和 N {\displaystyle N} 个方程的方程组。在 X {\displaystyle \mathbf {X} } 线性无关的情况下,这个方程组有唯一解。但如果 f {\displaystyle f} 是非线性形式的,解可能有多个或不存在。 实际中 N > k {\displaystyle N>k} 的情况占大多数。这种情况下,有足够的信息用于估计一个与数据最接近的 β {\displaystyle \beta } 值,这时当回归分析应用于这些数据时,可以看作是解一个关于 β {\displaystyle \beta } 的超定方程(英语:Overdetermined system)。 在最后一种情况下,回归分析提供了一种完成以下任务的工具: ⒈找出一个未知量 β {\displaystyle \beta } 的解使因变量 Y {\displaystyle Y} 的预测值和实际值差别最小(又称最小二乘法)。 ⒉在特定统计假设下,回归分析使用数据中的多余信息给出关于因变量 Y {\displaystyle Y} 和未知量 β {\displaystyle \beta } 之间的关系。 迴歸分析的種類[编辑] 簡單線性回歸[编辑] 簡單線性迴歸(英語:simple linear regression) 應用時機 以單一變數預測 判斷兩變數之間相關的方向和程度 複迴歸(或多變量迴歸)[编辑] 複回歸分析(英語:multiple regression analysis)是簡單線性迴歸的一種延伸應用,用以瞭解一個依變項與兩組以上自變項的函數關係。 對數線性迴歸[编辑] 對數線性迴歸(英语:Log-linear model)(英語:Log-linear model),是將解釋變項(實驗設計中的自變項)和反應變項(實驗設計中的依變項)都取對數值之後再進行線性迴歸,所以依據解釋變項的數量,可能是對數簡單線性迴歸,也可能是對數複迴歸。 非線性迴歸[编辑] 对数几率回归[编辑] 主条目:对数几率回归 对数几率回归(英語:Logistic Regression) 偏迴歸[编辑] 偏迴歸(英语:Partial Regression)(英語:Partial Regression) 用於研究單個自變數對因變數的影響,同時控制其他自變數的影響。它通常應用在多元迴歸模型中,以解決自變數之間存在共線性時的問題,或者用於探索自變數之間的相互作用。 自迴歸[编辑] 主条目:自迴歸模型 自迴歸滑動平均模型[编辑] 主条目:ARMA模型 差分自迴歸滑動平均模型[编辑] 主条目:ARIMA模型 向量自迴歸模型[编辑] 主条目:向量自迴歸模型 參閱[编辑] 概率与统计主题 曲線擬合 估计理论 廣義線性模型 多元正态分布 皮尔逊积矩相关系数 信号处理 相關分析 多變量統計 参考资料[编辑] ^ A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes (页面存档备份,存于互联网档案馆), Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix. ^ C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809) ^ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae (页面存档备份,存于互联网档案馆). (1821/1823) ^ Mogull, Robert G. Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. 2004: 59. ISBN 0-7575-1181-3. ^ Galton, Francis. Kinship and Correlation (reprinted 1989). Statistical Science (Institute of Mathematical Statistics). 1989, 4 (2): 80–86. JSTOR 2245330. doi:10.1214/ss/1177012581. ^ Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? (页面存档备份,存于互联网档案馆) March 2006. Accessed 2011-12-03. 外部連結[编辑] 解讀迴歸分析的原理及結構 查论编统计学描述统计学连续概率集中趋势 平均数 平方 算術 幾何 調和 算术-几何 几何-调和 希羅/平均数不等式 中位數 眾數 离散程度 全距 变异系数 百分位數 四分位距 四分位数 標準差 方差 平均差 標準分數 切比雪夫不等式 基尼系数 分布形态(英语:Shape of the distribution) 中心极限定理 矩 偏態 峰態 离散概率 次數(英语:Count data) 列聯表 推論統計學和假說檢定推論統計學 置信区间 區間估計 显著性差异 元分析 贝叶斯推断 实验设计 总体 抽樣 重抽样 刀切法 自助法 交叉驗證 重复(英语:Replication (statistics)) 區集(英语:Blocking (statistics)) 靈敏度和特異度 缺失数据 样本量(英语:Sample size) 標準誤 零假设 备择假设 第一类错误与第二类错误 统计功效 效应值 常规估计 贝叶斯推断 區間估計 最大似然估计 最小距離估計(英语:Minimum distance estimation) 矩估计 最大间距 假设检验 Z檢驗 学生t检验 F檢定 卡方检验 Wald檢定(英语:Wald test) 曼-惠特尼檢定(英语:Mann–Whitney U test) 秩和检验 生存分析 生存函数 乘積極限估計量 對數秩和檢定 失效率 危險比例模式 相關及迴歸分析相关性 干擾因素 皮尔逊積矩相關係數 等級相關(英语:Rank correlation) (斯皮尔曼等级相关系数 肯德等級相關係數(英语:Kendall tau rank correlation coefficient)) 自由度 误差和残差 線性回歸 線性模型(英语:Linear model) 一般线性模型 廣義線性模型 簡單線性迴歸 普通最小二乘法 贝叶斯回归(英语:Bayesian linear regression) 方差分析 协方差分析(英语:Analysis of covariance) 非线性回归 非参数回归模型(英语:Nonparametric regression) 半参数回归模型(英语:Semiparametric regression) 邏輯斯諦迴歸 统计图形 饼图 条形图 双标图 箱形圖 管制圖 森林圖(英语:Forest plot) 直方图 分位圖 趋势图 散点图 莖葉圖 雷达图(英语:Radar chart) 示意地圖 其他 统计类型(維基數據:Q47103999) 回應過程效度 統計誤用 分类 主题 共享资源 专题 词汇表 查论编机器学习同数据挖掘主題基本概念学习 · 图灵测试 · 運算學習論數學模型迴歸模型 · 人工神经网络(深度学习) · 生成对抗网络 · Transformer模型 · 大语言模型 · 決策樹 · 貝氏網路 · 支持向量机 · 关联规则学习學習範式机器学习 · 深度学习 · 迁移学习 · 微调 (深度学习) · 监督学习 · 半监督学习 · 無監督學習 · 强化学习 · Q学习 · 遺傳演算法主要應用统计分类 · 表征学习 · 降维 · 聚类分析 · 异常检测相關領域计算科學 · 人工智能 · 通用人工智慧 · 生成式人工智慧 · 提示工程 · 统计学 · 數據科學 · 计算机科学 · 信息与计算科学 · 神经科学 · 认知科学 查论编可微分计算概论 可微分编程 自動微分 张量微积分 信息几何 统计流形 神经形态工程(英语:Neuromorphic engineering) 模式识别 运算学习理论(英语:Computational learning theory) 归纳偏置 概念 梯度下降 SGD(英语:Stochastic gradient descent) 聚类 回归 过拟合 幻觉 对抗(英语:Adversarial machine learning) 注意力 卷积 損失函數 反向传播 激活函数 softmax sigmoid ReLU 正则化 数据集 扩散(英语:Diffusion process) 自回归 应用 机器学习 人工神经网络 深度学习 科学计算 人工智能 語言模型 大型语言模型 硬件 TPU VPU IPU(英语:Graphcore) 憶阻器 SpiNNaker(英语:SpiNNaker) 软件库 Theano TensorFlow Keras PyTorch JAX Flux.jl(英语:Flux (machine-learning framework)) 主题 计算机编程 技术 分类 人工神经网络 机器学习 规范控制数据库 国际 FAST 各地 法国 BnF data 德国 以色列 美国 日本 捷克
2021朝鲜足球世界排名:名列第109,积分1169
QQ坦白说如何知道对方是谁 查看是谁说的方法说明