多重填补法是一种处理缺失数据的统计方法

临床数据科学和人工智能兴趣组

343人浏览 · 2026-03-28 11:10:02

临床数据科学和人工智能兴趣组 · 2026-03-28 11:10:02 发布

下面的内容摘录自《用R探索医药数据科学》专栏文章的部分内容（原文5665字）。

2篇2章6节：R的多重填补法中随机回归填补法的应用，MICE包的实际应用和统计与可视化评估-CSDN博客

在数据分析中，缺失数据是常见且具有挑战性的问题。缺失数据可能影响统计分析的结果和决策的准确性。因此，填补缺失数据成为数据预处理的重要步骤之一。多重填补法是处理缺失数据的一个先进方法，它通过生成多个填补数据集，进行分析后汇总结果，从而提高了估计的准确性和可信度。本文将深入探讨R语言中多重填补法的应用，包括其基本概念、实现方法和实际案例。

多重填补法

多重填补法（Multiple Imputation, MI）是一种处理缺失数据的统计方法。缺失数据问题在实际数据分析中十分常见，如何有效处理这些缺失值是确保分析结果可靠性的关键。多重填补法的核心理念是生成多个可能的填补值，以形成若干个完整的数据集，然后对这些完整的数据集进行分析，并将分析结果加以综合，以得到最终的分析结论。

1、随机回归填补法相关介绍

2、创建带有缺失值的数据集

# 创建带有缺失值的 iris 数据集
iris_miss <- iris

# 在Sepal.Length中添加缺失值
iris_miss$Sepal.Length[c(12, 22, 51, 92, 122)] <- NA

# 在Sepal.Width中添加缺失值
iris_miss$Sepal.Width[c(12, 96, 126)] <- NA

# 在Petal.Length中添加缺失值
iris_miss$Petal.Length[c(5, 15, 35, 45)] <- NA

3、构建模型填补生成数据集

接下来，我们使用mice包中的mice函数进行多重填补。mice函数会生成多个填补数据集，并使用这些数据集进行分析。

# 使用mice包中的贝叶斯线性回归方法填补缺失值
imputed_data <- mice(iris_miss, method = "norm", m = 5, maxit = 50, seed = 123)

# 查看插补结果
summary(imputed_data)

再上面代码中，首先通过“method = "norm"”这一设定，明确了采用贝叶斯线性回归方法来填补 iris_miss 数据集中的缺失值。接着，“m = 5”表明我们将生成 5 组经由贝叶斯线性回归方法预测所得的插补后的数据集。然后，“maxit = 50”指定了最大迭代次数为 50 次，在每次迭代中，都会对贝叶斯线性回归模型的参数进行调整，目的是更精准地估计缺失值。最后，“seed = 123”的设置能保证随机数种子的一致性，从而确保插补过程具备可重复性。

代码细讲

method = 'norm'：这个参数的作用是指定用于插补的单变量插补方法，其中'norm'意味着将采用贝叶斯线性回归（Bayesian linear regression）方法进行插补，此方法基于正态分布，适用于数值型数据。选择贝叶斯线性回归方法是因为它适用于 iris 数据集中如 Sepal.Length、Sepal.Width、Petal.Length 等连续型数值数据，基于正态分布进行插补；该方法不仅利用已有数据的线性关系，还借助贝叶斯推断的优势，在数据量较小或存在一定复杂性时能更准确地估计缺失值。

m = 5：这里是指定创建插补数据集的数量，设置为 5 表示 mice 函数会生成 5 个不同的插补数据集，这样做的目的是便于在后续的分析中能够考虑到插补存在的不确定性。提醒大家，在使用 mice 函数进行多重插补时，m 参数决定生成插补数据集的数量。虽然更大的 m 值能提高结果的稳定性，但并不总是越大越好，因为这会增加计算负担，且精度提升在超过10个插补后变得有限。通常，选择 m = 5 或 m = 10 可以在精度与计算成本之间达到良好的平衡。

seed = 123：随机数生成器通常使用算法生成伪随机数。虽然这些算法在理论上可以产生随机的序列，但它们实际上是确定性的，即如果给定相同的种子，它们会产生相同的随机数序列。随机种子就是这种初始化的起点。在数据分析或模拟实验中，使用固定的随机种子可以确保每次运行代码时得到相同的随机数序列。这样可以使结果的复现变得更加容易和可靠。例如，在进行实验和调试时，使用相同的随机种子能够保证每次实验都具有相同的随机输入，从而确保结果的一致性。

iter imp variable
 1   1  Sepal.Length  Sepal.Width  Petal.Length
 1   2  Sepal.Length  Sepal.Width  Petal.Length
 1   3  Sepal.Length  Sepal.Width  Petal.Length
 1   4  Sepal.Length  Sepal.Width  Petal.Length
 1   5  Sepal.Length  Sepal.Width  Petal.Length

市面上的 R 语言培训班和书籍（包括网络上的文章或视频），由于受限于培训时间或书籍篇幅，往往难以深入探讨 R 语言在数据科学或人工智能中的具体应用场景，内容泛泛而谈，最终无法真正解决实际工作中的问题。同时，它们也缺乏针对医药领域的深度结合与讨论。为了解决这些痛点，我们推出了《用 R 探索医药数据科学》专栏。该专栏将持续更新，不仅为您提供系统化的学习内容，更致力于成为您掌握最新、最全医药数据科学技术的得力助手。

每篇文章篇幅在5000字至9000字之间。
内容涵盖试验统计、预测模型、科研绘图、数据库、机器学习等热点领域。

重要更新

我们精心构建的《用R探索医药数据科学》学习地图，已于2026年3月中旬正式完成部署并上线。我们将专栏的核心内容重构为结构化的可视化知识图谱，不仅替代了原有的线性列表，更为学习者提供了清晰的进阶路径，订阅后的同学可以在PC端点击链接，查看目录：https://bestmd.coze.site/

专栏购买后的 6 点必读

1、本专栏目前共包含 10 个模块，核心内容由 9 大篇章构成。专栏内容将持续更新，更新节奏不严格遵循固定目录顺序，而是结合团队实际工作进展，灵活选择对应章节发布。后续我们也会根据新技术发展与行业动态持续补充内容；若新增技术与现有体系差异较大，将酌情增设全新篇章。

2、建议大家按照以下路径高效学习：以专栏问答和第1篇作为理论基础重点理解，将第2篇和第3篇作为必修的核心操作基础，待基础夯实后，可根据科研需求针对性学习第4至9篇的进阶专题。为了保证最佳学习效果，建议大家在电脑端配合R软件进行同步实操练习。

3、结合当前临床数据科学的研究热点，在学习完前 3 篇内容后，可按自身需求选择后续学习方向：1）若用于自有课题数据，建议重点学习第二章常规分析技术、第六篇数据驱动分析及第七篇机器学习与预测建模；2）若希望快速上手、尽早产出成果，且不介意稿件可能被期刊归类为综述，可选择第五篇文献挖掘相关技术；3）若开展临床公共数据挖掘，建议结合自身研究方向与兴趣，从第九篇所列数据库中选取其一进行深度学习与实践；如有其他新技术需求，也欢迎在文章评论区留言。

4、本文目录支持直接点击跳转至具体文章，内容按 “篇 - 节” 正向顺序排列，方便按需学习。专栏问答板块以解答疑惑为主，若从基础入门，可直接从第一篇第一章第一节开始系统学习。

5、专栏官网地址（https://blog.csdn.net/2301_79425796/category_12729892.html）的内容显示为倒序排列，便于快速查看最新更新章节。需注意，专栏更新不严格遵循章节顺序，会结合技术热度灵活追加内容，可能连续数周更新已有篇章的补充内容，虽页面显示无明显章节变动，但每周都会有新文章上线，专栏处于持续更新状态。同时，每新增一篇文章后，会第一时间同步更新本文目录，确保目录与专栏内容实时匹配。

6、建议大家优先用电脑阅读（而非手机），同时打开 R 软件，直接复制文中代码实操练习、模仿复现，再一步步拆解理解背后的逻辑。学习完每篇文章后，也推荐大家写下学习感悟：一来可作为笔记留存，清晰记录学习进度与核心重点；二来能梳理思路、加深对技术知识点的理解，还能和其他学习者交流分享心得、互相启发。若学习过程中遇到具体问题，欢迎直接在文章下方留言评论。我们会及时关注你的疑问，结合问题场景与细节给出针对性解答和指导，帮你顺畅掌握专栏中的技术内容。

https://datch.blog.csdn.net/article/details/143842464?spm=1011.2415.3001.5331

专栏问答

科研问答

科研问答：临床、中医、护理、药学等专业背景的学习者该如何认识 R 语言学习，让科研真正为自己服务？

科研问答：医药类本科生（临床、中医、中药与护理）本科阶段是否需要开展科研学习？

科研问答：什么是临床科学家和临床数据科学家？临床科学家在我国培养和NIH的资助有哪些？

科研问答：公共数据库发表能发表国际学术期刊吗？能够成为本硕博的毕业论文主要研究吗？以NHANES数据库为例

科研问答：如何更精确地进行文献搜索

科研问答：到底什么是综述，如何写好综述，如何进行文献搜索？

职场问答

职场问答：对于医学经理 / 医学统计师，《用R探索医药数据科学》这套专栏对职场有何帮助？

职场问答：以 FDA 为例，真实世界证据是如何改写药物在美上市的审批规则？

技术问答

技术问答：R 语言扩展包安装出问题？解决方案详细来教你

技术问答：管理和选择不同的R，如何做好R的笔记

技术问答：学R语言，感觉还行，一用就错误，人工智能帮忙写代码也看不懂错误，怎么办？

第一篇：介绍和工具的使用

1篇1章：认识数据科学和R

1篇1章1节：医药数据科学的历程和发展，用R语言探索数据科学

1篇1章2节：机器学习、统计学与ChatGPT的概述，与R语言的相关

1篇1章3节：R 语言的产生与发展轨迹

1篇1章4节：医药数据科学入门之认识数据可视化

1篇1章5节：学会数据分析基础和流程，开始人工智能数据分析师之路

1篇2章：R的安装和数据读取

1篇2章1节：R和RStudio的下载和安装（Windows 和 Mac）

1篇2章2节：RStudio 四大区应用全解，兼谈 R 的代码规范与相关文件展示

1篇2章3节：RStudio的高效使用技巧，自定义RStudio环境

1篇2章4节：用RStudio做项目管理，静态图和动态图的演示，感受ggplot2的魅力

1篇2章5节：R包管理，从模糊安装到自动更新，和工作目录和工作空间的设置

1篇2章6节：R的数据集读取和利用，如何高效地直接复制黏贴数据到R

1篇2章7节：用R读写RDS、RData、CSV和TXT格式文件

1篇2章8节：用R读写Excel、SPSS、SAS、Stata和Minitab等产生的数据文件

1篇2章9节：在R中应用SQL语言

1篇2章10节：R的网络爬虫技术快速入门

1篇3章：文档和课件输出

1篇3章1节：用R写作，先认识 NoteBook 和 Markdown

1篇3章2节：如何在 R Markdown 和 R Notebook 中创建使用

1篇3章3节：R Markdown的创建详解和直接使用学术期刊和出版社的模板

1篇3章4节：R Markdown 的文档开头（YAML），从基础到扩展包

1篇3章5节： Markdown 的标题、列表、字词和链接

1篇3章6节：R Markdown 的代码块、绘图与数学公式解析

1篇3章7节：Knit 的文档生成，和多文档流程的集合应用

1篇3章8节：HTML Widgets，将 JavaScript 可视化库封装成 R 函数

1篇3章9节：使用 R Markdown 和 Shiny 结合R语言进行数据报告和交互式应用的创建

第二篇：常规的分析技术

2篇1章：认识数据

2篇1章1节：数据的基本概念以及 R 中的数据结构、向量与矩阵的创建及运算

2篇1章2节：继续讲R的数据结构，数组、数据框和列表

2篇1章3节：R的赋值操作与算术运算_r里面的赋值

2篇1章4节：R的逻辑运算和矩阵运算

2篇1章5节：R 语言的循环与遍历函数全解析

2篇2章：数据的预处理

2篇2章1节：全面了解 R 中的数据预处理，通过 R 基本函数实施数据查阅

2篇2章2节：从排序到分组和筛选，通过 R 的 dplyr 扩展包来操作

2篇2章3节：处理医学类原始数据的重要技巧，R语言中的宽长数据转换，tidyr包的使用指南

2篇2章4节：临床数据科学中如何用R来进行缺失值的处理

2篇2章5节：数据科学中的缺失值的处理，删除和填补的选择，K最近邻填补法

2篇2章6节：R的多重填补法中随机回归填补法的应用，MICE包的实际应用和统计与可视化评估

2篇2章7节：用R做数据重塑，数据去重和数据的匹配

2篇2章8节：用R做数据重塑，行列命名和数据类型转换

2篇2章9节：用R做数据重塑，增加变量和赋值修改，和mutate()函数的复杂用法

2篇2章10节：用R做数据重塑，变体函数应用详解和可视化的数据预处理介绍

2篇2章11节：用R做数据重塑，数据的特征缩放和特征可视化

2篇2章12节：R语言中字符串的处理，正则表达式的基础要点和特殊字符

2篇2章13节：R语言中Stringr扩展包进行字符串的查阅、大小转换和排序

2篇2章14节：R语言中字符串的处理，提取替换，分割连接和填充插值

2篇2章15节：字符串处理，提取匹配的相关操作扩展，和Stringr包不同函数的重点介绍和举例

2篇2章16节：R 语言中日期时间数据的关键处理要点

2篇3章：定量数据的统计描述

2篇3章1节：用R语言进行定量数据的统计描述，文末有众数的自定义函数

2篇3章2节：离散趋势的描述，文末1个简单函数同时搞定20个结果

2篇3章3节：在R语言中，从实际应用的角度认识假设检验

2篇3章4节：从R语言的角度认识正态分布与正态性检验

2篇3章5节：认识方差和方差齐性检验（三种方法全覆盖）

2篇3章6节：R语言中的t检验，独立样本的t检验

2篇3章7节：单样本t检验和配对t检验

2篇3章8节：方差分析（ANOVA）及其应用

2篇3章9节：组间差异的非参数检验，Wilcoxon秩和检验和Kruskal-Wallis检验

2篇4章：定性数据的统计描述

2篇4章1节：定性数据的统计描述之列联表，文末有优势比计算介绍

2篇4章2节：认识birthwt数据集，EpiDisplay和Gmodels扩展包的应用

2篇4章3节：独立性检验，卡方检验，费希尔精确概率检验和Cochran-Mantel-Haenszel检验

2篇4章4节：相关关系和连续型变量的Pearson相关分析

2篇4章5节：分类型变量的Spearman相关分析，偏相关分析和相关图分析

2篇4章6节：相关图的GGally扩展包，和制表的Tableone扩展包

2篇5章：常见类型回归分析

2篇5章1节：认识回归分析的历史背景及应用

2篇5章2节：构建一元和多元的线性回归模型

2篇5章3节：回归模型中哑变量的应用和设置

2篇5章4节：深度解读构建回归模型表达式的九个关键符号

2篇5章5节：深度剖析回归模型结果的相关函数

2篇5章6节：深度解读线性回归模型的绘图判断

2篇5章7节：构建因变量为分类变量的二分类Logistic回归模型

2篇5章8节：详解不同逻辑回归模型的比较，和如何进行变量优化

2篇5章9节：深度讲解有序多分类Logistic回归模型的分析

2篇5章10节：条件Logistic回归模型的分析

2篇6章：生存分析模型

2篇6章1节：生存分析的基本概念和主要内容

2篇6章2节：用R进行生存率的描述与估计

2篇6章3节：生存分析的假设检验及可视化展示

2篇6章4节：认识比例风险模型和Cox比例风险模型，学会从协变量的调整选择最优模型

2篇6章5节：用逐步回归方法来选择模型协变量，比例风险假定的检验和森林图的绘制

2篇7章：高级回归分析

2篇7章1节：认识广义加性回归模型

2篇7章2节：初步构建广义加性回归模型

2篇7章3节：广义加性回归模型的可视化和模型的诊断

2篇7章4节：岭回归的原理和应用场景，并用R进行代码演示

2篇7章5节：Lasso 回归的原理和应用场景，并用R进行代码演示

2篇7章6节：弹性网（Elastic Net）回归的原理和应用场景，并用R进行代码演示

2篇7章7节：逐步回归的原理和应用场景，并用R进行代码演示包的高级应用

2篇7章8节：主成分回归的原理和应用场景，并用R进行代码演示

2篇7章9节：神经网络回归的原理和应用场景，并用R进行代码演示

2篇7章10节：分位数回归的原理和应用场景，并用R进行代码演示

第三篇：数据可视化技术

3篇1章：R的传统绘图

3篇1章1节：认识R的传统绘图系统，深度解析plot()函数和par()函数的使用

3篇1章2节：R基础绘图之散点图、直方图和概率密度图

3篇1章3节：R基础绘图之条形图和堆积条形图

3篇1章4节：饼图，箱线图和克利夫兰点图

3篇1章5节：R基础绘图之Cleveland 点图，马赛克图和等高图

3篇1章6节：用R进行图形的保存与导出，详细的高级图形输出

3篇2章：R的进阶绘图

3篇2章1节：认识 ggplot2 扩展包，深度解析 qplot() 函数的使用

3篇2章2节：ggplot2绘图之原理逻辑分解，掌握绘图步骤

3篇2章3节：ggplot2绘图之内置主题设置全解析

3篇2章4节：ggplot2绘图之几何体解析（一），参考线和基准线与分布图和频数图

3篇2章5节：ggplot2绘图之几何体解析（二），关系图和时间序列图与误差条和高级图形平滑曲线

3篇2章6节：ggplot2绘图之统计变换与位置调整

3篇2章7节：个性化配色的自定义颜色演示

3篇2章8节：让 ggplot2 绘图进行顶级科研杂志的配色

3篇2章9节：坐标轴须图和带状图

3篇2章10节：多样的小提琴图

3篇2章11节：维恩图和UpSet图

3篇2章12节：雷达图和RadViz图

3篇2章13节：网络图（知识图谱）绘制的深度解析

3篇2章14节：高质量动态图和交互式动态图

3篇2章15节：深度讲解词云图的绘制和改变相关的主题

3篇2章16节：R的地理图绘制

3篇2章17节：轻便科研绘图的tidyplots扩展包

3篇2章18节：学会构建专业的多面板图

3篇3章：基于gglot2的扩展包应用

3篇3章1节：模型系数图、相关矩阵图、双变量成对矩阵图

3篇3章2节：绘制网络对象图和叠加地图网络图

3篇3章3节：绘制平行坐标图和模型诊断图

3篇3章4节：绘制高级散点矩阵图和多样生存曲线图

3篇3章5节：绘制分面直方图，多元时间序列图和二元密度图

3篇3章6节：绘制切尔诺夫面图（疼痛评分的笑脸可视化）和时间序列数据的日历热图

3篇3章7节：绘制时间序列地平线图和时间序列流图

3篇3章8节：绘制瀑布图和镶嵌图

3篇3章9节：深度讲解树图的多样化绘制

3篇3章10节：绘制混合箱线图和弧形条形图

3篇3章11节：绘制议会图和深度讲解绘制山峦图（岭线图）

3篇3章12节：可视化扩展包，从主成分分析到时间序列，从K-means聚类到广义线性模型

3篇3章13节：绘制大数据级别的字母值箱线图（Letter-Value Boxplot）

3篇3章14节：绘制美观和直观的蜂群图（Bee Swarm Plot）

3篇3章15节：用不同方法绘制高级云雨图（Raincloud Plot）

3篇4章：三维图形可视化

3篇4章1节：不同方法绘制多样的三维散点图

3篇4章2节：深度讲解如何绘制三维透视图，从内置函数到扩展包函数

3篇4章3节：绘制三维条带图和三维直方图

3篇4章4节：绘制三维切片图和三维切片轮廓图，文末添加三维文本信息

3篇4章5节：如何绘制三维曲面图、三维球面图和三维曲面地形图-CSDN博客

3篇4章6节：绘制三维等值面图、三维等值体素图和三维多边形图

3篇4章7节：绘制交互式三维图形-CSDN博客

3篇4章8节：绘制三维地形图

3篇4章9节：如何将 ggplot2 对象转化为三维图形-CSDN博客

3篇5章：科研绘图新利器（plotthis 包）

3篇5章1节：科研绘图，这个 R 包可能比 ggplot2 更适合你，绘制渐变面积图

3篇5章2节：绘制临床研究中的趋势图与ROC曲线

3篇5章3节：聚类演变图、折线图和网络关系图

3篇5章4节：打造专业热图（上）

3篇5章5节：打造专业热图（下）

3篇5章6节：相关散点图与多变量相关图

3篇5章7节：高效饼图、环图与QQ图的实现

3篇5章8节：绘制基因差异表达数据的火山图

3篇5章9节：绘制高效和专业的条形图

3篇5章10节：绘制箱线图和小提琴图

3篇5章11节：绘制 Chord Diagram（弦图）和 Circos Plot（环形关系图）

3篇5章12节：降维可视化的DimPlot与FeatureDimPlot应用

3篇5章13节：富集分析的网络可视化全解析

3篇5章14节：基因富集分析的基因集可视化全解析

3篇5章15节：用桑基图和堆积流图揭示数据中的动态流动关系

3篇5章16节：栅格、掩膜、矢量与点数据的高效绘图

第四篇：临床试验特定技术

4篇1章：临床试验的常规统计

4篇1章1节：初步认识临床试验

4篇1章2节：样本量估计的初步介绍

4篇1章3节：用R进行样本量估计的统计学参数

4篇1章4节：两组例数相同的均数比较的样本量估计和绘制功效曲线

4篇1章5节：两组的例数不等的均数比较的样本量估计和可视化

4篇1章6节：自身配对设计的均数比较临床试验的样本量估计和可视化

4篇1章7节：与总体均数比较的样本量估计和可视化

4篇1章8节：两、三组试验组率比较的样本量估算和可视化

4篇1章9节：试验的随机分组认识，用R做简单随机化

4篇1章10节：用R实现分层随机化

4篇1章11节：用R实现区组随机化和置换区组随机化

4篇1章12节：动态随机化方法介绍，和用R绘制随机化卡片

4篇2章：样本量估计的进阶技术

4篇2章1节：认识析因试验和多因素设计样本量估计的底层逻辑

4篇2章2节：用R演示高血压析因试验的样本量计算

4篇2章3节：模拟法在临床试验功效分析中的应用

4篇2章4节：三因素（2b × 3w × 2b）混合设计功效模拟实战，以抗高血压药物试验为例

4篇2章5节：ANOVA 功效的单次精确模拟与可视化全解析

4篇2章6节：生存分析研究中终点事件数的估算方法

4篇2章7节：基于分层生存模型的功效计算，以糖尿病临床试验为例

第五篇：文献挖掘的技术

5篇1章：Meta分析攻略

5篇1章1节：认识循证医学中的Meta分析，并予代码演示分析绘图

5篇1章2节：Meta分析的7大步骤的扼要解读

5篇1章3节：二分类变量的Meta分析模型，分析公式构建和结果解读

5篇1章4节：二分类变量的Meta分析模型，绘制漏斗图和应用剪补法，绘制和解读轮廓增强漏斗图

5篇1章5节：二分类变量的Meta分析模型，敏感性分析和亚组分析，绘制森林图

5篇1章6节：连续型变量的Meta分析和可视化分析全解

5篇1章7节：用R进行单个率Meta分析

5篇2章：高级Meta分析

5篇2章1节：用R进行网状Meta分析细解-CSDN博客

5篇2章2节：认识剂量-反应 Meta 分析及相关的R包

5篇2章3节：在经典临床研究中进行二次固定效应剂量-反应建模和预测

5篇2章4节：剂量-反应Meta分析中的最优线性无偏预测

5篇2章5节：多变量Meta分析和其回归模型的实现

5篇2章6节：贝叶斯 Meta 分析在小样本、高异质性及稀疏数据下的应用（上篇：核心函数）

5篇2章7节：贝叶斯 Meta 分析在小样本、高异质性及稀疏数据下的应用（中篇：具体建模）

5篇2章8节：贝叶斯 Meta 分析在小样本、高异质性及稀疏数据下的应用（下篇：可视化）

5篇2章9节：累积Meta分析在循证医学中的应用及R语言实操

5篇3章：文献计量学

5篇3章1节：文献计量分析基础

5篇3章2节：数据库的数据采集，WOS数据库和PUBMED数据库的文献信息批量下载和分析

5篇3章3节：国际六大科研文献数据库的数据加载与格式转换解析

5篇3章4节：文献计量学中数据合并、去重、切片与编辑

5篇3章5节：文献计量学的描述性分析

5篇3章6节：文献计量学的可视化与引文信息分析

5篇3章7节：作者主导性分析及H指数与其变体的应用

5篇3章8节：Lotka分析和知识单元时序分析

5篇3章9节：局部被引次数分析与文献文本字段术语提取研究

5篇3章10节：为构建网络图从文献数据中提取特定信息

5篇3章11节：文献计量分析合作情况可视化

5篇3章12节：耦合网络可视化，从常规网络图到耦合分析聚类图的深度讲解

5篇3章13节：共被引网络、历史共被引网络和共词网络的可视化

5篇3章14节：概念结构图，贡献度最高文献因子图和最被引用文献因子图

5篇3章15节：文献计量学的语义地图和主题演化分析图

5篇3章16节：PubMed数据库的数据提取和可视化

5篇3章17节：文献计量中著作层面的情感分析

第六篇：数据驱动的分析

6篇1章：主成分分析

6篇1章1节：深度讲解用R进行主成分分析（上）

6篇1章2节：深度讲解用R进行主成分分析（中）

6篇1章3节：深度讲解用R进行主成分分析（下）

6篇1章4节：学会用R进行因子分析（上）

6篇1章5节：学会用R进行因子分析（中）

6篇1章6节：学会用R进行因子分析（下）

6篇2章：匹配技术应用

6篇2章1节：认识临床研究的匹配技术

6篇2章2节：匹配结果的可视化和匹配后新数据分析

6篇3章：判别和聚类分析

6篇3章1节：医学研究中的判别分析和聚类分析

6篇3章2节：线性判别分析预测模型构建评估和可视化演示

6篇3章3节：二次判别分析技术的运用

6篇3章4节：K-Means聚类分析的运用，和改进算法的K-Means++

6篇3章5节：实现k-medoids聚类算法的PAM和CLARA方法

6篇3章6节：凝聚层次聚类和分裂层次聚类

6篇4章：时间序列分析

6篇4章1节：认识时间序列分析，创建和整理时间序列数据

6篇4章2节：深度讲解白噪音检验

6篇4章3节：认识ARIMA模型和模拟其数据，讲解平稳性检验

6篇4章4节：ACF和PACF的可视化，和识别最佳模型

6篇4章5节：如何应用SARIMA模型来进行时间序列数据的预测

6篇4章6节：Facebook 的时间序列预测的 Prophet 模型

6篇5章：数据因果分析

6篇5章1节：因果中介分析的贝叶斯方法

6篇5章2节：高维中介情境下的贝叶斯因果中介分析

6篇6章：孟德尔随机化

6篇6章1节：认识孟德尔与孟德尔定律，为流行病学因果研究提供方法指导

6篇6章2节：单核苷酸多态性与孟德尔随机化

6篇6章3节：全基因组关联研究（GWAS）

第七篇：机器学习和预测

7篇1章：机器学习入门

7篇1章1节：机器学习和人工智能的基础知识

7篇1章2节：机器学习在临床预测中的应用场景，与临床预测模型的关键步骤解析

7篇1章3节：详析训练数据集、测试数据集和验证数据集及其划分策略

7篇1章4节：采用随机抽样法和等比抽样法对数据集进行二份及三份的划分

7篇1章5节：划分数据的多次随机抽样的Bootstrap法和加权随机抽样法

7篇1章6节：交叉验证概述与分类，R中K折交叉验证的详细解析

7篇1章7节：机器学习算法解读，与数值预测回归模型构建

7篇1章8节：朴素贝叶斯分类预测模型，从构建、解析到实战

7篇1章9节：认识决策树，构建CART算法的决策树模型

7篇1章10节：深度解析如何构建随机森林算法预测模型

7篇1章11节：构建人工神经网络反向传播算法预测模型

7篇1章12节：认识机器学习的模型评估，掌握数值型数据的模型评估方法

7篇1章13节：分类模型的混淆矩阵评估

7篇1章14节：评估和对比预测模型的ROC曲线和AUC值

7篇1章15节：六大ROC曲线扩展包的对比，和其它评估曲线的绘制

7篇2章：抽样与重抽样技术

7篇2章1节：机器学习的抽样与重抽样技术

7篇2章2节：模型抽样，调查抽样和抽样技术的专业术语

7篇2章3节：总群体的统计量和抽样方法在医药研究中的应用

7篇2章4节：概率抽样和三种非概率抽样的实现

7篇2章5节：抽样分布的统计理论

7篇2章6节：深度解析和认识中心极限定理

7篇2章7节：简单随机抽样及其在R语言中的实现与验证

7篇2章8节：系统性随机抽样及其在R语言中的实现与验证

7篇2章9节：分层随机抽样及其在R语言中的实现与验证

7篇2章10节：聚类抽样及其在R语言中的实现与验证

7篇2章11节：自助抽样及其在R语言中的实现与验证

7篇2章12节：抽样的蒙特卡洛方法

7篇3章：特征工程技术

7篇3章1节：认识机器学习的特征工程

7篇3章2节：了解特征工程的工作数据

7篇3章3节：了解特征工程的特征排名

7篇3章4节：特征工程的变量子集选择

7篇3章5节：特征工程变量子集选择的过滤器方法应用

7篇3章6节：特征工程变量子集选择的包装器方法应用

7篇3章7节：特征工程变量子集选择的嵌入式方法应用

第八篇：R与人工智能

8篇1章：人工智能理论

8篇1章1节：认识生成式人工智能与生成式代码的优势和局限

8篇1章2节：认识生成对抗网络，GAN和StyleGAN

8篇1章3节：大模型术语解读与从生成到推理的演进

8篇1章4节：Transformer架构和提词器工程学的出现

8篇2章：R与人工智能

8篇2章1节：在 RStudio 中无插件使用 DeepSeek（基本篇）

8篇2章2节：在 RStudio 中无插件使用 DeepSeek（进阶篇）

第九篇：公共数据库挖掘

9篇1章：中国居民数据库

9篇1章1节：中国居民健康与营养调查（CHNS）数据库的官网解析和数据下载（2026版）

9篇2章：GBD 数据库

9篇2章1节：认识全球疾病负担数据库 GBD

9篇2章2节：GBD 数据库的数据申请详解

9篇2章3节：GBD 数据库的数据深度解读（上）

9篇2章4节：GBD 数据库的数据深度解读（下）

9篇2章5节：GBD 数据库的全球疾病负担死亡概率可视化演

9篇2章6节：GBD 数据库分析策略和 SDI 指数的应用解读，并以高血压为例

9篇2章7节：GBD 数据库的关键数据工具系统介绍（上）

9篇2章8节：GBD 数据库的关键数据工具系统介绍（下）

9篇2章9节：多源数据联合应用在全球疾病负担（GBD）分析中的策略分析

9篇2章10节：2025年基于GBD数据的柳叶刀子刊研究深度解析（全网最深度解读）

9篇2章11节：基于GBD数据的医学科研成文的六步法

9篇2章12节：不同临床科室可基于GBD进行数据挖掘的方向举例（联合分析）

9篇3章：FAERS 数据库（包括其它药物警戒数据库）

9篇3章1节：FAERS数据库的FDA官方讲解，对期刊投稿设限的FAERS数据库的客观评价！

9篇3章2节：认识FAERS数据库的数据和公共仪表板（分析前必看）

9篇3章3节：FAERS数据库公共仪表板搜索功能操作与解析

9篇3章4节：FAERS数据库中单个药品报告的数据总览

9篇3章5节：FAERS数据库中药品报告的数据来源与核心字段深度解读

9篇3章6节：FAERS数据的官网下载和ASCII文件的七大模块详解

9篇3章7节：基于 R 语言的 FAERS 数据提取与合并

9篇3章8节：FAERS联合挖掘，认识和获取VigiBase数据库资料

9篇4章：GEO 数据库

9篇4章1节：临床医生如何利用GEO数据库开展研究

9篇4章2节：GEO数据库的数据组织结构

9篇4章3节：GEO数据库官网数据的直接下载

9篇4章4节：用R语言进行GEO数据的下载和初步解析

9篇4章5节：GEO 数据库之炎症性肠病基因表达分析演示（一）

9篇4章6节：GEO 数据库之炎症性肠病基因表达分析演示（二）

9篇4章7节：GEO 数据库之炎症性肠病基因表达分析演示（三）

9篇4章8节：GEO 数据库之炎症性肠病基因表达分析演示（四）

9篇4章9节：GEO 数据库之炎症性肠病基因表达分析演示（五）

9篇5章：NHIS 数据库

9篇5章1节：理解美国国家健康访谈调查（NHIS）数据库

9篇5章2节：NHIS 数据库的常规数据下载

9篇5章3节：NHIS 样本成人数据的结构化解读

9篇5章4节：NHIS 样本其它数据的结构化解读

9篇5章5节：NHIS 样本合并数据的权重分析演示（一）

9篇5章6节：NHIS 样本合并数据的权重分析演示（二）

9篇6章：SEER 数据库

9篇6章1节：SEER数据库的全景解读

9篇6章2节：SEER 项目的历史、现状和展望

9篇6章3节：SEER数据库的数据下载权限申请（2026版）

9篇6章4节：SEER数据库 SEERStat、SEERPrep、HDCalc 工具介绍

9篇6章5节：SEER 数据库的数据集选择

9篇6章6节：SEER 数据库的2025年数据集中的数据选择（2026年版）

9篇6章7节：SEER 数据库的2025年数据变量多条件组合选择（2026年版）

9篇6章8节：用 Export 功能导出 SEER 数据的全流程操作演示（2026年版）

9篇6章9节：要用 R 读取 SEER 数据

9篇7章：NHANES 数据库

9篇7章1节：认识二次数据分析和NHANES数据库

9篇7章2节：下载NHANES数据并使用R进行读取

9篇7章3节：NHANES数据的下载读取、追加和合并

9篇7章4节：认识统计学的权重、抽样及其背后的设计逻辑

9篇7章5节：实例解析权重对数据结果的影响和可靠性评估

9篇7章6节：深度讲解不同NHANES的权重的种类选择和R包

9篇7章7节：单周期的NHANES权重计算实战

9篇7章8节：多周期的NHANES权重计算实战

9篇7章9节：一步一步构建高效读取NHANES数据的自定义函数

9篇7章10节：如何解决 NHANES 数据合并所遇原表差异问题

9篇7章11节：2025年后如何使用扩展包访问、下载和分析 NHANES 数据

9篇7章12节：如何直接显示NHANES某个变量的代码本

9篇7章13节：根据关键词检索NHANES变量和得到相关信息，并且通过指定URL直接下载数据

9篇7章14节：下载 NHANES 的数据清单、搜索表格和表格里面的变量汇总

9篇7章15节：快速获取 NHANES 特定的表格信息和变量信息

9篇7章16节：NHANES 2017–2023 数据的样本设计、无应答偏差评估与分析说明

9篇7章17节：特殊的NHANES数据解读，包括NNYFS、NHEFS、NHES 和 HHANES 等数据

9篇7章18节：复现NHANES的美国成人抑郁症患病率研究（上）

9篇7章19节：复现NHANES的美国成人抑郁症患病率研究（中）

9篇7章20节：复现NHANES的美国成人抑郁症患病率研究（下）

9篇8章：MIMIC 数据库

9篇8章1节：认识 MIMIC 的主要数据库

9篇9章：SHARE 数据库

9篇9章1节：认识 SHARE 数据库

本专栏多次荣获热销专栏榜第一名 

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

ArkTS（Stage 模型）与 Vue3 生命周期详细对比

维度ArkTS 生命周期Vue3 生命周期设计目标适配移动 / 物联网设备的全场景应用适配 Web 浏览器的组件化开发覆盖范围应用、模块、窗口、页面、组件应用、组件核心关注点资源管理、前后台切换、多设备协同DOM 渲染、组件复用、状态更新严格性非常严格，系统直接管理生命周期相对宽松，依赖浏览器环境最佳实践提前加载数据，及时释放资源按需渲染，减少不必要的更新。

AtomGit开源社区

微信发布通过AI调用小程序能力，或许会成为AI +超级APP下一个方向

AtomGit开源社区

最好用的AI写作辅助网站推荐（从开题选题到定稿排版全流程）适合全体毕业生

论文开题没方向、文献综述抓耳挠腮、研究方法无从下手、写作卡壳反复修改、查重降重焦头烂额、格式排版手忙脚乱？面对论文写作的重重关卡，应届生和本科硕士毕业生常常感到力不从心。论文流程繁

AtomGit开源社区

所有评论(0)

查看更多评论

临床数据科学和人工智能兴趣组

@2301_79425796

已为社区贡献13条内容

多重填补法是一种处理缺失数据的统计方法

临床数据科学和人工智能兴趣组

多重填补法

1、随机回归填补法相关介绍

2、创建带有缺失值的数据集

3、构建模型填补生成数据集

重要更新

专栏购买后的 6 点必读

专栏问答

科研问答

职场问答

技术问答

第一篇：介绍和工具的使用

1篇1章：认识数据科学和R

1篇2章：R的安装和数据读取

1篇3章：文档和课件输出

第二篇：常规的分析技术

2篇1章：认识数据

2篇2章：数据的预处理

2篇3章：定量数据的统计描述

2篇4章：定性数据的统计描述

2篇5章：常见类型回归分析

2篇6章：生存分析模型

2篇7章：高级回归分析

第三篇：数据可视化技术

3篇1章：R的传统绘图

3篇2章：R的进阶绘图

3篇3章：基于gglot2的扩展包应用

3篇4章：三维图形可视化

3篇5章：科研绘图新利器（plotthis 包）

第四篇：临床试验特定技术

4篇1章：临床试验的常规统计

4篇2章：样本量估计的进阶技术

第五篇：文献挖掘的技术

5篇1章：Meta分析攻略

5篇2章：高级Meta分析

5篇3章：文献计量学

第六篇：数据驱动的分析

6篇1章：主成分分析

6篇2章：匹配技术应用

6篇3章：判别和聚类分析

6篇4章：时间序列分析

6篇5章：数据因果分析

6篇6章：孟德尔随机化

第七篇：机器学习和预测

7篇1章：机器学习入门

7篇2章：抽样与重抽样技术

7篇3章：特征工程技术

第八篇：R与人工智能

8篇1章：人工智能理论

8篇2章：R与人工智能

第九篇：公共数据库挖掘

9篇1章：中国居民数据库

9篇2章：GBD 数据库

9篇3章：FAERS 数据库（包括其它药物警戒数据库）

9篇4章：GEO 数据库

9篇5章：NHIS 数据库

9篇6章：SEER 数据库

9篇7章：NHANES 数据库

9篇8章：MIMIC 数据库

9篇9章：SHARE 数据库

本专栏多次荣获 热销专栏榜 第一名 ​

所有评论(0)

温馨提示：您尚未绑定手机号

临床数据科学和人工智能兴趣组

本专栏多次荣获热销专栏榜第一名