全网最全的R语言医药数据库挖掘教材工具，已经助力不少课题组高效研究了！

临床数据科学和人工智能兴趣组

680人浏览 · 2026-04-02 10:19:38

临床数据科学和人工智能兴趣组 · 2026-04-02 10:19:38 发布

当前医药数据科学和R语言领域，网络上和书籍市面上一大堆资料，表面看起来琳琅满目，价格从几十元的书籍到动辄几千元一次的线下培训班都有。但绝大多数培训或书籍都受限于时间和篇幅，浅尝辄止，很多仅仅是基础入门，内容高度同质化、重复严重，无法真正结合医药数据场景深入讲解，更无法系统串联起实际科研工作的核心思路和应用流程。而本专栏不仅覆盖医药数据科学全流程，从工具基础到临床实践到机器学习、人工智能，再到医药数据库实战与高阶统计分析，逻辑链条清晰，真正做到“系统、实战、持续更新”，绝不是泛泛的“资料汇编”。

目前专栏已超190万字，包含超过300篇文章，每篇都达5000–9000字，内容覆盖试验统计、预测模型、科研绘图、数据库等热点领域，每周持续更新，追踪最新技术趋势、市面动态。与之相比，市面上医药数据相关书籍通常只有几十万字，视频课程受限于讲解时间，一次课程可能只有几小时，实际获得的干货和实际指导极为有限。

399元的定价，仅相当于一本专业书籍或一次普通技能讲座的价格。而市面线下或机构培训班，往往动辄就需要几千甚至上万元，一次学习仅限于特定时段，内容受限于老师的进度和水平，无法反复查阅。网上付费视频课程大多也在几百元，但内容零散且多为“零基础”，不够系统化。专栏不仅价位亲民，还能反复实操复现，比“毫无体系的碎片收费”更有价值。你以399元买到的不是一次性消耗品，而是一个不断丰富的知识库。

以第九篇的公共数据库挖掘为例，给大家分析！

第九篇“公共数据库挖掘”本身就足以让这个专栏的性价比显得非常夸张：从 NHANES 到 GBD 再到 FAERS/VigiBase，一整套从入门、下载、清洗、权重设计、抽样设计解读到真正能写出论文的分析路径，基本把目前几千元培训班都很难系统讲清楚的内容一次性覆盖了。

CHNS

中国健康与营养调查（CHNS）是由美国北卡罗来纳大学教堂山分校（UNC-Chapel Hill）的卡罗来纳人口中心（Carolina Population Center）与中国的中国疾病预防控制中心营养与健康所（NINH, CCDC，前身为营养与食品安全所）共同开展的一项持续性的开放队列国际协作项目。该项目旨在深入研究国家及地方政府实施的健康、营养和计划生育政策与项目所产生的影响，并探讨中国社会经济转型如何影响其人口的健康与营养状况。为了评估这些宏观变革对营养和健康行为及结果的具体影响，该项目不仅关注社区组织和项目的变迁，还细致分析了一系列家庭及个人层面的经济、人口和社会因素的变化。此调查也是由一支国际化的研究团队执行，成员背景涵盖营养学、公共卫生、经济学、社会学、中国研究及人口学等多个领域。自2011年以来，三个特大城市加入了该队列，随后在2015年又有三个省份加入，这些扩展工作均得到了中国合作伙伴（NINH, CCDC）的全额资金支持。

目前，CHNS 2015年的数据文件已可供公众使用，其中最引人注目的是新推出的集成主文件（integrated master files），这些文件实现了家庭和个人数据的纵向链接，极大地简化了纵向分析的复杂性。项目组正在继续扩展这些主文件，目标是将历年来收集的所有数据进行链接和清理。项目宣布，2009年收集的生物标记物数据以及2015年收集的数据现已开放。所有数据均可通过项目网站（https://chns.cpc.unc.edu/）下载使用，这为学术界和政策制定者提供了宝贵的研究资源。

GBD

GBD 部分从“认识 GBD”到数据申请流程、核心指标含义，再到高血压等具体病种的分析策略和 SDI 指数使用，都是围绕“如何从 GBD 做出严谨、站得住脚的科研”来设计的。
后面几节不仅讲全球疾病负担可视化、关键在线工具系统的使用，还拆解 2025 年基于 GBD 的柳叶刀子刊研究，提炼出一套“GBD 六步成文法”，并给出按不同临床科室可落地的数据挖掘方向，这部分在常规培训班中几乎是看不到的深度。

FAERS

在 FAERS 部分，并不是停留在“哪里下数据、打开看看”这种浅层级，而是从 FDA 官方对 FAERS 的定位及投稿限制讲起，帮读者形成对数据库优缺点和适用场景的清晰认识。
随后几节分层解析公共仪表板的检索逻辑、单药报告的核心字段和数据来源，再到官网下载 ASCII 七大模块、用 R 进行结构化提取与合并，最后延伸到与 VigiBase 的联合挖掘思路，实现从监管方公开数据到国际药物警戒数据库的完整视野。

SEER

美国国家癌症研究所（National Cancer Institute, NCI）自 1973 年起建立了“监测、流行病学和最终结局”（Surveillance, Epidemiology, and End Results，简称 SEER）项目，用于系统性收集和报告美国人群的恶性肿瘤发病与生存情况。 SEER 的核心目标是通过高质量、标准化的癌症登记数据，为肿瘤流行病学研究、癌症防控政策制定以及临床实践提供可靠证据。

与传统的单中心病例系列相比，SEER 采用人群为基础（population‑based）的登记方式，覆盖特定地理区域内的全部癌症新发病例，因此其结果具有较好的代表性和外推性。目前，SEER 数据已经广泛应用于肿瘤负担评估、时间趋势分析、生存率比较、健康服务研究以及指南制定等多个领域，在国际癌症流行病学研究中具有标杆意义。

另外，SEER 数据主要来自美国各州和地区的肿瘤登记处，这些登记处按照统一的技术规范和质量控制要求，持续报告辖区内新诊断的恶性肿瘤病例。 SEER 项目最初仅包括少数州和大城市，但经过多次扩展，目前已纳入若干州级和区域性癌症登记处，如康涅狄格州、夏威夷州、加利福尼亚州部分地区、乔治亚州等，整体覆盖约四分之一到三分之一的美国人口，并在种族与地域上具备较强多样性。各登记处每年向 SEER 提交经过汇总和质量核查的数据，内容涵盖所有报告范围内的原发恶性肿瘤及部分脑和中枢神经系统肿瘤等。通过精心选择地区和持续扩展覆盖，SEER 在保证数据质量的前提下，尽可能提高了对美国总体人群结构和肿瘤谱的代表性。

GEO

GEO 由美国国家生物技术信息中心（NCBI）于 2000 年正式创建，最初的目标是为全球基因表达芯片研究提供一个统一的数据存档平台，实现数据的长期保存与开放共享。目前，GEO 已收录来自全球数十万项研究的数据，涵盖数百万个实验样本，涉及上百种疾病模型、组织类型和处理条件。这些数据既包括健康与疾病状态下的基础表达谱，也包含药物干预、基因编辑、免疫刺激等多种实验设计。另外，对于多个数据库联合挖掘，目前确实已有使用 NHANES 和 GEO 联合分析的成功案例，它们展示了公共数据库整合对疾病机制研究、流行病学关联、潜在生物标志物 /靶点发现的重要价值。对于你关注公共数据挖掘与转化应用，这条思路非常有意义：它将 “群体水平 / 流行病学” 与 “分子 / 基因表达” 联系起来，是通往精准 /转化医学的重要桥梁。

未来，我们还会更新孟德尔随机化的章节，大家赶紧订阅学习吧！

NHIS

NHIS采用以家庭为基础的调查方式，主要通过保密的面对面访谈收集数据。每年大约有2.7万名成年人参与调查，其中不少受访者还会提供其家庭中儿童的相关健康信息。调查对象为不居住在机构中的美国平民人口，即不包括现役军人以及居住在监狱、专业护理机构或精神病院等机构中的人群。

NHIS的公共使用数据文件可免费下载，所有可能用于识别个人身份的信息均已被删除，以确保参与者及其家庭的隐私安全。对于需要更高精度数据的研究人员，NHIS还通过国家卫生统计中心研究数据中心（RDC）提供受限数据文件，研究者需通过标准申请流程并支付相应费用，方可在严格监管的环境下使用这些数据。

此外，NHIS数据还与其他数据来源进行了关联整合，形成更为丰富的综合数据集，用于分析不同数据源之间的复杂关系。这些高质量数据被广泛应用于官方国家健康指标的编制，其突出优势在于能够对美国人口中的众多子群体进行可靠估计，例如按年龄、婚姻状况、地区类型、就业状况和贫困水平等维度进行分析。

NHANES

在 NHANES 部分，先从什么是二次数据分析和 NHANES 设计思想讲起，让读者真正理解这类公共健康调查数据的结构和局限，而不是只会“下个表凑个回归”。紧接着，分多节详细拆解如何下载各年度数据、用 R 读取、追加合并、处理抽样权重与方差估计，并一步步复现美国成人抑郁症患病率研究，最后还带着读者搭建自己的 NHANES 读取函数，解决表不同、字段不一致、样本设计更新等一系列实战难题。

在基础上，又专门有多节写 2017–2023 新一轮 NHANES 的样本设计变更、无应答偏倚评估与分析说明，帮读者避开“沿用旧套路就错”的隐形雷区。同时，还教你如何直接显示变量 codebook、按关键词检索变量并一键拿到对应数据 URL、批量下载数据清单和变量汇总表，等于把一整套 NHANES 数据探索工具链打包交给你，节省大量自己摸索的时间和踩坑成本。

MIMIC 数据库

MIMIC 数据库（官网：https://mimic.mit.edu/），全称为 Medical Information Mart for Intensive Care，是由美国麻省理工学院（MIT）与贝斯以色列女执事医疗中心（Beth Israel Deaconess Medical Center）联合开发的一个开放获取的重症监护（ICU）患者数据仓库。MIMIC的创建初衷是为了推动重症医学、临床数据分析、人工智能和机器学习在医疗领域的研究。该数据库收集了来自重症监护病房的患者信息，包括人口学特征、生命体征、实验室检查结果、药物使用记录、护理记录、影像学报告以及入院和出院摘要等多维度信息。

SHARE 数据库

人口老龄化是 21 世纪社会面临的重大挑战之一。虽然这一趋势自 20 世纪 90 年代主要影响富裕国家，但随着生育率下降，贫困国家也开始受到影响。根据欧盟统计局数据，欧洲 65 岁及以上人口占劳动年龄人口的比例预计将从 2010 年的 17% 增至 2060 年的 30%，几乎翻一番。这意味着到 2060 年，每位劳动人口将对应一位退休人口，对福利国家带来前所未有的压力。尽管人口老龄化的主要原因——低生育率和预期寿命延长——已十分清楚，但其后果和对策仍然复杂。理解老龄化对社会的影响，并理清不同文化、历史与政策因素的作用，对于人类学、人口学、经济学、流行病学、老年学、历史学和社会学的研究者都至关重要，这有助于将人口老龄化的挑战转化为机遇。为了满足欧盟委员会对人口老龄化科学证据的需求，SHARE 应运而生，由多学科研究者创建并服务于多学科研究。

SHARE （Survey of Health, Ageing and Retirement in Europe，欧洲健康、养老与退休调查）由欧洲健康、养老与退休调查欧洲研究基础设施联盟（SHARE-ERIC）负责协调和管理，是欧盟重点支持的跨国研究基础设施之一，旨在系统记录欧洲人口老龄化进程中的健康变化、经济行为和社会关系变迁。

现在，很多几千元的培训班，往往只会选一个数据库点到为止，要么只教 NHANES 的“下几个表+跑个模型”，要么只展示 GBD 的在线图表，几乎不会在同一体系下连通 NHANES、GBD、FAERS/VigiBase、GEO 和 NHIS，并从抽样设计、权重、偏倚评估到实际论文路径都讲到可操作。
而在这个专栏中，“公共数据库挖掘”作为第九篇，却已经把主流公共数据库拆解到能直接落地科研选题、完成完整数据流程并撰写论文的程度，这种深度与广度本身就远超大多数动辄几千元的短期培训班，因此单看这一篇，就已经足以让整个专栏显得极其划算。

并且，我们后面会不断更新，未来会有更多医学公共数据库挖掘技术，并且我们前面的很多统计挖掘方法也会不断更新，给大家更多方法，我们已经超过220万字，未来更多精彩内容，大家赶紧订阅学习吧！整个专栏不是“一次性卖内容”，而是一个会持续进化的医学数据科学“工具箱”。后面会不断根据最新的研究热点、新发布的医学公共数据库、以及官方指南和统计方法的更新节奏，持续补充更多公共数据库挖掘的实战案例和技术细节，让大家手里的这套方法论始终不过时，而是越用越“值钱”。

除了公共数据库，前面几大篇里的统计分析、机器学习、可视化、临床试验设计、文献挖掘、因果推断等方法板块也都会持续更新，把新出现的分析思路、R 包工具链和科研范式，陆续整理成可直接上手的项目级教程，帮助大家不断拓展“工具带”，而不是只停留在最初买专栏时的那点内容。

市面上的 R 语言培训班和书籍（包括网络上的文章或视频），由于受限于培训时间或书籍篇幅，往往难以深入探讨 R 语言在数据科学或人工智能中的具体应用场景，内容泛泛而谈，最终无法真正解决实际工作中的问题。同时，它们也缺乏针对医药领域的深度结合与讨论。为了解决这些痛点，我们推出了《用 R 探索医药数据科学》专栏。该专栏将持续更新，不仅为您提供系统化的学习内容，更致力于成为您掌握最新、最全医药数据科学技术的得力助手。

每篇文章篇幅在5000字至9000字之间。
内容涵盖试验统计、预测模型、科研绘图、数据库、机器学习等热点领域。

重要更新

https://bestmd.coze.site/

专栏购买后的 6 点必读

1、本专栏目前共包含 10 个模块，核心内容由 9 大篇章构成。专栏内容将持续更新，更新节奏不严格遵循固定目录顺序，而是结合团队实际工作进展，灵活选择对应章节发布。后续我们也会根据新技术发展与行业动态持续补充内容；若新增技术与现有体系差异较大，将酌情增设全新篇章。

2、建议大家按照以下路径高效学习：以专栏问答和第1篇作为理论基础重点理解，将第2篇和第3篇作为必修的核心操作基础，待基础夯实后，可根据科研需求针对性学习第4至9篇的进阶专题。为了保证最佳学习效果，建议大家在电脑端配合R软件进行同步实操练习。

3、结合当前临床数据科学的研究热点，在学习完前 3 篇内容后，可按自身需求选择后续学习方向：1）若用于自有课题数据，建议重点学习第二章常规分析技术、第六篇数据驱动分析及第七篇机器学习与预测建模；2）若希望快速上手、尽早产出成果，且不介意稿件可能被期刊归类为综述，可选择第五篇文献挖掘相关技术；3）若开展临床公共数据挖掘，建议结合自身研究方向与兴趣，从第九篇所列数据库中选取其一进行深度学习与实践；如有其他新技术需求，也欢迎在文章评论区留言。

4、本文目录支持直接点击跳转至具体文章，内容按 “篇 - 节” 正向顺序排列，方便按需学习。专栏问答板块以解答疑惑为主，若从基础入门，可直接从第一篇第一章第一节开始系统学习。

5、专栏官网地址（https://blog.csdn.net/2301_79425796/category_12729892.html）的内容显示为倒序排列，便于快速查看最新更新章节。需注意，专栏更新不严格遵循章节顺序，会结合技术热度灵活追加内容，可能连续数周更新已有篇章的补充内容，虽页面显示无明显章节变动，但每周都会有新文章上线，专栏处于持续更新状态。同时，每新增一篇文章后，会第一时间同步更新本文目录，确保目录与专栏内容实时匹配。

6、建议大家优先用电脑阅读（而非手机），同时打开 R 软件，直接复制文中代码实操练习、模仿复现，再一步步拆解理解背后的逻辑。学习完每篇文章后，也推荐大家写下学习感悟：一来可作为笔记留存，清晰记录学习进度与核心重点；二来能梳理思路、加深对技术知识点的理解，还能和其他学习者交流分享心得、互相启发。若学习过程中遇到具体问题，欢迎直接在文章下方留言评论。我们会及时关注你的疑问，结合问题场景与细节给出针对性解答和指导，帮你顺畅掌握专栏中的技术内容。

https://datch.blog.csdn.net/article/details/143842464?spm=1011.2415.3001.5331

专栏问答

科研问答

科研问答：临床、中医、护理、药学等专业背景的学习者该如何认识 R 语言学习，让科研真正为自己服务？

科研问答：医药类本科生（临床、中医、中药与护理）本科阶段是否需要开展科研学习？

科研问答：什么是临床科学家和临床数据科学家？临床科学家在我国培养和NIH的资助有哪些？

科研问答：公共数据库发表能发表国际学术期刊吗？能够成为本硕博的毕业论文主要研究吗？以NHANES数据库为例

科研问答：如何更精确地进行文献搜索

科研问答：到底什么是综述，如何写好综述，如何进行文献搜索？

职场问答

职场问答：对于医学经理 / 医学统计师，《用R探索医药数据科学》这套专栏对职场有何帮助？

职场问答：以 FDA 为例，真实世界证据是如何改写药物在美上市的审批规则？

技术问答

技术问答：R 语言扩展包安装出问题？解决方案详细来教你

技术问答：管理和选择不同的R，如何做好R的笔记

技术问答：学R语言，感觉还行，一用就错误，人工智能帮忙写代码也看不懂错误，怎么办？

第一篇：介绍和工具的使用

1篇1章：认识数据科学和R

1篇1章1节：医药数据科学的历程和发展，用R语言探索数据科学

1篇1章2节：机器学习、统计学与ChatGPT的概述，与R语言的相关

1篇1章3节：R 语言的产生与发展轨迹

1篇1章4节：医药数据科学入门之认识数据可视化

1篇1章5节：学会数据分析基础和流程，开始人工智能数据分析师之路

1篇2章：R的安装和数据读取

1篇2章1节：R和RStudio的下载和安装（Windows 和 Mac）

1篇2章2节：RStudio 四大区应用全解，兼谈 R 的代码规范与相关文件展示

1篇2章3节：RStudio的高效使用技巧，自定义RStudio环境

1篇2章4节：用RStudio做项目管理，静态图和动态图的演示，感受ggplot2的魅力

1篇2章5节：R包管理，从模糊安装到自动更新，和工作目录和工作空间的设置

1篇2章6节：R的数据集读取和利用，如何高效地直接复制黏贴数据到R

1篇2章7节：用R读写RDS、RData、CSV和TXT格式文件

1篇2章8节：用R读写Excel、SPSS、SAS、Stata和Minitab等产生的数据文件

1篇2章9节：在R中应用SQL语言

1篇2章10节：R的网络爬虫技术快速入门

1篇3章：文档和课件输出

1篇3章1节：用R写作，先认识 NoteBook 和 Markdown

1篇3章2节：如何在 R Markdown 和 R Notebook 中创建使用

1篇3章3节：R Markdown的创建详解和直接使用学术期刊和出版社的模板

1篇3章4节：R Markdown 的文档开头（YAML），从基础到扩展包

1篇3章5节： Markdown 的标题、列表、字词和链接

1篇3章6节：R Markdown 的代码块、绘图与数学公式解析

1篇3章7节：Knit 的文档生成，和多文档流程的集合应用

1篇3章8节：HTML Widgets，将 JavaScript 可视化库封装成 R 函数

1篇3章9节：使用 R Markdown 和 Shiny 结合R语言进行数据报告和交互式应用的创建

第二篇：常规的分析技术

2篇1章：认识数据

2篇1章1节：数据的基本概念以及 R 中的数据结构、向量与矩阵的创建及运算

2篇1章2节：继续讲R的数据结构，数组、数据框和列表

2篇1章3节：R的赋值操作与算术运算_r里面的赋值

2篇1章4节：R的逻辑运算和矩阵运算

2篇1章5节：R 语言的循环与遍历函数全解析

2篇2章：数据的预处理

2篇2章1节：全面了解 R 中的数据预处理，通过 R 基本函数实施数据查阅

2篇2章2节：从排序到分组和筛选，通过 R 的 dplyr 扩展包来操作

2篇2章3节：处理医学类原始数据的重要技巧，R语言中的宽长数据转换，tidyr包的使用指南

2篇2章4节：临床数据科学中如何用R来进行缺失值的处理

2篇2章5节：数据科学中的缺失值的处理，删除和填补的选择，K最近邻填补法

2篇2章6节：R的多重填补法中随机回归填补法的应用，MICE包的实际应用和统计与可视化评估

2篇2章7节：用R做数据重塑，数据去重和数据的匹配

2篇2章8节：用R做数据重塑，行列命名和数据类型转换

2篇2章9节：用R做数据重塑，增加变量和赋值修改，和mutate()函数的复杂用法

2篇2章10节：用R做数据重塑，变体函数应用详解和可视化的数据预处理介绍

2篇2章11节：用R做数据重塑，数据的特征缩放和特征可视化

2篇2章12节：R语言中字符串的处理，正则表达式的基础要点和特殊字符

2篇2章13节：R语言中Stringr扩展包进行字符串的查阅、大小转换和排序

2篇2章14节：R语言中字符串的处理，提取替换，分割连接和填充插值

2篇2章15节：字符串处理，提取匹配的相关操作扩展，和Stringr包不同函数的重点介绍和举例

2篇2章16节：R 语言中日期时间数据的关键处理要点

2篇3章：定量数据的统计描述

2篇3章1节：用R语言进行定量数据的统计描述，文末有众数的自定义函数

2篇3章2节：离散趋势的描述，文末1个简单函数同时搞定20个结果

2篇3章3节：在R语言中，从实际应用的角度认识假设检验

2篇3章4节：从R语言的角度认识正态分布与正态性检验

2篇3章5节：认识方差和方差齐性检验（三种方法全覆盖）

2篇3章6节：R语言中的t检验，独立样本的t检验

2篇3章7节：单样本t检验和配对t检验

2篇3章8节：方差分析（ANOVA）及其应用

2篇3章9节：组间差异的非参数检验，Wilcoxon秩和检验和Kruskal-Wallis检验

2篇4章：定性数据的统计描述

2篇4章1节：定性数据的统计描述之列联表，文末有优势比计算介绍

2篇4章2节：认识birthwt数据集，EpiDisplay和Gmodels扩展包的应用

2篇4章3节：独立性检验，卡方检验，费希尔精确概率检验和Cochran-Mantel-Haenszel检验

2篇4章4节：相关关系和连续型变量的Pearson相关分析

2篇4章5节：分类型变量的Spearman相关分析，偏相关分析和相关图分析

2篇4章6节：相关图的GGally扩展包，和制表的Tableone扩展包

2篇5章：常见类型回归分析

2篇5章1节：认识回归分析的历史背景及应用

2篇5章2节：构建一元和多元的线性回归模型

2篇5章3节：回归模型中哑变量的应用和设置

2篇5章4节：深度解读构建回归模型表达式的九个关键符号

2篇5章5节：深度剖析回归模型结果的相关函数

2篇5章6节：深度解读线性回归模型的绘图判断

2篇5章7节：构建因变量为分类变量的二分类Logistic回归模型

2篇5章8节：详解不同逻辑回归模型的比较，和如何进行变量优化

2篇5章9节：深度讲解有序多分类Logistic回归模型的分析

2篇5章10节：条件Logistic回归模型的分析

2篇6章：生存分析模型

2篇6章1节：生存分析的基本概念和主要内容

2篇6章2节：用R进行生存率的描述与估计

2篇6章3节：生存分析的假设检验及可视化展示

2篇6章4节：认识比例风险模型和Cox比例风险模型，学会从协变量的调整选择最优模型

2篇6章5节：用逐步回归方法来选择模型协变量，比例风险假定的检验和森林图的绘制

2篇7章：高级回归分析

2篇7章1节：认识广义加性回归模型

2篇7章2节：初步构建广义加性回归模型

2篇7章3节：广义加性回归模型的可视化和模型的诊断

2篇7章4节：岭回归的原理和应用场景，并用R进行代码演示

2篇7章5节：Lasso 回归的原理和应用场景，并用R进行代码演示

2篇7章6节：弹性网（Elastic Net）回归的原理和应用场景，并用R进行代码演示

2篇7章7节：逐步回归的原理和应用场景，并用R进行代码演示包的高级应用

2篇7章8节：主成分回归的原理和应用场景，并用R进行代码演示

2篇7章9节：神经网络回归的原理和应用场景，并用R进行代码演示

2篇7章10节：分位数回归的原理和应用场景，并用R进行代码演示

第三篇：数据可视化技术

3篇1章：R的传统绘图

3篇1章1节：认识R的传统绘图系统，深度解析plot()函数和par()函数的使用

3篇1章2节：R基础绘图之散点图、直方图和概率密度图

3篇1章3节：R基础绘图之条形图和堆积条形图

3篇1章4节：饼图，箱线图和克利夫兰点图

3篇1章5节：R基础绘图之Cleveland 点图，马赛克图和等高图

3篇1章6节：用R进行图形的保存与导出，详细的高级图形输出

3篇2章：R的进阶绘图

3篇2章1节：认识 ggplot2 扩展包，深度解析 qplot() 函数的使用

3篇2章2节：ggplot2绘图之原理逻辑分解，掌握绘图步骤

3篇2章3节：ggplot2绘图之内置主题设置全解析

3篇2章4节：ggplot2绘图之几何体解析（一），参考线和基准线与分布图和频数图

3篇2章5节：ggplot2绘图之几何体解析（二），关系图和时间序列图与误差条和高级图形平滑曲线

3篇2章6节：ggplot2绘图之统计变换与位置调整

3篇2章7节：个性化配色的自定义颜色演示

3篇2章8节：让 ggplot2 绘图进行顶级科研杂志的配色

3篇2章9节：坐标轴须图和带状图

3篇2章10节：多样的小提琴图

3篇2章11节：维恩图和UpSet图

3篇2章12节：雷达图和RadViz图

3篇2章13节：网络图（知识图谱）绘制的深度解析

3篇2章14节：高质量动态图和交互式动态图

3篇2章15节：深度讲解词云图的绘制和改变相关的主题

3篇2章16节：R的地理图绘制

3篇2章17节：轻便科研绘图的tidyplots扩展包

3篇2章18节：学会构建专业的多面板图

3篇3章：基于gglot2的扩展包应用

3篇3章1节：模型系数图、相关矩阵图、双变量成对矩阵图

3篇3章2节：绘制网络对象图和叠加地图网络图

3篇3章3节：绘制平行坐标图和模型诊断图

3篇3章4节：绘制高级散点矩阵图和多样生存曲线图

3篇3章5节：绘制分面直方图，多元时间序列图和二元密度图

3篇3章6节：绘制切尔诺夫面图（疼痛评分的笑脸可视化）和时间序列数据的日历热图

3篇3章7节：绘制时间序列地平线图和时间序列流图

3篇3章8节：绘制瀑布图和镶嵌图

3篇3章9节：深度讲解树图的多样化绘制

3篇3章10节：绘制混合箱线图和弧形条形图

3篇3章11节：绘制议会图和深度讲解绘制山峦图（岭线图）

3篇3章12节：可视化扩展包，从主成分分析到时间序列，从K-means聚类到广义线性模型

3篇3章13节：绘制大数据级别的字母值箱线图（Letter-Value Boxplot）

3篇3章14节：绘制美观和直观的蜂群图（Bee Swarm Plot）

3篇3章15节：用不同方法绘制高级云雨图（Raincloud Plot）

3篇4章：三维图形可视化

3篇4章1节：不同方法绘制多样的三维散点图

3篇4章2节：深度讲解如何绘制三维透视图，从内置函数到扩展包函数

3篇4章3节：绘制三维条带图和三维直方图

3篇4章4节：绘制三维切片图和三维切片轮廓图，文末添加三维文本信息

3篇4章5节：如何绘制三维曲面图、三维球面图和三维曲面地形图-CSDN博客

3篇4章6节：绘制三维等值面图、三维等值体素图和三维多边形图

3篇4章7节：绘制交互式三维图形-CSDN博客

3篇4章8节：绘制三维地形图

3篇4章9节：如何将 ggplot2 对象转化为三维图形-CSDN博客

3篇5章：科研绘图新利器（plotthis 包）

3篇5章1节：科研绘图，这个 R 包可能比 ggplot2 更适合你，绘制渐变面积图

3篇5章2节：绘制临床研究中的趋势图与ROC曲线

3篇5章3节：聚类演变图、折线图和网络关系图

3篇5章4节：打造专业热图（上）

3篇5章5节：打造专业热图（下）

3篇5章6节：相关散点图与多变量相关图

3篇5章7节：高效饼图、环图与QQ图的实现

3篇5章8节：绘制基因差异表达数据的火山图

3篇5章9节：绘制高效和专业的条形图

3篇5章10节：绘制箱线图和小提琴图

3篇5章11节：绘制 Chord Diagram（弦图）和 Circos Plot（环形关系图）

3篇5章12节：降维可视化的DimPlot与FeatureDimPlot应用

3篇5章13节：富集分析的网络可视化全解析

3篇5章14节：基因富集分析的基因集可视化全解析

3篇5章15节：用桑基图和堆积流图揭示数据中的动态流动关系

3篇5章16节：栅格、掩膜、矢量与点数据的高效绘图

第四篇：临床试验特定技术

4篇1章：临床试验的常规统计

4篇1章1节：初步认识临床试验

4篇1章2节：样本量估计的初步介绍

4篇1章3节：用R进行样本量估计的统计学参数

4篇1章4节：两组例数相同的均数比较的样本量估计和绘制功效曲线

4篇1章5节：两组的例数不等的均数比较的样本量估计和可视化

4篇1章6节：自身配对设计的均数比较临床试验的样本量估计和可视化

4篇1章7节：与总体均数比较的样本量估计和可视化

4篇1章8节：两、三组试验组率比较的样本量估算和可视化

4篇1章9节：试验的随机分组认识，用R做简单随机化

4篇1章10节：用R实现分层随机化

4篇1章11节：用R实现区组随机化和置换区组随机化

4篇1章12节：动态随机化方法介绍，和用R绘制随机化卡片

4篇2章：样本量估计的进阶技术

4篇2章1节：认识析因试验和多因素设计样本量估计的底层逻辑

4篇2章2节：用R演示高血压析因试验的样本量计算

4篇2章3节：模拟法在临床试验功效分析中的应用

4篇2章4节：三因素（2b × 3w × 2b）混合设计功效模拟实战，以抗高血压药物试验为例

4篇2章5节：ANOVA 功效的单次精确模拟与可视化全解析

4篇2章6节：生存分析研究中终点事件数的估算方法

4篇2章7节：基于分层生存模型的功效计算，以糖尿病临床试验为例

第五篇：文献挖掘的技术

5篇1章：Meta分析攻略

5篇1章1节：认识循证医学中的Meta分析，并予代码演示分析绘图

5篇1章2节：Meta分析的7大步骤的扼要解读

5篇1章3节：二分类变量的Meta分析模型，分析公式构建和结果解读

5篇1章4节：二分类变量的Meta分析模型，绘制漏斗图和应用剪补法，绘制和解读轮廓增强漏斗图

5篇1章5节：二分类变量的Meta分析模型，敏感性分析和亚组分析，绘制森林图

5篇1章6节：连续型变量的Meta分析和可视化分析全解

5篇1章7节：用R进行单个率Meta分析

5篇2章：高级Meta分析

5篇2章1节：用R进行网状Meta分析细解-CSDN博客

5篇2章2节：认识剂量-反应 Meta 分析及相关的R包

5篇2章3节：在经典临床研究中进行二次固定效应剂量-反应建模和预测

5篇2章4节：剂量-反应Meta分析中的最优线性无偏预测

5篇2章5节：多变量Meta分析和其回归模型的实现

5篇2章6节：贝叶斯 Meta 分析在小样本、高异质性及稀疏数据下的应用（上篇：核心函数）

5篇2章7节：贝叶斯 Meta 分析在小样本、高异质性及稀疏数据下的应用（中篇：具体建模）

5篇2章8节：贝叶斯 Meta 分析在小样本、高异质性及稀疏数据下的应用（下篇：可视化）

5篇2章9节：累积Meta分析在循证医学中的应用及R语言实操

5篇3章：文献计量学

5篇3章1节：文献计量分析基础

5篇3章2节：数据库的数据采集，WOS数据库和PUBMED数据库的文献信息批量下载和分析

5篇3章3节：国际六大科研文献数据库的数据加载与格式转换解析

5篇3章4节：文献计量学中数据合并、去重、切片与编辑

5篇3章5节：文献计量学的描述性分析

5篇3章6节：文献计量学的可视化与引文信息分析

5篇3章7节：作者主导性分析及H指数与其变体的应用

5篇3章8节：Lotka分析和知识单元时序分析

5篇3章9节：局部被引次数分析与文献文本字段术语提取研究

5篇3章10节：为构建网络图从文献数据中提取特定信息

5篇3章11节：文献计量分析合作情况可视化

5篇3章12节：耦合网络可视化，从常规网络图到耦合分析聚类图的深度讲解

5篇3章13节：共被引网络、历史共被引网络和共词网络的可视化

5篇3章14节：概念结构图，贡献度最高文献因子图和最被引用文献因子图

5篇3章15节：文献计量学的语义地图和主题演化分析图

5篇3章16节：PubMed数据库的数据提取和可视化

5篇3章17节：文献计量中著作层面的情感分析

第六篇：数据驱动的分析

6篇1章：主成分分析

6篇1章1节：深度讲解用R进行主成分分析（上）

6篇1章2节：深度讲解用R进行主成分分析（中）

6篇1章3节：深度讲解用R进行主成分分析（下）

6篇1章4节：学会用R进行因子分析（上）

6篇1章5节：学会用R进行因子分析（中）

6篇1章6节：学会用R进行因子分析（下）

6篇2章：匹配技术应用

6篇2章1节：认识临床研究的匹配技术

6篇2章2节：匹配结果的可视化和匹配后新数据分析

6篇3章：判别和聚类分析

6篇3章1节：医学研究中的判别分析和聚类分析

6篇3章2节：线性判别分析预测模型构建评估和可视化演示

6篇3章3节：二次判别分析技术的运用

6篇3章4节：K-Means聚类分析的运用，和改进算法的K-Means++

6篇3章5节：实现k-medoids聚类算法的PAM和CLARA方法

6篇3章6节：凝聚层次聚类和分裂层次聚类

6篇4章：时间序列分析

6篇4章1节：认识时间序列分析，创建和整理时间序列数据

6篇4章2节：深度讲解白噪音检验

6篇4章3节：认识ARIMA模型和模拟其数据，讲解平稳性检验

6篇4章4节：ACF和PACF的可视化，和识别最佳模型

6篇4章5节：如何应用SARIMA模型来进行时间序列数据的预测

6篇4章6节：Facebook 的时间序列预测的 Prophet 模型

6篇5章：数据因果分析

6篇5章1节：因果中介分析的贝叶斯方法

6篇5章2节：高维中介情境下的贝叶斯因果中介分析

6篇6章：孟德尔随机化

6篇6章1节：认识孟德尔与孟德尔定律，为流行病学因果研究提供方法指导

6篇6章2节：单核苷酸多态性与孟德尔随机化

6篇6章3节：全基因组关联研究（GWAS）

第七篇：机器学习和预测

7篇1章：机器学习入门

7篇1章1节：机器学习和人工智能的基础知识

7篇1章2节：机器学习在临床预测中的应用场景，与临床预测模型的关键步骤解析

7篇1章3节：详析训练数据集、测试数据集和验证数据集及其划分策略

7篇1章4节：采用随机抽样法和等比抽样法对数据集进行二份及三份的划分

7篇1章5节：划分数据的多次随机抽样的Bootstrap法和加权随机抽样法

7篇1章6节：交叉验证概述与分类，R中K折交叉验证的详细解析

7篇1章7节：机器学习算法解读，与数值预测回归模型构建

7篇1章8节：朴素贝叶斯分类预测模型，从构建、解析到实战

7篇1章9节：认识决策树，构建CART算法的决策树模型

7篇1章10节：深度解析如何构建随机森林算法预测模型

7篇1章11节：构建人工神经网络反向传播算法预测模型

7篇1章12节：认识机器学习的模型评估，掌握数值型数据的模型评估方法

7篇1章13节：分类模型的混淆矩阵评估

7篇1章14节：评估和对比预测模型的ROC曲线和AUC值

7篇1章15节：六大ROC曲线扩展包的对比，和其它评估曲线的绘制

7篇2章：抽样与重抽样技术

7篇2章1节：机器学习的抽样与重抽样技术

7篇2章2节：模型抽样，调查抽样和抽样技术的专业术语

7篇2章3节：总群体的统计量和抽样方法在医药研究中的应用

7篇2章4节：概率抽样和三种非概率抽样的实现

7篇2章5节：抽样分布的统计理论

7篇2章6节：深度解析和认识中心极限定理

7篇2章7节：简单随机抽样及其在R语言中的实现与验证

7篇2章8节：系统性随机抽样及其在R语言中的实现与验证

7篇2章9节：分层随机抽样及其在R语言中的实现与验证

7篇2章10节：聚类抽样及其在R语言中的实现与验证

7篇2章11节：自助抽样及其在R语言中的实现与验证

7篇2章12节：抽样的蒙特卡洛方法

7篇3章：特征工程技术

7篇3章1节：认识机器学习的特征工程

7篇3章2节：了解特征工程的工作数据

7篇3章3节：了解特征工程的特征排名

7篇3章4节：特征工程的变量子集选择

7篇3章5节：特征工程变量子集选择的过滤器方法应用

7篇3章6节：特征工程变量子集选择的包装器方法应用

7篇3章7节：特征工程变量子集选择的嵌入式方法应用

第八篇：R与人工智能

8篇1章：人工智能理论

8篇1章1节：认识生成式人工智能与生成式代码的优势和局限

8篇1章2节：认识生成对抗网络，GAN和StyleGAN

8篇1章3节：大模型术语解读与从生成到推理的演进

8篇1章4节：Transformer架构和提词器工程学的出现

8篇2章：R与人工智能

8篇2章1节：在 RStudio 中无插件使用 DeepSeek（基本篇）

8篇2章2节：在 RStudio 中无插件使用 DeepSeek（进阶篇）

第九篇：公共数据库挖掘

9篇1章：中国居民数据库

9篇1章1节：中国居民健康与营养调查（CHNS）数据库的官网解析和数据下载（2026年版）

9篇1章2节：CHNS数据库的具体数据下载解析（2026年版）

9篇1章3节：CHNS数据库的家庭层面数据模块和个人层面数据模块（2026年版）

9篇1章4节：CHNS数据库的生物标志物数据模块和城市化数据模块（2026年版）

9篇2章：GBD 数据库

9篇2章1节：认识全球疾病负担数据库 GBD

9篇2章2节：GBD 数据库的数据申请详解

9篇2章3节：GBD 数据库的数据深度解读（上）

9篇2章4节：GBD 数据库的数据深度解读（下）

9篇2章5节：GBD 数据库的全球疾病负担死亡概率可视化演

9篇2章6节：GBD 数据库分析策略和 SDI 指数的应用解读，并以高血压为例

9篇2章7节：GBD 数据库的关键数据工具系统介绍（上）

9篇2章8节：GBD 数据库的关键数据工具系统介绍（下）

9篇2章9节：多源数据联合应用在全球疾病负担（GBD）分析中的策略分析

9篇2章10节：2025年基于GBD数据的柳叶刀子刊研究深度解析（全网最深度解读）

9篇2章11节：基于GBD数据的医学科研成文的六步法

9篇2章12节：不同临床科室可基于GBD进行数据挖掘的方向举例（联合分析）

9篇3章：FAERS 数据库（包括其它药物警戒数据库）

9篇3章1节：FAERS数据库的FDA官方讲解，对期刊投稿设限的FAERS数据库的客观评价！

9篇3章2节：认识FAERS数据库的数据和公共仪表板（分析前必看）

9篇3章3节：FAERS数据库公共仪表板搜索功能操作与解析

9篇3章4节：FAERS数据库中单个药品报告的数据总览

9篇3章5节：FAERS数据库中药品报告的数据来源与核心字段深度解读

9篇3章6节：FAERS数据的官网下载和ASCII文件的七大模块详解

9篇3章7节：基于 R 语言的 FAERS 数据提取与合并

9篇3章8节：FAERS联合挖掘，认识和获取VigiBase数据库资料

9篇4章：GEO 数据库

9篇4章1节：临床医生如何利用GEO数据库开展研究

9篇4章2节：GEO数据库的数据组织结构

9篇4章3节：GEO数据库官网数据的直接下载

9篇4章4节：用R语言进行GEO数据的下载和初步解析

9篇4章5节：GEO 数据库之炎症性肠病基因表达分析演示（一）

9篇4章6节：GEO 数据库之炎症性肠病基因表达分析演示（二）

9篇4章7节：GEO 数据库之炎症性肠病基因表达分析演示（三）

9篇4章8节：GEO 数据库之炎症性肠病基因表达分析演示（四）

9篇4章9节：GEO 数据库之炎症性肠病基因表达分析演示（五）

9篇5章：NHIS 数据库

9篇5章1节：理解美国国家健康访谈调查（NHIS）数据库

9篇5章2节：NHIS 数据库的常规数据下载

9篇5章3节：NHIS 样本成人数据的结构化解读

9篇5章4节：NHIS 样本其它数据的结构化解读

9篇5章5节：NHIS 样本合并数据的权重分析演示（一）

9篇5章6节：NHIS 样本合并数据的权重分析演示（二）

9篇6章：SEER 数据库

9篇6章1节：SEER数据库的全景解读

9篇6章2节：SEER 项目的历史、现状和展望

9篇6章3节：SEER数据库的数据下载权限申请（2026年版）

9篇6章4节：SEER数据库 SEERStat、SEERPrep、HDCalc 工具介绍

9篇6章5节：SEER 数据库的数据集选择

9篇6章6节：SEER 数据库的2025年数据集中的数据选择（2026年版）

9篇6章7节：SEER 数据库的2025年数据变量多条件组合选择（2026年版）

9篇6章8节：用 Export 功能导出 SEER 数据的全流程操作演示（2026年版）

9篇6章9节：要用 R 读取 SEER 数据

9篇7章：NHANES 数据库

9篇7章1节：认识二次数据分析和NHANES数据库

9篇7章2节：下载NHANES数据并使用R进行读取

9篇7章3节：NHANES数据的下载读取、追加和合并

9篇7章4节：认识统计学的权重、抽样及其背后的设计逻辑

9篇7章5节：实例解析权重对数据结果的影响和可靠性评估

9篇7章6节：深度讲解不同NHANES的权重的种类选择和R包

9篇7章7节：单周期的NHANES权重计算实战

9篇7章8节：多周期的NHANES权重计算实战

9篇7章9节：一步一步构建高效读取NHANES数据的自定义函数

9篇7章10节：如何解决 NHANES 数据合并所遇原表差异问题

9篇7章11节：2025年后如何使用扩展包访问、下载和分析 NHANES 数据

9篇7章12节：如何直接显示NHANES某个变量的代码本

9篇7章13节：根据关键词检索NHANES变量和得到相关信息，并且通过指定URL直接下载数据

9篇7章14节：下载 NHANES 的数据清单、搜索表格和表格里面的变量汇总

9篇7章15节：快速获取 NHANES 特定的表格信息和变量信息

9篇7章16节：NHANES 2017–2023 数据的样本设计、无应答偏差评估与分析说明

9篇7章17节：特殊的NHANES数据解读，包括NNYFS、NHEFS、NHES 和 HHANES 等数据

9篇7章18节：复现NHANES的美国成人抑郁症患病率研究（上）

9篇7章19节：复现NHANES的美国成人抑郁症患病率研究（中）

9篇7章20节：复现NHANES的美国成人抑郁症患病率研究（下）

9篇8章：MIMIC 数据库

9篇8章1节：认识 MIMIC 的主要数据库

9篇9章：SHARE 数据库

9篇9章1节：认识 SHARE 数据库