github最火的免费数据工程训练营 学习日记 day1
GitHub 地址:https://github.com/DataTalksClub/data-engineering-zoomcamp


豆包AI浏览器的总结+实时字幕功能很好用,这么操作看YouTube,正好这个字幕是不挡演示者的视频的。
day1知识点总结
今天我就只学了视频,第1个视频的前21分钟,网络问题加上不熟练,耽误了很长时间.
一、Python 与终端环境
-
>>>:Python 交互环境,仅能写 Python 代码 -
$/#:系统终端,可执行 docker/ls 等系统命令 -
退出 Python:
exit()/Ctrl+D(Linux)/Ctrl+Z(Windows);Ctrl+C仅中断输入不退出 -
import os:Python内置模块,用于系统交互 -
os.getenv(变量名):读取环境变量(必须传参数,否则报错) -
MkDocs :Python 轻量级静态文档网站生成器,将 Markdown 自动转为美观网页文档
二、Docker
-
Docker、Python 为必备环境,推荐使用 GitHub Codespaces 远程环境避免本地配置问题。
-
Docker 容器化本质是系统环境隔离,容器与宿主机完全独立,操作容器不会影响宿主机。
-
容器无状态特性,退出后修改不会保留。
-
环境验证:
docker run hello-world→ 检查Docker是否正常运行 -
镜像关键
-
分层:镜像由只读层叠加,复用节省空间
-
Digest:镜像唯一哈希校验码(读音:/ˈdaɪdʒest/)
-
daemon:Docker后台服务,负责执行核心操作
-
-
容器特性
-
无状态:容器退出后,内部修改(如安装Python)会丢失
-
有状态:
docker commit固化镜像、Volume挂载实现持久化
-
-
镜像类型
-
完整版:体积大、加载慢、功能完整
-
slim精简版:体积小、加载快,仅保留核心Python环境
-
-
关键命令
-
docker:无参数时显示帮助信息;docker run hello-world测试环境 -
apt update:更新Ubuntu软件源(不安装软件) -
apt install python3 -y:安装Python3 -
docker run -it python:3.13.11-slim 没有这个镜像会自动安装,slim是体积比较小的版本
-
docker run -it --entrypoint=bashpython:3.13.11-slim 镜像:强制容器进入 bash 终端,而非 Python 环境 -
docker ps -a:查看所有容器(含已停止) -
docker ps -aq:仅输出所有容器 ID -
docker rm `docker ps -aq`:批量删除所有容器;-f强制删除运行中容器,批量删容器用$()或反引号,勿用单引号
-
-
时区问题:安装tzdata卡69%,选Asia→Shanghai;
三、Linux 基础命令
-
rm= remove(删除);docker rm删容器,系统rm删文件/文件夹 -
递归删除:
rm -r(有确认)、rm -rf(强制无确认,谨慎使用) -
常用命令
-
python -V:查看Python版本(V必须大写) -
ls:列出当前目录文件 -
echo:输出内容;>>追加写入,>覆盖写入
-
-
提示符配置
-
PS1="> ":简化终端提示符(PS1必须大写) -
~/.bashrc:bash永久配置文件,新终端自动加载 -
source ~/.bashrc:立即生效配置
-
-
引号规则
-
单引号:原样输出,不解析变量
-
双引号:解析变量/转义符
-
无引号:仅适用于简单无空格内容
-
四、Terminal 与 Bash
-
Terminal:终端窗口,负责输入输出
-
Bash:命令解释器,翻译执行系统命令
五、窗口切换快捷键
-
系统:
Win+Tab打开任务视图;Win+Ctrl+←/→切换虚拟桌面
六、StarRocks 知识点总结
-
核心定义
新一代极速全场景MPP分析型数据库,开源(Apache 2.0)、Linux基金会项目,高性能数据仓库。
-
关键特性
-
极速:全面向量化引擎+CBO优化器,亚秒/毫秒级查询
-
全场景:覆盖实时数仓、湖仓一体、多模态分析、Ad-hoc、高并发报表
-
兼容:支持MySQL协议,对接BI工具与Hive/Iceberg/Paimon数据湖
-
架构:存算一体+存算分离双模式
-
多模态:2026规划强化向量、文本、图片、音视频统一分析
-
典型场景
实时数据分析、多维OLAP、湖仓一体、AI数据准备
-
与Paimon关系
深度整合打造流湖仓一体架构;StarRocks作为SQL引擎直接查询Paimon表,未来协同支持Paimon 2.0多模态、Time Travel等能力。
七、英语口语
| 词块迁移理论 | 强调通过词块(固定搭配)学习而非孤立背单词,提升语言输出流畅度 |
| 主动词汇培养 | 通过高频词(如get, have, run)的多场景迁移(如get up, get over, get it)实现活学活用 |
| 迁移训练方法 | 通过旧词新用(如run:run a company经营公司、run a red light闯红灯)降低记忆负担 |
八、MLOps 工程师(Machine Learning Operations)
-
定位:机器学习模型的运维/工程/部署/流水线总管,负责模型从实验室落地为稳定线上服务
-
核心工作:搭建训练部署自动化流水线、模型上线封装、模型性能/效果监控、环境与工具链建设
-
必备技能:Python/Linux/Git/Docker/K8s、云平台、流水线/ML运维工具、基础机器学习知识
-
核心价值:让模型脱离Notebook,真正产生业务价值
九、如何让AI总结每天问过的问题和知识点
和AI的对话点分享,点全选,复制链接,然后新开一个对话发给AI,让它阅读并总结
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)