GitHub 地址:https://github.com/DataTalksClub/data-engineering-zoomcamp

豆包AI浏览器的总结+实时字幕功能很好用,这么操作看YouTube,正好这个字幕是不挡演示者的视频的。

day1知识点总结

今天我就只学了视频,第1个视频的前21分钟,网络问题加上不熟练,耽误了很长时间.

一、Python 与终端环境

  1. >>>:Python 交互环境,仅能写 Python 代码

  2. $/#:系统终端,可执行 docker/ls 等系统命令

  3. 退出 Pythonexit() / Ctrl+D(Linux)/ Ctrl+Z(Windows);Ctrl+C 仅中断输入不退出

  4. import os:Python内置模块,用于系统交互

  5. os.getenv(变量名):读取环境变量(必须传参数,否则报错

  6. MkDocs :Python 轻量级静态文档网站生成器,将 Markdown 自动转为美观网页文档

二、Docker

  1. Docker、Python 为必备环境,推荐使用 GitHub Codespaces 远程环境避免本地配置问题。

  2. Docker 容器化本质是系统环境隔离,容器与宿主机完全独立,操作容器不会影响宿主机。

  3. 容器无状态特性,退出后修改不会保留

  4. 环境验证:docker run hello-world → 检查Docker是否正常运行

  5. 镜像关键

    1. 分层:镜像由只读层叠加,复用节省空间

    2. Digest:镜像唯一哈希校验码(读音:/ˈdaɪdʒest/)

    3. daemon:Docker后台服务,负责执行核心操作

  6. 容器特性

    1. 无状态:容器退出后,内部修改(如安装Python)会丢失

    2. 有状态:docker commit固化镜像、Volume挂载实现持久化

  7. 镜像类型

    1. 完整版:体积大、加载慢、功能完整

    2. slim精简版:体积小、加载快,仅保留核心Python环境

  8. 关键命令

    1. docker:无参数时显示帮助信息;docker run hello-world 测试环境

    2. apt update:更新Ubuntu软件源(不安装软件

    3. apt install python3 -y:安装Python3

    4. docker run -it python:3.13.11-slim 没有这个镜像会自动安装,slim是体积比较小的版本

    5. docker run -it --entrypoint=bash python:3.13.11-slim 镜像:强制容器进入 bash 终端,而非 Python 环境

    6. docker ps -a:查看所有容器(含已停止)

    7. docker ps -aq:仅输出所有容器 ID

    8. docker rm `docker ps -aq`:批量删除所有容器;-f 强制删除运行中容器,批量删容器用 $() 或反引号,勿用单引号

  9. 时区问题:安装tzdata卡69%,选Asia→Shanghai

三、Linux 基础命令

  1. rm = remove(删除);docker rm 删容器,系统 rm 删文件/文件夹

  2. 递归删除:rm -r(有确认)、rm -rf(强制无确认,谨慎使用)

  3. 常用命令

    1. python -V:查看Python版本(V必须大写

    2. ls:列出当前目录文件

    3. echo:输出内容;>>追加写入,>覆盖写入

  4. 提示符配置

    1. PS1="> ":简化终端提示符(PS1必须大写

    2. ~/.bashrc:bash永久配置文件,新终端自动加载

    3. source ~/.bashrc:立即生效配置

  5. 引号规则

    1. 单引号:原样输出,不解析变量

    2. 双引号:解析变量/转义符

    3. 无引号:仅适用于简单无空格内容

四、Terminal 与 Bash

  • Terminal:终端窗口,负责输入输出

  • Bash:命令解释器,翻译执行系统命令

五、窗口切换快捷键

  1. 系统:Win+Tab打开任务视图;Win+Ctrl+←/→切换虚拟桌面

六、StarRocks 知识点总结

  1. 核心定义

新一代极速全场景MPP分析型数据库,开源(Apache 2.0)、Linux基金会项目,高性能数据仓库。

  1. 关键特性

  • 极速:全面向量化引擎+CBO优化器,亚秒/毫秒级查询

  • 全场景:覆盖实时数仓、湖仓一体、多模态分析、Ad-hoc、高并发报表

  • 兼容:支持MySQL协议,对接BI工具与Hive/Iceberg/Paimon数据湖

  • 架构:存算一体+存算分离双模式

  • 多模态:2026规划强化向量、文本、图片、音视频统一分析

  1. 典型场景

实时数据分析、多维OLAP、湖仓一体、AI数据准备

  1. 与Paimon关系

深度整合打造流湖仓一体架构;StarRocks作为SQL引擎直接查询Paimon表,未来协同支持Paimon 2.0多模态、Time Travel等能力。

七、英语口语

词块迁移理论 强调通过词块(固定搭配)学习而非孤立背单词,提升语言输出流畅度
主动词汇培养 通过高频词(如get, have, run)的多场景迁移(如get up, get over, get it)实现活学活用
迁移训练方法 通过旧词新用(如run:run a company经营公司、run a red light闯红灯)降低记忆负担

八、MLOps 工程师(Machine Learning Operations)

  1. 定位:机器学习模型的运维/工程/部署/流水线总管,负责模型从实验室落地为稳定线上服务

  2. 核心工作:搭建训练部署自动化流水线、模型上线封装、模型性能/效果监控、环境与工具链建设

  3. 必备技能:Python/Linux/Git/Docker/K8s、云平台、流水线/ML运维工具、基础机器学习知识

  4. 核心价值:让模型脱离Notebook,真正产生业务价值

    九、如何让AI总结每天问过的问题和知识点

    和AI的对话点分享,点全选,复制链接,然后新开一个对话发给AI,让它阅读并总结

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐