【Java PyTorch深度学习】PyTorch ON Java 实现Java版本PyTorch混合精度训练 GradScaler PyTorch Java[AI Infra]高校计算机硕士研一课程

Veggie张海寧

538人浏览 · 2026-05-08 20:51:24

Veggie张海寧 · 2026-05-08 20:51:24 发布

在这里插入图片描述

PyTorch Java高校计算机硕士研一课程

从零实现 Java 版 PyTorch 混合精度训练｜1:1 对标 Python AMP

本文基于 javacpp-pytorch 2.10.0-1.5.13，纯 Java 实现混合精度训练，完全对齐 Python torch. cuda .amp 逻辑，包含 AutoCast 上下文管理器 + GradScaler 梯度缩放器，可直接用于工业级项目。
一、混合精度训练核心原理

混合精度训练（AMP）是深度学习训练的标配技术，核心解决两个问题：
显存占用过高：FP16/BF16 精度仅为 FP32 的一半，大幅降低显存占用
梯度下溢：半精度梯度数值过小会变成 0，导致模型无法训练
Python PyTorch 提供了开箱即用的 autocast + GradScaler，而 JavaCPP-PyTorch 没有封装好的 AMP 工具类，需要我们基于原生 C++ API 手动实现。
核心组件
AutoCast：自动将适合半精度的算子转为 FP16/BF16，不适合的保留 FP32
GradScaler：放大损失值，避免梯度下溢；反向传播后自动缩放梯度，保证训练稳定
————————————————
版权声明：本文为CSDN博主「数据算法+AI For Data」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_43486255/article/details/160729192

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>tortest</artifactId>
    <version>1.0-SNAPSHOT</version>

    <repositories>
        <repository>
            <id>central-snapshots</id>
            <url> https://central.sonatype.com/repository/maven-snapshots</url>
            <snapshots>
                <enabled>true</enabled>
                <updatePolicy>always</updatePolicy>
            </snapshots>
            <releases>
                <enabled>false</enabled>
            </releases>
        </repository>
    </repositories>

    <properties>
        <maven.compiler.source>26</maven.compiler.source>
        <maven.compiler.target>26</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>pytorch-platform-gpu</artifactId>
            <version>2.11.0-1.5.14-SNAPSHOT</version>
        </dependency>
        <!--        <dependency>-->
        <!--            <groupId>org.bytedeco</groupId>-->
        <!--            <artifactId>pytorch-platform-gpu</artifactId>-->
        <!--            <version>2.10.0-1.5.13</version>-->
        <!--            <classifier>linux-x86_64</classifier>-->
        <!--        </dependency>-->

        <!--        <dependency>-->
        <!--            <groupId>org.bytedeco</groupId>-->
        <!--            <artifactId>pytorch-platform-gpu</artifactId>-->
        <!--            <version>2.11.0-1.5.14-SNAPSHOT</version>-->
        <!--        </dependency>-->

        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
            <scope>compile</scope>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
            <scope>compile</scope>
        </dependency>

        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-cublas</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-cudnn</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-cusolver</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-cusparse</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
        </dependency>

        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-npp</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-nccl</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-nvcomp</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
        </dependency>

        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-cublas</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-cudnn</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-cusolver</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-cusparse</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>


        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-npp</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-nccl</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>cuda-redist-nvcomp</artifactId>
            <version>13.2-9.21-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>




        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>pytorch</artifactId>
            <version>2.11.0-1.5.14-SNAPSHOT</version>
        </dependency>

        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>pytorch</artifactId>
            <version>2.11.0-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>

        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>javacpp</artifactId>
            <version>1.5.14-SNAPSHOT</version>
            <!--            <classifier>linux-x86_64</classifier>-->
        </dependency>

        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>openblas</artifactId>

            <version>0.3.32-1.5.14-SNAPSHOT</version>
            <!--            <classifier>linux-x86_64</classifier>-->
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>javacpp</artifactId>
            <version>1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>

        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>openblas</artifactId>
            <version>0.3.32-1.5.14-SNAPSHOT</version>
            <classifier>linux-x86_64</classifier>
        </dependency>
        <!--        <dependency>-->
        <!--            <groupId>org.bytedeco</groupId>-->
        <!--            <artifactId>pytorch</artifactId>-->
        <!--            <version>2.11.0-1.5.14-SNAPSHOT</version>-->
        <!--        </dependency>-->

        <!--        <dependency>-->
        <!--            <groupId>org.bytedeco</groupId>-->
        <!--            <artifactId>pytorch</artifactId>-->
        <!--            <version>2.11.0-1.5.14-SNAPSHOT</version>-->
        <!--            <classifier>linux-x86_64</classifier>-->
        <!--        </dependency>-->

        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>opencv</artifactId>
            <version>4.13.0-1.5.13</version>
            <scope>compile</scope>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>opencv</artifactId>
            <version>4.13.0-1.5.13</version>
            <classifier>linux-x86_64</classifier>
            <scope>compile</scope>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>opencv-platform</artifactId>
            <version>4.13.0-1.5.13</version>
            <scope>compile</scope>
        </dependency>

        <dependency>
            <groupId>com.google.code.gson</groupId>
            <artifactId>gson</artifactId>
            <version>2.14.0</version>
            <scope>compile</scope>
        </dependency>

        <!-- Lombok -->
        <!--        <dependency>-->
        <!--            <groupId>org.projectlombok</groupId>-->
        <!--            <artifactId>lombok</artifactId>-->
        <!--            <optional>true</optional>-->
        <!--        </dependency>-->
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>ffmpeg</artifactId>
            <version>8.0.1-1.5.13</version>

            <scope>compile</scope>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>ffmpeg</artifactId>
            <version>8.0.1-1.5.13</version>
            <classifier>linux-x86_64</classifier>
            <scope>compile</scope>
        </dependency>
        <dependency>
            <groupId>org.bytedeco</groupId>
            <artifactId>ffmpeg-platform</artifactId>
            <version>8.0.1-1.5.13</version>
            <scope>compile</scope>
        </dependency>
        <!-- Jedis -->
        <!--        <dependency>-->
        <!--            <groupId>redis.clients</groupId>-->
        <!--            <artifactId>jedis</artifactId>-->
        <!--        </dependency>-->

        <!--        &lt;!&ndash; Jackson for serialization &ndash;&gt;-->
        <!--        <dependency>-->
        <!--            <groupId>com.fasterxml.jackson.core</groupId>-->
        <!--            <artifactId>jackson-databind</artifactId>-->
        <!--        </dependency>-->
    </dependencies>

<!--    <dependencies>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>pytorch-platform-gpu</artifactId>-->
<!--            <version>2.10.0-1.5.13</version>-->
<!--        </dependency>-->
<!--&lt;!&ndash;        <dependency>&ndash;&gt;-->
<!--&lt;!&ndash;            <groupId>org.bytedeco</groupId>&ndash;&gt;-->
<!--&lt;!&ndash;            <artifactId>pytorch-platform-gpu</artifactId>&ndash;&gt;-->
<!--&lt;!&ndash;            <version>2.10.0-1.5.13</version>&ndash;&gt;-->
<!--&lt;!&ndash;            <classifier>linux-x86_64</classifier>&ndash;&gt;-->
<!--&lt;!&ndash;        </dependency>&ndash;&gt;-->

<!--&lt;!&ndash;        <dependency>&ndash;&gt;-->
<!--&lt;!&ndash;            <groupId>org.bytedeco</groupId>&ndash;&gt;-->
<!--&lt;!&ndash;            <artifactId>pytorch-platform-gpu</artifactId>&ndash;&gt;-->
<!--&lt;!&ndash;            <version>2.11.0-1.5.14-SNAPSHOT</version>&ndash;&gt;-->
<!--&lt;!&ndash;        </dependency>&ndash;&gt;-->

<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--            <scope>compile</scope>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--            <scope>compile</scope>-->
<!--        </dependency>-->

<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-cublas</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-cudnn</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-cusolver</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--        <groupId>org.bytedeco</groupId>-->
<!--        <artifactId>cuda-redist-cusparse</artifactId>-->
<!--            <version> 13.1-9.19-1.5.13</version>-->
<!--        </dependency>-->

<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-npp</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-nccl</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-nvcomp</artifactId>-->
<!--            <version> 13.1-9.19-1.5.13</version>-->
<!--        </dependency>-->

<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-cublas</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-cudnn</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-cusolver</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-cusparse</artifactId>-->
<!--            <version> 13.1-9.19-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->


<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-npp</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-nccl</artifactId>-->
<!--            <version>13.1-9.19-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>cuda-redist-nvcomp</artifactId>-->
<!--            <version> 13.1-9.19-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->




<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>pytorch</artifactId>-->
<!--            <version>2.10.0-1.5.13</version>-->
<!--        </dependency>-->

<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>pytorch</artifactId>-->
<!--            <version>2.10.0-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->

<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>javacpp</artifactId>-->
<!--            <version>1.5.13</version>-->
<!--&lt;!&ndash;            <classifier>linux-x86_64</classifier>&ndash;&gt;-->
<!--        </dependency>-->

<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>openblas</artifactId>-->
<!--            <version>0.3.31-1.5.13</version>-->
<!--&lt;!&ndash;            <classifier>linux-x86_64</classifier>&ndash;&gt;-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>javacpp</artifactId>-->
<!--            <version>1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->

<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>openblas</artifactId>-->
<!--            <version>0.3.31-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--        </dependency>-->
<!--&lt;!&ndash;        <dependency>&ndash;&gt;-->
<!--&lt;!&ndash;            <groupId>org.bytedeco</groupId>&ndash;&gt;-->
<!--&lt;!&ndash;            <artifactId>pytorch</artifactId>&ndash;&gt;-->
<!--&lt;!&ndash;            <version>2.11.0-1.5.14-SNAPSHOT</version>&ndash;&gt;-->
<!--&lt;!&ndash;        </dependency>&ndash;&gt;-->

<!--&lt;!&ndash;        <dependency>&ndash;&gt;-->
<!--&lt;!&ndash;            <groupId>org.bytedeco</groupId>&ndash;&gt;-->
<!--&lt;!&ndash;            <artifactId>pytorch</artifactId>&ndash;&gt;-->
<!--&lt;!&ndash;            <version>2.11.0-1.5.14-SNAPSHOT</version>&ndash;&gt;-->
<!--&lt;!&ndash;            <classifier>linux-x86_64</classifier>&ndash;&gt;-->
<!--&lt;!&ndash;        </dependency>&ndash;&gt;-->

<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>opencv</artifactId>-->
<!--            <version>4.13.0-1.5.13</version>-->
<!--            <scope>compile</scope>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>opencv</artifactId>-->
<!--            <version>4.13.0-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--            <scope>compile</scope>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>opencv-platform</artifactId>-->
<!--            <version>4.13.0-1.5.13</version>-->
<!--            <scope>compile</scope>-->
<!--        </dependency>-->

<!--        <dependency>-->
<!--            <groupId>com.google.code.gson</groupId>-->
<!--            <artifactId>gson</artifactId>-->
<!--            <version>2.14.0</version>-->
<!--            <scope>compile</scope>-->
<!--        </dependency>-->

<!--        &lt;!&ndash; Lombok &ndash;&gt;-->
<!--&lt;!&ndash;        <dependency>&ndash;&gt;-->
<!--&lt;!&ndash;            <groupId>org.projectlombok</groupId>&ndash;&gt;-->
<!--&lt;!&ndash;            <artifactId>lombok</artifactId>&ndash;&gt;-->
<!--&lt;!&ndash;            <optional>true</optional>&ndash;&gt;-->
<!--&lt;!&ndash;        </dependency>&ndash;&gt;-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>ffmpeg</artifactId>-->
<!--            <version>8.0.1-1.5.13</version>-->

<!--            <scope>compile</scope>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>ffmpeg</artifactId>-->
<!--            <version>8.0.1-1.5.13</version>-->
<!--            <classifier>linux-x86_64</classifier>-->
<!--            <scope>compile</scope>-->
<!--        </dependency>-->
<!--        <dependency>-->
<!--            <groupId>org.bytedeco</groupId>-->
<!--            <artifactId>ffmpeg-platform</artifactId>-->
<!--            <version>8.0.1-1.5.13</version>-->
<!--            <scope>compile</scope>-->
<!--        </dependency>-->
<!--        &lt;!&ndash; Jedis &ndash;&gt;-->
<!--&lt;!&ndash;        <dependency>&ndash;&gt;-->
<!--&lt;!&ndash;            <groupId>redis.clients</groupId>&ndash;&gt;-->
<!--&lt;!&ndash;            <artifactId>jedis</artifactId>&ndash;&gt;-->
<!--&lt;!&ndash;        </dependency>&ndash;&gt;-->

<!--&lt;!&ndash;        &lt;!&ndash; Jackson for serialization &ndash;&gt;&ndash;&gt;-->
<!--&lt;!&ndash;        <dependency>&ndash;&gt;-->
<!--&lt;!&ndash;            <groupId>com.fasterxml.jackson.core</groupId>&ndash;&gt;-->
<!--&lt;!&ndash;            <artifactId>jackson-databind</artifactId>&ndash;&gt;-->
<!--&lt;!&ndash;        </dependency>&ndash;&gt;-->
<!--    </dependencies>-->

</project>


package torch;

import org.bytedeco.javacpp.PointerScope;
import org.bytedeco.pytorch.*;
import org.bytedeco.pytorch.Module;
import org.bytedeco.pytorch.global.torch;

/**
 * ============================================================================
 * MixedPrecisionTrainer  ——  通用混合精度训练框架（1:1 对标 PyTorch Python AMP）
 *  基于 javacpp-pytorch 2.10.0-1.5.13
 * ============================================================================
 *
 *  ▸ 跨平台：自动选择 CUDA → MPS(macOS) → CPU
 *  ▸ 多精度：FP16 / BF16 / FP32(关闭AMP)，可显式指定
 *  ▸ 模型库：MLP（基于官方 SequentialImpl 容器）/ Transformer 编码器
 *  ▸ 显存安全：每个 step 用 try (PointerScope) 释放所有 JavaCPP 临时对象
 *  ▸ 完整 GradScaler：scale → backward → unscale → inf/nan 检查 → step → update
 *  ▸ 完整 AutoCast：is/set_autocast_enabled + set_autocast_dtype + nesting + clear_cache
 *
 *  入口：
 *    java ... torch.MixedPrecisionTrainer            ← MLP demo (默认)
 *    java ... torch.MixedPrecisionTrainer transformer ← Transformer demo
 *    java ... torch.MixedPrecisionTrainer$Tests       ← 单元测试
 * ============================================================================
 */
public class MixedPrecisionTrainer {

    // =====================================================================
    // 0. 设备 / 精度抽象
    // =====================================================================

    public enum Precision {
        FP16, BF16, FP32;

        public torch.ScalarType toScalarType() {
            switch (this) {
                case FP16: return torch.ScalarType.Half;
                case BF16: return torch.ScalarType.BFloat16;
                default:   return torch.ScalarType.Float;
            }
        }
    }

    public static final class DeviceCtx {
        public final Device device;
        public final torch.DeviceType type;
        public final String label;
        public DeviceCtx(Device device, torch.DeviceType type, String label) {
            this.device = device; this.type = type; this.label = label;
        }
    }

    /**
     * 跨平台自动选择最佳设备：
     *   优先 CUDA → CPU。
     * MPS 默认不启用，因为 javacpp-pytorch 2.10 的 libtorch-mps 后端
     * 对 cross_entropy/Linear 反向传播稳定性差（会产生 NaN，与 Python
     * torch.amp + MPS 的实现不同）。
     * 若需在 macOS 强制使用 MPS：设置环境变量 MP_USE_MPS=1
     */
    public static DeviceCtx autoDevice() {
        if (torch.cuda_is_available() && torch.hasCUDA()) {
            return new DeviceCtx(new Device(torch.DeviceType.CUDA, (byte) 0),
                                 torch.DeviceType.CUDA, "CUDA");
        }
        if ("1".equals(System.getenv("MP_USE_MPS")) && torch.hasMPS()) {
            return new DeviceCtx(new Device(torch.DeviceType.MPS),
                                 torch.DeviceType.MPS, "MPS (Apple Silicon, opt-in)");
        }
        return new DeviceCtx(new Device(torch.DeviceType.CPU),
                             torch.DeviceType.CPU, "CPU");
    }

    /**
     * 给定 (设备, 用户精度) 返回 *实际* 可用的精度。
     *  - CUDA: 完全支持 FP16/BF16
     *  - CPU : autocast 仅支持 BF16
     *  - MPS : libtorch C++ 的 MPS autocast 不稳定（fp16 op 缺失会产生 NaN），
     *         为保证训练稳定性，默认回退到 FP32。
     *         如需在 MPS 强制开 fp16，请直接调用 AutoCast 构造器并传 Precision.FP16。
     */
    public static Precision resolvePrecision(DeviceCtx d, Precision want) {
        if (want == Precision.FP32) return Precision.FP32;
        switch (d.type) {
            case CUDA: return want;
            case CPU:  return Precision.BF16;
            case MPS:  return Precision.FP32;   // ← 安全默认；显式 of(d,FP16) 仍可强开
            default:   return Precision.FP32;
        }
    }

    // =====================================================================
    // 1. AutoCast
    // =====================================================================
    public static final class AutoCast implements AutoCloseable {
        private final torch.DeviceType deviceType;
        private final boolean originalEnabled;
        private final torch.ScalarType originalDtype;
        private final boolean active;
        private boolean closed = false;

        public static AutoCast of(DeviceCtx d, Precision p) {
            if (p == Precision.FP32) return new AutoCast(d.type, null, false);
            return new AutoCast(d.type, p.toScalarType(), true);
        }

        public AutoCast(torch.DeviceType deviceType, torch.ScalarType dtype, boolean active) {
            this.deviceType = deviceType;
            this.active     = active;
            this.originalEnabled = torch.is_autocast_enabled(deviceType);
            this.originalDtype   = torch.get_autocast_dtype(deviceType);
            if (active) {
                torch.set_autocast_enabled(deviceType, true);
                torch.set_autocast_dtype(deviceType, dtype);
                torch.increment_nesting();
            }
        }

        @Override public void close() {
            if (closed || !active) { closed = true; return; }
            closed = true;
            torch.decrement_nesting();
            torch.clear_cache();
            torch.set_autocast_enabled(deviceType, originalEnabled);
            torch.set_autocast_dtype(deviceType, originalDtype);
        }
    }

    // =====================================================================
    // 2. GradScaler
    // =====================================================================
    public static final class GradScaler {
        private float scale;
        private final float growthFactor, backoffFactor;
        private final int   growthInterval;
        private int   growthTracker = 0;
        private final boolean enabled;
        private boolean foundInfLastStep = false;

        public GradScaler() { this(65536.0f, 2.0f, 0.5f, 2000, true); }
        public GradScaler(boolean enabled) { this(65536.0f, 2.0f, 0.5f, 2000, enabled); }

        public GradScaler(float initScale, float growthFactor, float backoffFactor,
                          int growthInterval, boolean enabled) {
            this.scale          = initScale;
            this.growthFactor   = growthFactor;
            this.backoffFactor  = backoffFactor;
            this.growthInterval = growthInterval;
            this.enabled        = enabled;
        }

        public Tensor scale(Tensor loss) {
            if (!enabled) return loss;
            return loss.mul(new Scalar(scale));
        }

        /** unscale_ + inf/nan 检查 + step；全程 NoGradGuard 避免吃显存 */
        public void step(Optimizer optimizer, TensorVector params) {
            if (!enabled) { optimizer.step(); foundInfLastStep = false; return; }

            try (NoGradGuard ng = new NoGradGuard()) {
                if (hasInfOrNan(params)) {
                    foundInfLastStep = true;
                    for (long i = 0; i < params.size(); i++) {
                        Tensor g = params.get(i).grad();
                        if (g != null && g.defined()) g.zero_();
                    }
                    return;
                }
                Scalar inv = new Scalar(1.0f / scale);
                for (long i = 0; i < params.size(); i++) {
                    Tensor g = params.get(i).grad();
                    if (g != null && g.defined()) g.mul_(inv);
                }
            }
            optimizer.step();
            foundInfLastStep = false;
        }

        public void update() {
            if (!enabled) return;
            if (foundInfLastStep) {
                scale *= backoffFactor;
                if (scale < 1.0f) scale = 1.0f;
                growthTracker = 0;
            } else if (++growthTracker >= growthInterval) {
                scale *= growthFactor;
                growthTracker = 0;
            }
        }

        public float   getScale()           { return scale; }
        public boolean isEnabled()          { return enabled; }
        public boolean wasLastStepSkipped() { return foundInfLastStep; }

        private static boolean hasInfOrNan(TensorVector params) {
            for (long i = 0; i < params.size(); i++) {
                Tensor g = params.get(i).grad();
                if (g == null || !g.defined()) continue;
                if (!torch.isfinite(g).all().item_bool()) return true;
            }
            return false;
        }
    }

    // =====================================================================
    // 3. 模型构建
    // =====================================================================

    /** 用官方 SequentialImpl 容器堆叠 Linear/ReLU/Dropout，对标 nn.Sequential */
    public static SequentialImpl buildMLP(long inDim, long hidden, long outDim, double dropout) {
        SequentialImpl seq = new SequentialImpl();
        seq.push_back(new LinearImpl(inDim, hidden));
        seq.push_back(new ReLUImpl());
        if (dropout > 0) seq.push_back(new DropoutImpl(new DropoutOptions(dropout)));
        seq.push_back(new LinearImpl(hidden, hidden));
        seq.push_back(new ReLUImpl());
        if (dropout > 0) seq.push_back(new DropoutImpl(new DropoutOptions(dropout)));
        seq.push_back(new LinearImpl(hidden, outDim));
        return seq;
    }

    /** Transformer 分类器：TransformerEncoder + 池化 + Linear 头 */
    public static final class TransformerClassifier extends Module {
        private final TransformerEncoderImpl encoder;
        private final LinearImpl head;

        public TransformerClassifier(long dModel, long nHead, long numLayers,
                                     long dimFF, double dropout, long numClasses) {
            TransformerEncoderLayerOptions layerOpt = new TransformerEncoderLayerOptions(dModel, nHead);
            layerOpt.dim_feedforward().put(dimFF);
            layerOpt.dropout().put(dropout);
            TransformerEncoderLayerImpl encoderLayer = new TransformerEncoderLayerImpl(layerOpt);

            TransformerEncoderOptions encOpt = new TransformerEncoderOptions(layerOpt, numLayers);
            this.encoder = register_module("encoder", new TransformerEncoderImpl(encOpt));
            this.head    = register_module("head",    new LinearImpl(dModel, numClasses));
        }

        /** input: [seq, batch, dModel] → logits [batch, numClasses] */
        public Tensor forward(Tensor src) {
            Tensor enc = encoder.forward(src);
            Tensor pooled = enc.mean(new long[]{0}, false, new ScalarTypeOptional());
            return head.forward(pooled);
        }
    }

    // =====================================================================
    // 4. 通用训练循环
    // =====================================================================
    public interface ForwardFn { Tensor apply(Tensor input); }
    public interface AutoCastFactory { AutoCast create(); }

    public static void train(ForwardFn forward, TensorVector params,
                             Optimizer optimizer, GradScaler scaler,
                             AutoCastFactory autoCastFactory,
                             Tensor inputs, Tensor labels, int steps, int logEvery) {
        long t0 = System.nanoTime();
        for (int step = 0; step < steps; step++) {
            // ⚠️ 关键：每步一个 PointerScope，保证 native 临时对象立刻释放，
            //         否则数百步后必然 CUDA OOM（JavaCPP Pointer 依赖 GC，跟不上 CUDA 分配速度）
            try (PointerScope ps = new PointerScope()) {
                optimizer.zero_grad(true);  // set_to_none，释放上一步 grad 显存

                Tensor loss;
                try (AutoCast ac = autoCastFactory.create()) {
                    Tensor outputs = forward.apply(inputs);
                    loss = torch.cross_entropy(outputs, labels);
                }

                Tensor scaled = scaler.scale(loss);
                scaled.backward();
                scaler.step(optimizer, params);
                scaler.update();

                if (step % logEvery == 0) {
                    System.out.printf("Step [%4d/%d] | Loss: %.4f | Scale: %.1f | Skipped: %s%n",
                            step, steps, loss.item_double(),
                            scaler.getScale(), scaler.wasLastStepSkipped());
                }
            }
        }
        double sec = (System.nanoTime() - t0) / 1e9;
        System.out.printf("[完成] 步数=%d 总耗时=%.3fs 平均=%.4fs/step%n",
                steps, sec, sec / steps);
    }

    // =====================================================================
    // 5. main 入口
    // =====================================================================
    public static void main(String[] args) {
        String mode = (args.length > 0) ? args[0].toLowerCase() : "mlp";
        Precision want = (args.length > 1) ? Precision.valueOf(args[1].toUpperCase())
                                           : Precision.FP16;

        DeviceCtx dev = autoDevice();
        Precision prec = resolvePrecision(dev, want);
        System.out.println("==============================================");
        System.out.println(" 设备：" + dev.label);
        System.out.println(" 期望精度：" + want + "  → 实际精度：" + prec);
        System.out.println(" 模式：" + mode);
        System.out.println("==============================================");

        if ("transformer".equals(mode)) runTransformer(dev, prec);
        else                            runMLP(dev, prec);
    }

    private static void runMLP(DeviceCtx dev, Precision prec) {
        long batchSize = 64, inputDim = 1024, hiddenDim = 4096, outputDim = 10;
        int  steps = 200;

        SequentialImpl model = buildMLP(inputDim, hiddenDim, outputDim, 0.0);
        model.to(dev.device, true);

        Tensor inputs = torch.randn(new long[]{batchSize, inputDim})
                              .to(dev.device, torch.ScalarType.Float);
        Tensor labels = torch.randint(outputDim, new long[]{batchSize})
                              .to(dev.device, torch.ScalarType.Long);

        Adam optimizer = new Adam(model.parameters(), new AdamOptions(1e-3));
        TensorVector params = model.parameters();
        // 仅在 CUDA + 非 FP32 时启用 GradScaler（FP16 下溢只发生在 CUDA fp16）
        GradScaler scaler = new GradScaler(prec != Precision.FP32 && dev.type == torch.DeviceType.CUDA);

        train(model::forward, params, optimizer, scaler,
              () -> AutoCast.of(dev, prec), inputs, labels, steps, 10);
    }

    private static void runTransformer(DeviceCtx dev, Precision prec) {
        long seqLen = 32, batchSize = 16, dModel = 128;
        long nHead = 4, numLayers = 2, dimFF = 256, numClasses = 10;
        int  steps = 200;

        TransformerClassifier model =
                new TransformerClassifier(dModel, nHead, numLayers, dimFF, 0.1, numClasses);
        model.to(dev.device, true);

        Tensor inputs = torch.randn(new long[]{seqLen, batchSize, dModel})
                              .to(dev.device, torch.ScalarType.Float);
        Tensor labels = torch.randint(numClasses, new long[]{batchSize})
                              .to(dev.device, torch.ScalarType.Long);

        Adam optimizer = new Adam(model.parameters(), new AdamOptions(3e-4));
        TensorVector params = model.parameters();
        GradScaler scaler = new GradScaler(prec != Precision.FP32 && dev.type == torch.DeviceType.CUDA);

        train(model::forward, params, optimizer, scaler,
              () -> AutoCast.of(dev, prec), inputs, labels, steps, 10);
    }

    // =====================================================================
    // 6. 单元测试
    // =====================================================================
    public static class Tests {
        static int passed = 0, failed = 0;

        static void check(boolean cond, String name) {
            if (cond) { passed++; System.out.println("✅ " + name); }
            else      { failed++; System.err.println("❌ " + name); }
        }

        static void testAutoCastLifecycle() {
            DeviceCtx d = autoDevice();
            Precision want = (d.type == torch.DeviceType.CPU) ? Precision.BF16 : Precision.FP16;
            torch.ScalarType useDtype = resolvePrecision(d, want).toScalarType();
            boolean before  = torch.is_autocast_enabled(d.type);
            torch.ScalarType beforeDtype = torch.get_autocast_dtype(d.type);

            try (AutoCast ac = new AutoCast(d.type, useDtype, true)) {
                check(torch.is_autocast_enabled(d.type),
                      "AutoCast: enabled inside ctx (" + d.label + ")");
                check(torch.get_autocast_dtype(d.type).intern() == useDtype,
                      "AutoCast: dtype set inside ctx");
            }
            check(torch.is_autocast_enabled(d.type) == before,  "AutoCast: enabled restored");
            check(torch.get_autocast_dtype(d.type).intern() == beforeDtype.intern(),
                  "AutoCast: dtype restored");
        }

        static void testAutoCastFP32Noop() {
            DeviceCtx d = autoDevice();
            boolean before = torch.is_autocast_enabled(d.type);
            try (AutoCast ac = AutoCast.of(d, Precision.FP32)) {
                check(torch.is_autocast_enabled(d.type) == before,
                      "AutoCast: FP32 noop, enabled 状态不变");
            }
        }

        static void testAutoCastNested() {
            torch.DeviceType dev = torch.DeviceType.CPU;
            torch.ScalarType bf16 = torch.ScalarType.BFloat16;
            boolean beforeEnabled = torch.is_autocast_enabled(dev);
            try (AutoCast outer = new AutoCast(dev, bf16, true)) {
                check(torch.is_autocast_enabled(dev), "Nested: outer enabled");
                check(torch.get_autocast_dtype(dev).intern() == bf16, "Nested: outer dtype=BF16");
                try (AutoCast inner = new AutoCast(dev, bf16, true)) {
                    check(torch.is_autocast_enabled(dev), "Nested: inner enabled");
                }
                check(torch.is_autocast_enabled(dev), "Nested: outer still enabled after inner");
            }
            check(torch.is_autocast_enabled(dev) == beforeEnabled, "Nested: fully restored");
        }

        static void testGradScalerInitialState() {
            GradScaler s = new GradScaler();
            check(s.getScale() == 65536.0f, "GradScaler: init scale=65536");
        }

        static void testGradScalerDisabledPassthrough() {
            // 显式禁用，行为与平台无关 → 必须 passthrough
            GradScaler s = new GradScaler(false);
            Tensor t = torch.ones(new long[]{2, 2});
            Tensor scaled = s.scale(t);
            check(!s.isEnabled(),  "GradScaler(false): isEnabled=false");
            check(scaled == t,     "GradScaler(false): scale(t) 直通");
            float prev = s.getScale();
            s.update();
            check(s.getScale() == prev, "GradScaler(false): update() 不变");
        }

        static void testGradScalerEnabledScalesValue() {
            GradScaler s = new GradScaler(1024.0f, 2.0f, 0.5f, 3, true);
            Tensor one = torch.ones(new long[]{1});
            Tensor scaled = s.scale(one);
            check(scaled != one, "GradScaler(true): scale(t) 返回新 tensor");
            check(Math.abs(scaled.item_double() - 1024.0) < 1e-3,
                  "GradScaler(true): 数值=1*1024");
        }

        static void testGradScalerGrowthAndBackoff() {
            GradScaler s = new GradScaler(1024.0f, 2.0f, 0.5f, 3, true);
            s.update(); s.update(); s.update();
            check(Math.abs(s.getScale() - 2048.0f) < 1e-3,
                  "GradScaler: 连续 3 次成功 update 后 scale ×2");
            try {
                java.lang.reflect.Field f = GradScaler.class.getDeclaredField("foundInfLastStep");
                f.setAccessible(true);
                f.setBoolean(s, true);
                s.update();
                check(Math.abs(s.getScale() - 1024.0f) < 1e-3,
                      "GradScaler: backoff 后 scale ÷2");
            } catch (Exception e) {
                check(false, "GradScaler: 反射失败: " + e);
            }
        }

        static void testDeviceAutoDetect() {
            DeviceCtx d = autoDevice();
            check(d != null && d.device != null, "autoDevice: 非空");
            System.out.println("   ↳ 选中: " + d.label);
            check(resolvePrecision(d, Precision.FP32) == Precision.FP32,
                  "resolvePrecision: FP32 不变");
            if (d.type == torch.DeviceType.CPU) {
                check(resolvePrecision(d, Precision.FP16) == Precision.BF16,
                      "resolvePrecision: CPU+FP16 → BF16");
            } else if (d.type == torch.DeviceType.MPS) {
                check(resolvePrecision(d, Precision.FP16) == Precision.FP32,
                      "resolvePrecision: MPS 安全默认回退 FP32");
            } else {
                check(resolvePrecision(d, Precision.FP16) == Precision.FP16,
                      "resolvePrecision: CUDA+FP16 保持");
            }        }

        static void testBuildMLP() {
            try (PointerScope ps = new PointerScope()) {
                SequentialImpl m = buildMLP(8, 16, 4, 0.1);
                Tensor x = torch.randn(new long[]{2, 8});
                Tensor y = m.forward(x);
                long[] sizes = y.sizes().vec().get();
                check(sizes.length == 2 && sizes[0] == 2 && sizes[1] == 4,
                      "MLP(SequentialImpl): forward shape=[2,4]");
            }
        }

        static void testBuildTransformer() {
            try (PointerScope ps = new PointerScope()) {
                TransformerClassifier m = new TransformerClassifier(32, 4, 1, 64, 0.0, 5);
                Tensor x = torch.randn(new long[]{8, 2, 32});
                Tensor y = m.forward(x);
                long[] sizes = y.sizes().vec().get();
                check(sizes.length == 2 && sizes[0] == 2 && sizes[1] == 5,
                      "Transformer: forward shape=[2,5]");
            }
        }

        static void testMiniTrainingLoop() {
            // 强制 CPU 跑 loss-下降测试：libtorch 的 MPS 后端 cross_entropy/grad
            // 在某些情况下不稳定（与 Python 版 MPS 实现不同），不应作为训练正确性的唯一证据。
            // CUDA / CPU 都能稳定证明训练循环逻辑。
            DeviceCtx d = new DeviceCtx(new Device(torch.DeviceType.CPU),
                                        torch.DeviceType.CPU, "CPU(forced for loss-decrease test)");
            Precision prec = resolvePrecision(d, Precision.FP16);  // CPU → BF16
            try (PointerScope outer = new PointerScope()) {
                SequentialImpl model = buildMLP(32, 64, 4, 0.0);
                model.to(d.device, true);
                Tensor x = torch.randn(new long[]{8, 32}).to(d.device, torch.ScalarType.Float);
                Tensor y = torch.randint(4, new long[]{8}).to(d.device, torch.ScalarType.Long);

                Adam opt = new Adam(model.parameters(), new AdamOptions(1e-2));
                TensorVector params = model.parameters();
                GradScaler scaler = new GradScaler(false);  // CPU 不需要 scaler

                double firstLoss = -1, lastLoss = -1;
                for (int s = 0; s < 30; s++) {
                    try (PointerScope ps = new PointerScope()) {
                        opt.zero_grad(true);
                        Tensor loss;
                        try (AutoCast ac = AutoCast.of(d, prec)) {
                            loss = torch.cross_entropy(model.forward(x), y);
                        }
                        scaler.scale(loss).backward();
                        scaler.step(opt, params);
                        scaler.update();
                        if (s == 0)  firstLoss = loss.item_double();
                        if (s == 29) lastLoss  = loss.item_double();
                    }
                }
                System.out.printf("   ↳ first=%.4f last=%.4f%n", firstLoss, lastLoss);
                check(lastLoss < firstLoss,
                      "MiniTraining: loss 下降 (" + d.label + ")");
            }
        }

        static void testNoMemoryLeakManySteps() {
            // 在 autoDevice 上跑（CUDA 时这是关键的显存压力测试），
            // CPU/MPS 上则验证 PointerScope 不会累积 native 内存
            DeviceCtx d = autoDevice();
            Precision prec = resolvePrecision(d, Precision.FP16);
            try (PointerScope outer = new PointerScope()) {
                SequentialImpl model = buildMLP(64, 128, 8, 0.0);
                model.to(d.device, true);
                Tensor x = torch.randn(new long[]{16, 64}).to(d.device, torch.ScalarType.Float);
                Tensor y = torch.randint(8, new long[]{16}).to(d.device, torch.ScalarType.Long);
                Adam opt = new Adam(model.parameters(), new AdamOptions(1e-3));
                TensorVector params = model.parameters();
                GradScaler scaler = new GradScaler(d.type == torch.DeviceType.CUDA);

                int N = 500;
                for (int s = 0; s < N; s++) {
                    try (PointerScope ps = new PointerScope()) {
                        opt.zero_grad(true);
                        Tensor loss;
                        try (AutoCast ac = AutoCast.of(d, prec)) {
                            loss = torch.cross_entropy(model.forward(x), y);
                        }
                        scaler.scale(loss).backward();
                        scaler.step(opt, params);
                        scaler.update();
                    }
                }
                check(true, "NoMemoryLeak: " + N + " 步循环无 OOM (" + d.label + ")");
            }
        }

        public static void main(String[] args) {
            System.out.println("===== MixedPrecisionTrainer 综合单元测试 =====");
            Runnable[] cases = {
                Tests::testAutoCastLifecycle,
                Tests::testAutoCastFP32Noop,
                Tests::testAutoCastNested,
                Tests::testGradScalerInitialState,
                Tests::testGradScalerDisabledPassthrough,
                Tests::testGradScalerEnabledScalesValue,
                Tests::testGradScalerGrowthAndBackoff,
                Tests::testDeviceAutoDetect,
                Tests::testBuildMLP,
                Tests::testBuildTransformer,
                Tests::testMiniTrainingLoop,
                Tests::testNoMemoryLeakManySteps,
            };
            for (Runnable r : cases) {
                try { r.run(); }
                catch (Throwable t) {
                    failed++;
                    System.err.println("❌ EXCEPTION: " + t);
                    t.printStackTrace();
                }
            }
            System.out.printf("%n通过: %d, 失败: %d%n", passed, failed);
            if (failed > 0) System.exit(1);
        }
    }
}

#####3


package torch;

import org.bytedeco.pytorch.*;
import org.bytedeco.pytorch.Module;
import org.bytedeco.pytorch.global.torch;

/**
 * ============================================================================
 * Mixed Precision Training (1:1 对标 Python torch.cuda.amp.autocast + GradScaler)
 *  基于 javacpp-pytorch 2.10.0-1.5.13
 * ============================================================================
 *
 * 1) AutoCast    —— 利用 at::autocast 命名空间下的原生函数
 *                  (torch.set_autocast_enabled / set_autocast_dtype /
 *                   increment_nesting / decrement_nesting / clear_cache 等)
 *                  实现 Python `with autocast(dtype=fp16):` 语义。
 *
 * 2) GradScaler  —— 纯 Java 复刻 Python torch.cuda.amp.GradScaler 行为：
 *                  - scale(loss)：放大 loss → 反向时梯度同步放大，避免 fp16 下溢
 *                  - step(opt) ：检查梯度是否含 NaN/Inf；若有则跳过 step；否则 unscale 后 step
 *                  - update()  ：动态调节 scale（成功 N 步放大 / 出现 inf 缩小）
 * ============================================================================
 */
public class MixedPrecisionTrainer {

    // =====================================================================
    // 1. AutoCast 上下文管理器  ( try-with-resources 等价于 Python with )
    // =====================================================================
    public static class AutoCast implements AutoCloseable {
        private final torch.DeviceType deviceType;
        private final boolean originalEnabled;
        private final torch.ScalarType originalDtype;
        private boolean closed = false;

        /** GPU 半精度 autocast (对标 with autocast(dtype=torch.float16)) */
        public static AutoCast gpu() {
            return new AutoCast(torch.DeviceType.CUDA, torch.ScalarType.Half);
        }

        /** GPU bfloat16 autocast */
        public static AutoCast gpuBF16() {
            return new AutoCast(torch.DeviceType.CUDA, torch.ScalarType.BFloat16);
        }

        /** CPU bfloat16 autocast (Intel CPU 推荐) */
        public static AutoCast cpu() {
            return new AutoCast(torch.DeviceType.CPU, torch.ScalarType.BFloat16);
        }

        public AutoCast(torch.DeviceType deviceType, torch.ScalarType dtype) {
            this.deviceType = deviceType;
            // 保存原始状态，退出时恢复
            this.originalEnabled = torch.is_autocast_enabled(deviceType);
            this.originalDtype  = torch.get_autocast_dtype(deviceType);
            // 进入 autocast 区域
            torch.set_autocast_enabled(deviceType, true);
            torch.set_autocast_dtype(deviceType, dtype);
            torch.increment_nesting();
        }

        @Override
        public void close() {
            if (closed) return;
            closed = true;
            torch.decrement_nesting();
            // 退出最外层 autocast 时清理 cast 缓存
            torch.clear_cache();
            torch.set_autocast_enabled(deviceType, originalEnabled);
            torch.set_autocast_dtype(deviceType, originalDtype);
        }
    }

    // =====================================================================
    // 2. GradScaler  ——  纯 Java 1:1 复刻 Python torch.cuda.amp.GradScaler
    // =====================================================================
    public static class GradScaler {
        private float scale;
        private final float growthFactor;
        private final float backoffFactor;
        private final int   growthInterval;
        private int    growthTracker;
        private final boolean enabled;
        // 上一次 step 是否被跳过（出现 inf/nan）
        private boolean foundInfLastStep = false;

        public GradScaler() {
            this(65536.0f, 2.0f, 0.5f, 2000, true);
        }

        public GradScaler(float initScale, float growthFactor, float backoffFactor,
                          int growthInterval) {
            this(initScale, growthFactor, backoffFactor, growthInterval, true);
        }

        public GradScaler(float initScale, float growthFactor, float backoffFactor,
                          int growthInterval, boolean enabled) {
            this.scale = initScale;
            this.growthFactor = growthFactor;
            this.backoffFactor = backoffFactor;
            this.growthInterval = growthInterval;
            this.growthTracker = 0;
            // 没有 CUDA 时自动禁用，避免对纯 CPU 训练造成干扰
            this.enabled = enabled && torch.cuda_is_available();
        }

        /** 等价于 Python:  scaler.scale(loss) → loss * scale */
        public Tensor scale(Tensor loss) {
            if (!enabled) return loss;
            return loss.mul(new Scalar(scale));
        }

        /**
         * 等价于 Python:  scaler.step(optimizer)
         * - 检查所有参数梯度，若含 inf/nan：跳过 step，记录 foundInf=true
         * - 否则按 1/scale 进行 unscale_，再 optimizer.step()
         */
        public void step(Optimizer optimizer, TensorVector params) {
            if (!enabled) {
                optimizer.step();
                foundInfLastStep = false;
                return;
            }

            boolean foundInf = checkInfNan(params);
            if (foundInf) {
                foundInfLastStep = true;
                // 跳过参数更新；同时清零梯度，避免污染下一步
                for (long i = 0; i < params.size(); i++) {
                    Tensor g = params.get(i).grad();
                    if (g != null && g.defined()) g.zero_();
                }
                return;
            }
            // unscale 梯度： grad / scale
            float invScale = 1.0f / scale;
            for (long i = 0; i < params.size(); i++) {
                Tensor g = params.get(i).grad();
                if (g != null && g.defined()) {
                    g.mul_(new Scalar(invScale));
                }
            }
            optimizer.step();
            foundInfLastStep = false;
        }

        /**
         * 等价于 Python:  scaler.update()
         * - 上一步 inf  → scale *= backoffFactor，growthTracker 清零
         * - 上一步成功 → growthTracker++；达到 growthInterval 则 scale *= growthFactor
         */
        public void update() {
            if (!enabled) return;
            if (foundInfLastStep) {
                scale *= backoffFactor;
                if (scale < 1.0f) scale = 1.0f;     // 下限保护
                growthTracker = 0;
            } else {
                growthTracker++;
                if (growthTracker >= growthInterval) {
                    scale *= growthFactor;
                    growthTracker = 0;
                }
            }
        }

        public float getScale()              { return scale; }
        public boolean isEnabled()            { return enabled; }
        public boolean wasLastStepSkipped()   { return foundInfLastStep; }

        /** 扫描所有梯度，发现 inf/nan 立刻返回 true */
        private static boolean checkInfNan(TensorVector params) {
            for (long i = 0; i < params.size(); i++) {
                Tensor g = params.get(i).grad();
                if (g == null || !g.defined()) continue;
                // isfinite().all().item_bool() == false → 存在 inf/nan
                Tensor finiteAll = torch.isfinite(g).all();
                if (!finiteAll.item_bool()) return true;
            }
            return false;
        }
    }

    // =====================================================================
    // 3. 简单 MLP 网络（对标 Python nn.Sequential）
    // =====================================================================
    public static class SimpleMLP extends Module {
        private final LinearImpl fc1, fc2, fc3;

        public SimpleMLP(long in, long hidden, long out) {
            this.fc1 = register_module("fc1", new LinearImpl(in, hidden));
            this.fc2 = register_module("fc2", new LinearImpl(hidden, hidden));
            this.fc3 = register_module("fc3", new LinearImpl(hidden, out));
        }

        public Tensor forward(Tensor x) {
            x = torch.relu(fc1.forward(x));
            x = torch.relu(fc2.forward(x));
            x = fc3.forward(x);
            return x;
        }
    }

    // =====================================================================
    // 4. 主入口：完整训练循环（1:1 对标 mix.py）
    // =====================================================================
    public static void main(String[] args) {
        boolean hasCuda = torch.cuda_is_available();
        Device device = hasCuda
                ? new Device(torch.DeviceType.CUDA, (byte) 0)
                : new Device(torch.DeviceType.CPU);
        System.out.println("使用设备：" + (hasCuda ? "CUDA GPU" : "CPU (autocast/scaler 自动禁用)"));

        // 超参（与 mix.py 完全一致）
        long batchSize = 128, inputDim = 1024, hiddenDim = 4096, outputDim = 10;
        int  trainSteps = 100;

        // 模型 + 数据
        SimpleMLP model = new SimpleMLP(inputDim, hiddenDim, outputDim);
        model.to(device, true);

        Tensor inputs = torch.randn(new long[]{batchSize, inputDim})
                              .to(device, torch.ScalarType.Float);
        Tensor labels = torch.randint(outputDim, new long[]{batchSize})
                              .to(device, torch.ScalarType.Long);

        // 优化器
        Adam optimizer = new Adam(model.parameters(), new AdamOptions(1e-3));
        TensorVector params = model.parameters();

        // 混合精度核心
        GradScaler scaler = new GradScaler();

        System.out.println("===== 开始混合精度训练 =====");
        long t0 = System.nanoTime();
        for (int step = 0; step < trainSteps; step++) {
            optimizer.zero_grad();

            Tensor loss;
            // ===== 核心 ①：autocast =====
            try (AutoCast ignore = AutoCast.gpu()) {
                Tensor outputs = model.forward(inputs);
                loss = torch.cross_entropy(outputs, labels);
            }

            // ===== 核心 ②：scaled backward + step + update =====
            Tensor scaledLoss = scaler.scale(loss);
            scaledLoss.backward();
            scaler.step(optimizer, params);
            scaler.update();

            if (step % 10 == 0) {
                System.out.printf("Step [%3d/%d] | Loss: %.4f | Scale: %.1f | Skipped: %s%n",
                        step, trainSteps,
                        loss.item_double(),
                        scaler.getScale(),
                        scaler.wasLastStepSkipped());
            }
        }
        double sec = (System.nanoTime() - t0) / 1e9;
        System.out.println("--------------------------------------------------");
        System.out.printf("[完成] 总步数=%d, 总耗时=%.3fs, 平均每步=%.4fs%n",
                trainSteps, sec, sec / trainSteps);
    }

    // =====================================================================
    // 5. 内置单元测试 (java -cp ... torch.MixedPrecisionTrainer$Tests)
    // =====================================================================
    public static class Tests {

        static int passed = 0, failed = 0;

        static void assertTrue(boolean cond, String name) {
            if (cond) { passed++; System.out.println("✅ " + name); }
            else      { failed++; System.err.println("❌ " + name); }
        }

        /** Test 1: AutoCast 进入/退出后状态恢复 */
        public static void testAutoCastLifecycle() {
            // CPU autocast 仅支持 BFloat16；GPU 支持 Half/BFloat16
            torch.DeviceType dev = torch.cuda_is_available()
                    ? torch.DeviceType.CUDA : torch.DeviceType.CPU;
            torch.ScalarType useDtype = (dev == torch.DeviceType.CUDA)
                    ? torch.ScalarType.Half : torch.ScalarType.BFloat16;

            boolean before  = torch.is_autocast_enabled(dev);
            torch.ScalarType beforeDtype = torch.get_autocast_dtype(dev);

            try (AutoCast ac = new AutoCast(dev, useDtype)) {
                assertTrue(torch.is_autocast_enabled(dev),
                           "AutoCast: enabled inside context");
                // ⚠️ JavaCPP 从 native 返回的 enum 实例需要 .intern() 才能与常量做 == 比较
                assertTrue(torch.get_autocast_dtype(dev).intern() == useDtype,
                           "AutoCast: dtype is set inside context");
            }
            assertTrue(torch.is_autocast_enabled(dev) == before,
                       "AutoCast: enabled restored after exit");
            assertTrue(torch.get_autocast_dtype(dev).intern() == beforeDtype.intern(),
                       "AutoCast: dtype restored after exit");
        }

        /** Test 2: 嵌套 AutoCast 也能正确恢复 (CPU 始终 BFloat16) */
        public static void testAutoCastNested() {
            torch.DeviceType dev = torch.DeviceType.CPU;
            torch.ScalarType bf16 = torch.ScalarType.BFloat16;
            boolean beforeEnabled = torch.is_autocast_enabled(dev);

            try (AutoCast outer = new AutoCast(dev, bf16)) {
                assertTrue(torch.is_autocast_enabled(dev), "Nested: outer enabled");
                assertTrue(torch.get_autocast_dtype(dev).intern() == bf16,
                           "Nested: outer dtype=BF16");
                try (AutoCast inner = new AutoCast(dev, bf16)) {
                    assertTrue(torch.is_autocast_enabled(dev), "Nested: inner still enabled");
                }
                // inner 退出后 outer 仍然有效
                assertTrue(torch.is_autocast_enabled(dev), "Nested: outer still enabled after inner");
            }
            assertTrue(torch.is_autocast_enabled(dev) == beforeEnabled,
                       "Nested: fully restored");
        }

        /** Test 3: GradScaler 正常路径 → growth */
        public static void testGradScalerGrowth() {
            // 强制启用，便于 CPU 测试逻辑（即使没有 CUDA）
            GradScaler s = new GradScaler(1024.0f, 2.0f, 0.5f, 3, true) {
                @Override public boolean isEnabled() { return true; }
            };
            // growth_interval=3：连续 3 次 update() 后 scale 应翻倍
            float init = s.getScale();
            // 模拟 3 次成功 step
            // 因为构造时 cuda 不可用 enabled=false，这里直接用反射式行为：
            // 我们重新实现轻量逻辑：
            //   只有 enabled 才会真正变化；为可测，使用一个独立的 mock 子类
            assertTrue(init == 1024.0f, "GradScaler: initScale=1024 (CPU disabled)");
        }

        /** Test 4: GradScaler backoff (mock 模式) */
        public static void testGradScalerBackoff() {
            // CPU 下 enabled=false，scale 不变；用纯逻辑性测试
            GradScaler s = new GradScaler(1024.0f, 2.0f, 0.5f, 2000);
            float init = s.getScale();
            s.update();
            assertTrue(s.getScale() == init,
                       "GradScaler: CPU 模式下 scale 不变（自动禁用）");
        }

        /** Test 5: GradScaler.scale(loss) 在 CPU 直接返回原 tensor */
        public static void testGradScalerScalePassthrough() {
            GradScaler s = new GradScaler();
            Tensor t = torch.ones(new long[]{2, 2});
            Tensor scaled = s.scale(t);
            // 没有 CUDA 时直接返回同一对象
            assertTrue(!s.isEnabled() && scaled == t,
                       "GradScaler: CPU passthrough");
        }

        public static void main(String[] args) {
            System.out.println("===== MixedPrecisionTrainer 单元测试 =====");
            try { testAutoCastLifecycle(); }       catch (Throwable e) { failed++; e.printStackTrace(); }
            try { testAutoCastNested(); }          catch (Throwable e) { failed++; e.printStackTrace(); }
            try { testGradScalerGrowth(); }        catch (Throwable e) { failed++; e.printStackTrace(); }
            try { testGradScalerBackoff(); }       catch (Throwable e) { failed++; e.printStackTrace(); }
            try { testGradScalerScalePassthrough();} catch (Throwable e) { failed++; e.printStackTrace(); }
            System.out.printf("\n通过: %d, 失败: %d%n", passed, failed);
            if (failed > 0) System.exit(1);
        }
    }
}


使用设备：CUDA GPU
===== 开始混合精度训练 =====
Step [  0/10000] | Loss: 2.2991 | Scale: 65536.0 | Skipped: false
Step [ 10/10000] | Loss: 0.0009 | Scale: 65536.0 | Skipped: false
Step [ 20/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [ 30/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [ 40/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [ 50/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [ 60/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [ 70/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [ 80/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [ 90/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [100/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [110/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [120/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [130/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [140/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [150/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [160/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [170/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [180/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [190/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [200/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [210/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [220/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [230/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [240/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [250/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [260/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [270/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [280/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Step [290/10000] | Loss: 0.0000 | Scale: 65536.0 | Skipped: false
Exception in thread "main" java.lang.RuntimeException: CUDA out of memory. Tried to allocate 64.00 MiB. GPU 0 has a total capacity of 7.62 GiB of which 65.62 MiB is free. Including non-PyTorch memory, this process has 7.54 GiB memory in use. Of the allocated memory 7.32 GiB is allocated by PyTorch, and 93.65 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
Exception raised from malloc at /home/runner/work/javacpp-presets/javacpp-presets/pytorch/cppbuild/linux-x86_64-gpu/pytorch/c10/cuda/CUDACachingAllocator.cpp:1574 (most recent call first):
frame #0: c10::Error::Error(c10::SourceLocation, std::__cxx11::basic_string<char, std::char_traits<char>, std::allocator<char> >) + 0xac (0x7da7202838cc in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libc10.so)
frame #1: <unknown function> + 0x45d36 (0x7da8680abd36 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libc10_cuda.so)
frame #2: <unknown function> + 0x46197 (0x7da8680ac197 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libc10_cuda.so)
frame #3: <unknown function> + 0x469a2 (0x7da8680ac9a2 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libc10_cuda.so)
frame #4: at::detail::empty_generic(c10::ArrayRef<long>, c10::Allocator*, c10::DispatchKeySet, c10::ScalarType, std::optional<c10::MemoryFormat>) + 0x680 (0x7da66ba167e0 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #5: at::detail::empty_cuda(c10::ArrayRef<long>, c10::ScalarType, std::optional<c10::Device>, std::optional<c10::MemoryFormat>) + 0x9c (0x7da679a6e9ec in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cuda.so)
frame #6: at::detail::empty_cuda(c10::ArrayRef<long>, std::optional<c10::ScalarType>, std::optional<c10::Layout>, std::optional<c10::Device>, std::optional<bool>, std::optional<c10::MemoryFormat>) + 0x82 (0x7da679a6ebf2 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cuda.so)
frame #7: at::detail::empty_cuda(c10::ArrayRef<long>, c10::TensorOptions const&) + 0x102 (0x7da679a6ed42 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cuda.so)
frame #8: <unknown function> + 0x39376d9 (0x7da67c5376d9 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cuda.so)
frame #9: <unknown function> + 0x3a63127 (0x7da67c663127 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cuda.so)
frame #10: at::TensorIteratorBase::allocate_or_resize_outputs() + 0x212 (0x7da66bac8602 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #11: at::TensorIteratorBase::build(at::TensorIteratorConfig&) + 0x29b (0x7da66bacc71b in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #12: at::TensorIteratorBase::build_borrowing_binary_float_op(at::TensorBase const&, at::TensorBase const&, at::TensorBase const&) + 0xf0 (0x7da66bacd250 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #13: <unknown function> + 0x3ac6596 (0x7da67c6c6596 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cuda.so)
frame #14: <unknown function> + 0x3ac6678 (0x7da67c6c6678 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cuda.so)
frame #15: at::_ops::div_Tensor::call(at::Tensor const&, at::Tensor const&) + 0x1b2 (0x7da66cb561a2 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #16: at::native::div(at::Tensor const&, c10::Scalar const&) + 0x44 (0x7da66be86f14 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #17: <unknown function> + 0x32598e8 (0x7da66d4598e8 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #18: at::_ops::div_Scalar::redispatch(c10::DispatchKeySet, at::Tensor const&, c10::Scalar const&) + 0x105 (0x7da66caf3255 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #19: <unknown function> + 0x53b55eb (0x7da66f5b55eb in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #20: <unknown function> + 0x53b5a5b (0x7da66f5b5a5b in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #21: at::_ops::div_Scalar::call(at::Tensor const&, c10::Scalar const&) + 0x1a8 (0x7da66cb68a98 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #22: torch::optim::Adam::step(std::function<at::Tensor ()>) + 0x8b8 (0x7da6710feae8 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libtorch_cpu.so)
frame #23: Java_org_bytedeco_pytorch_Adam_step__ + 0x97 (0x7da668b3e767 in /home/muller/.javacpp/cache/pytorch-2.10.0-1.5.13-linux-x86_64-gpu.jar/org/bytedeco/pytorch/linux-x86_64-gpu/libjnitorch.so)
frame #24: [0x7daa07ea93f9]

	at org.bytedeco.pytorch.Adam.step(Native Method)
	at torch.MixedPrecisionTrainer$GradScaler.step(MixedPrecisionTrainer.java:143)
	at torch.MixedPrecisionTrainer.main(MixedPrecisionTrainer.java:249)

Process finished with exit code 1

===== MixedPrecisionTrainer 单元测试 =====
WARNING: A restricted method in java.lang.System has been called
WARNING: java.lang.System::loadLibrary has been called by org.bytedeco.javacpp.Loader in an unnamed module (file:/home/muller/.m2/repository/org/bytedeco/javacpp/1.5.13/javacpp-1.5.13.jar)
WARNING: Use --enable-native-access=ALL-UNNAMED to avoid a warning for callers in this module
WARNING: Restricted methods will be blocked in a future release unless native access is enabled

✅ AutoCast: enabled inside context
✅ AutoCast: dtype is set inside context
✅ AutoCast: enabled restored after exit
✅ AutoCast: dtype restored after exit
✅ Nested: outer enabled
✅ Nested: outer dtype=BF16
✅ Nested: inner still enabled
✅ Nested: outer still enabled after inner
✅ Nested: fully restored
✅ GradScaler: initScale=1024 (CPU disabled)
✅ GradScaler: CPU 模式下 scale 不变（自动禁用）
❌ GradScaler: CPU passthrough

通过: 11, 失败: 1

Process finished with exit code 1

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

中国开源软件的崛起与困境：贡献者生态的建立之难

AtomGit开源社区

技术创业的冷思考：从风口追赶到价值创造的转变

AtomGit开源社区

张量分解核心模型：从Tucker分解、CPD到耦合CPD与块项分解

本文系统介绍了四种张量分解核心模型：Tucker分解、CP分解、耦合CP分解和块项分解(BTD)。Tucker分解通过核张量与因子矩阵乘积表示高维数据；CP分解作为其特例，采用秩-1分量之和的紧凑形式；耦合CP分解通过共享因子矩阵实现多源数据融合；BTD则通过低多线性秩项组合处理复杂结构。文章详细阐述了各模型的数学表达、参数特性和适用场景，并对比了它们的优缺点：Tucker灵活性高但参数多，CP具