前言

CSV文件通常是指逗号分隔值(Comma-Separated Values)文件,是一种常见的电子表格文件格式。其基本格式是一行代表一条记录,每个字段之间用逗号进行分隔,通常使用纯文本文件存储。

在实际开发中,CSV文件被广泛应用于数据交换、数据导入导出等方面。例如,我们可以使用CSV文件导出数据库中的数据,将数据共享给其他系统,或者从其他系统中导入数据到数据库中。

由于CSV文件的格式简单且易于阅读,且不需要使用特殊的软件即可打开,可以用txt软件打开也可以使用Excel软件打开,因此在实际应用中非常方便。但是,当CSV文件的数据量较大时,手动进行处理就会变得非常繁琐。这时候,使用CSV工具类就变得非常必要了。

CSV工具类可以帮助我们简化CSV文件的读写操作,提高开发效率。在Java中,常用的CSV工具类有org.apache.commons.csv和Hutool等。使用这些工具类,我们可以轻松地生成CSV文件、读取CSV文件中的数据,并进行相应的操作。因此,了解并使用CSV工具类对于Java开发者来说是非常有必要的。

如下为一个CSV文件的样例:

Name,Age
Tom,18
Jack,20
Lucy,22

在Java中有许多办法生成和解析CSV文件的工具类,例如:apache下的Commons和Hutool,现将使用上述两种工具类生成和解析CSV文件总结下来。

commons与Hutool处理CSV

apache.commons下提供了CSVFormat用来设置CSV格式,如分隔符、换行符,编码等;CSVParser类用于解析CSV文件,CSVParser类提供了parse方法,可以解析CSV文件并返回一个CSVRecord对象的迭代器,CSVRecord对象代表了一行记录;CSVPrinter类用于生成CSV文件,CSVPrinter类提供了printRecord方法,可以将CSVRecord对象输出到CSV文件中;CSVRecord类代表了一行记录,可以通过get方法获取每一列的值。

Hutool下提供了CsvConfig类定义CSV文件格式,使用CsvWriteConfig类和CsvReadeConfig分别设置写和读CSV文件格式提供了CsvUtil工具类,可以帮助开发者方便地生成CSV文件。提供了CsvWriter和CsvReader来进行生成CSV文件和CSV文件读取。

生成和解析CSV文件主要有以下几点需要注意:

  1. 数据分割符

    一般情况下使用英文状态下的逗号作为分隔符,但是可以进行更换,例如使用英文状态下的竖线作为分隔符或者更复杂,因为CSV分隔符没有统一的标准,默认为逗号。

  2. 文件编码

    生成和读取CSV文件时都需要关注好文件编码,不然当使用CSV文件时可能因为文件编码问题出问题

  3. 换行符

    因为Windows系操作系统和Linux系的操作系统系统的换行符不一样,而换行符作为一条数据的结束新数据的开始从而有很重要的作用

  4. 是否需要CSV表头

    表头的意思是设置每个数据的含义,例如上面的Name,age。如果生成的CSV文件会被其它系统使用,则需要告知是否需要生成表头。

  5. 注释符号和文本包装符

    在CSV文件中默认使用#作为注释的开始,使用双引号作为文本包装符

使用Hutool生成和解析CSV文件

使用Hutool生成CSV文件

Hutool下的CsvWriter默认使用逗号作为数据分割符,使用‘/r/n’也即CRLF作为换行符,使用‘#’号作为注释的开始使用双引号作为文本包装符,默认使用UTF-8生成CSV文件;

  1. Hutool生成CSV文件配置

    使用CsvWriteConfig进行设置,CsvWriteConfig类继承自CsvConfig,扩展了一些方法,通过添加一个setCsvWriterConfig方法,当默认CSV默认配置不足以满足需要时可以进行设置,代码如下:

    /**
     * 设置Csv写文件配置
     * @return CsvWriteConfig
     */
    public static CsvWriteConfig setCsvWriterConfig(){
        CsvWriteConfig csvWriteConfig = new CsvWriteConfig();
        //设置 文本分隔符,文本包装符,默认双引号'"'
        // csvWriteConfig.setTextDelimiter('\t');
        // 字段分割符号,默认为逗号
        csvWriteConfig.setFieldSeparator('|');
        // 设置注释符号
        // csvWriteConfig.setCommentCharacter('#');
        // 设置是否始终使用文本分隔符,文本包装符,默认false
        // csvWriteConfig.setAlwaysDelimitText(true);
        // 换行符默认为CharUtil.CR, CharUtil.LF
        // csvWriteConfig.setLineDelimiter(lineDelimiter);
        // 设置标题行的别名,如果不设置则表头为id,name,gender
        Map<String, String> headerAlias = new LinkedHashMap<>();
        headerAlias.put("id", "序号");
        headerAlias.put("name", "姓名");
        headerAlias.put("gender", "性别");
        csvWriteConfig.setHeaderAlias(headerAlias);
        return csvWriteConfig;
    }
    
  2. 生成CSV文件

    先添加一个User对象,将User对象写入到CSV, 生成CSV文件的方式很多,可以使用不使用上面的配置使用默认配置写入CSV文件,也可以自定义配置同时使用英文状态下的竖线作为数据分割符生成CSV文件。

    User对象代码如下:

    /**
     * 用户
     * @author zlc
     */
    @Data
    @NoArgsConstructor
    @AllArgsConstructor
    @Builder
    public class User implements Serializable {
    
        /**
         * id
         */
        private Integer id;
    
        /**
         * 姓名
         */
        private String name;
    
        /**
         * 性别
         */
        private String gender;
    }
    

    添加生成User列表方法用于提供数据来源,代码如下:

    /**
     * 生成User列表
     * @return List<User>
     */
    public static List<User> generateUserList(){
        List<User> dataList = new ArrayList<>();
        dataList.add(new User(1, "张三", "男"));
        dataList.add(new User(2, "李四", "女"));
        dataList.add(new User(3, "王五", "男"));
        dataList.add(new User(4, "", "男"));
        dataList.add(new User(5, "王五", null));
        dataList.add(new User(3, null, "男"));
        return dataList;
    }
    

    使用自定义CSV配置生成CSV文件,代码如下:

    /**
     * 使用自定CSV配置生成CSV文件
     * @param users 数据来源
     * @param config CSV写文件配置
     */
    public static void generateCsvWithConfig(List<User> users, CsvWriteConfig config){
        // 可以通过设置FileWriter的编码来控制输出文件的编码格式
        // FileWriter fileWriter = new FileWriter("hutoolCsv.csv", StandardCharsets.UTF_8);
        try(FileWriter fileWriter = new FileWriter("hutoolCsv.csv");
            CsvWriter csvWriter = CsvUtil.getWriter(fileWriter, config)){
            csvWriter.writeBeans(users);
            csvWriter.flush();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    

    使用默认配置配置生成CSV文件,代码如下:

    /**
     *  使用默认配置生成CSV文件
     * @param users 数据来源
     */
    public static void generateCsvWithDefault(List<User> users){
        // 构造,覆盖已有文件(如果存在),默认编码UTF-8
        File hutoolCsv = new File("hutoolCsv1.csv");
        CsvWriter writer = new CsvWriter(hutoolCsv);
        // 设置编码
        // CsvWriter writer = new CsvWriter(hutoolCsv, StandardCharsets.UTF_8);
        writer.writeBeans(users);
        writer.flush();
        writer.close();
    }
    
  3. 调用方法生成CSV文件

    使用自定义方法生成CSV文件如下:
    在这里插入图片描述
    使用默认配置生成的CSV文件如下:
    在这里插入图片描述

  4. 注意

这里需要注意的是,如果分隔符使用竖线,当用Excel打开时是无法准确识别的,因为Excel默认的分隔符为逗号,同时CSV文件编码为UTF-8时,Excel打开后有可能会乱码,因为Excel的默认编码格式时跟随系统的。

使用HuTool解析CSV文件

借助上面生成的CSV文件,通过使用Hutool中提供的CsvReader来解析Csv文件并将数据转换为User对象。

  1. Csv读取配置

    使用CsvReadConfig进行设置,CsvReadConfig类也继承自CsvConfig,扩展了一些方法,通过添加一个setCsvReadConfig方法,当默认CSV默认配置不足以满足需要时可以进行读取设置,CSV读取配置相比于写配置多了一些例如是否包含首行以及跳过空白行等设置,代码如下:

    /**
     * 设置Csv读文件配置
     * @return CsvWriteConfig
     */
    public static CsvReadConfig setCsvReadConfig(){
        CsvReadConfig csvReadConfig = new CsvReadConfig();
        // 设置 文本分隔符,文本包装符,默认双引号'"'
        //csvReadConfig.setTextDelimiter('\t');
        // 字段分割符号,默认为逗号
        csvReadConfig.setFieldSeparator('|');
        // 设置注释符号
        // csvReadConfig.setCommentCharacter('#');
        // CSV文件是否包含表头(因为表头不是数据内容)
        csvReadConfig.setContainsHeader(true);
        // 或者使用如下配置设置表头开始行号,-1L代表无表头
        // csvReadConfig.setHeaderLineNo(1L);
        //设置开始的行(包括),默认0,此处为原始文件行号
        // csvReadConfig.setBeginLineNo(0);
        // 是否跳过空白行,默认为true
        // csvReadConfig.setSkipEmptyRows(true);
        // 设置每行字段个数不同时是否抛出异常,默认false
        // csvReadConfig.setErrorOnDifferentFieldCount(false);
        // 将表头的别称对转换为对应的字段
        Map<String, String> headerAlias = new LinkedHashMap<>();
        headerAlias.put("序号", "id");
        headerAlias.put("姓名", "name");
        headerAlias.put("性别", "gender");
        csvReadConfig.setHeaderAlias(headerAlias);
        return csvReadConfig;
    }
    
  2. 读取CSV文件

    使用自定义配置读取CSV文件,代码如下:

    /**
     * 使用自定义配置读取Csv文件返回User对象
     * @param config Csv读取配置
     * @return List<User>
     */
    public static List<User> readCsvWithConfig(CsvReadConfig config){
        List<User> users = new ArrayList<>();
        try(FileReader fileReader = new FileReader("hutoolCsv.csv");
            CsvReader csvReader = CsvUtil.getReader(fileReader, config)){
            // csvReader 读一遍流就没有了,没有办法读第二遍
            // csvReader.forEach(System.out::println);
            // 遍历 CSV 数据行,将每一行数据转换为 User 对象
            csvReader.read().getRows().forEach(csvRow -> {
                System.out.println(csvRow.toString());
                Integer id = Integer.valueOf(csvRow.get(0));
                String name = csvRow.get(1);
                String gender = csvRow.get(2);
                User user = new User(id, name, gender);
                users.add(user);
            });
            users.forEach(System.out::println);
        }catch (IOException e){
            e.printStackTrace();
        }
        return users;
    }
    

    使用默认配置读取CSV文件,代码如下:

    /**
     * 使用默认配置读取CSV文件
     * @return List<User>
     */
    public static List<User> readCsvWithDefault(){
        List<User> users = new ArrayList<>();
        File hutoolCsv = new File("hutoolCsv1.csv");
        CsvReader reader = new CsvReader(hutoolCsv, new CsvReadConfig());
        reader.setContainsHeader(true);
        reader.stream().forEach(csvRow -> {
            System.out.println(csvRow.toString());
            Integer id = Integer.valueOf(csvRow.get(0));
            String name = csvRow.get(1);
            String gender = csvRow.get(2);
            User user = new User(id, name, gender);
            users.add(user);
        });
        users.forEach(System.out::println);
        return users;
    }
    

    CsvReader也包含了一个setContainsHeader来跳过行首,不然在进行将数据转换为User对象时会出现行首无法转换出现异常。

  3. 检查读取CSV文件

    单元测试代码如下:

    @Test
    void testHutoolReadCsv(){
        // 使用自定义配置读取CSV文件
        List<User> users =  HutooCsvUtil.readCsvWithConfig(HutooCsvUtil.setCsvReadConfig());
        assertEquals(6, users.size());
        // 使用默认配置读取CSV文件
        List<User> users1 = HutooCsvUtil.readCsvWithDefault();
        assertEquals(6, users1.size());
    }
    

    程序运行过程中打印如下:

    CsvRow{originalLineNumber=1, fields={id=1, name=张三, gender=}}
    CsvRow{originalLineNumber=2, fields={id=2, name=李四, gender=}}
    CsvRow{originalLineNumber=3, fields={id=3, name=王五, gender=}}
    CsvRow{originalLineNumber=4, fields={id=4, name=, gender=}}
    CsvRow{originalLineNumber=5, fields={id=5, name=王五, gender=}}
    CsvRow{originalLineNumber=6, fields={id=6, name=, gender=}}
    User(id=1, name=张三, gender=)
    User(id=2, name=李四, gender=)
    User(id=3, name=王五, gender=)
    User(id=4, name=, gender=)
    User(id=5, name=王五, gender=)
    User(id=6, name=, gender=)
    =========================
    CsvRow{originalLineNumber=1, fields={id=1, name=张三, gender=}}
    CsvRow{originalLineNumber=2, fields={id=2, name=李四, gender=}}
    CsvRow{originalLineNumber=3, fields={id=3, name=王五, gender=}}
    CsvRow{originalLineNumber=4, fields={id=4, name=, gender=}}
    CsvRow{originalLineNumber=5, fields={id=5, name=王五, gender=}}
    CsvRow{originalLineNumber=6, fields={id=3, name=, gender=}}
    User(id=1, name=张三, gender=)
    User(id=2, name=李四, gender=)
    User(id=3, name=王五, gender=)
    User(id=4, name=, gender=)
    User(id=5, name=王五, gender=)
    User(id=3, name=, gender=)
    

总结

使用Hutool提供的工具类可以很方便的进行CSV文件的生成和读取,除了 Hutool 工具类,Java 还提供了 Apache Commons CSV 库用于生成和解析 CSV 文件。在使用 Apache Commons CSV 库时,可以使用 CSVFormat 类定义 CSV 文件的格式,并使用 CSVParser 类和 CSVPrinter 类进行 CSV 数据的解析和生成。下篇将完成使用Apache Commons CSV生成和解析CSV。

本文首发于香菜喵,打开微信随时随地读,文章下方 ↓ ↓ ↓

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐