python将labelImg标注的xml文件批量转为csv文件

labelImg

🎉 超级实用！LabelImg，图像标注神器，现在加入Label Studio社区，享受多模态数据标注新体验！🚀 简单易用，支持XML、YOLO和CreateML格式，适用于ImageNet等项目。不再单独维护，立即尝试Label Studio，安装一键到位，更灵活，功能更强大！👇 安装即刻开始：pip3 install labelImg，或访问<https://github.com/heartexlabs/label-studio> 获取源码构建。一起探索数据标注的新边界！👨‍💻👩‍💻【此简介由AI生成】

项目地址：https://gitcode.com/gh_mirrors/la/labelImg

免费下载资源

深度学习菜鸟

1196人浏览 · 2020-10-23 10:55:40

深度学习菜鸟 · 2020-10-23 10:55:40 发布

labelImg标注好的xml文件及文件内容格式如下：
在这里插入图片描述

批量转换
创建xml2csv.py文件，文件内容如下：

# -*- coding:utf-8 -*-

import os
import glob
import pandas as pd
import xml.etree.ElementTree as ET
import random

def xml_to_csv(path):
    xml_list = []
    xml_list_test = []
    # 设置训练集所占比例
    rate = 0.8
    i = 0
    img_file = glob.glob(path + '/*.xml')
    random.shuffle(img_file)
    for xml_file in img_file:
        i = i + 1
        num_of_train = int(len(glob.glob(path + '/*.xml')) * rate)
        tree = ET.parse(xml_file)
        root = tree.getroot()
        if i <= num_of_train:
            for member in root.findall('object'):
                value = (root.find('filename').text,
                         int(root.find('size')[0].text),
                         int(root.find('size')[1].text),
                         member[0].text,
                         int(member[4][0].text),
                         int(member[4][1].text),
                         int(member[4][2].text),
                         int(member[4][3].text)
                         )
                xml_list.append(value)
            # print(xml_list)
        else:
            for member in root.findall('object'):
                value = (root.find('filename').text,
                         int(root.find('size')[0].text),
                         int(root.find('size')[1].text),
                         member[0].text,
                         int(member[4][0].text),
                         int(member[4][1].text),
                         int(member[4][2].text),
                         int(member[4][3].text)
                         )
                xml_list_test.append(value)
            # print(xml_list_test)
    column_name = ['filename', 'width', 'height', 'class', 'xmin', 'ymin', 'xmax', 'ymax']
    xml_df = pd.DataFrame(xml_list, columns=column_name)
    xml_df_test = pd.DataFrame(xml_list_test, columns=column_name)
    return xml_df, xml_df_test

def main():
    # xml文件的存储地址，根据自己xml存储路径进行调整
    image_path = os.path.join('E:/回字四点数据/test', 'jpg')
    # csv文件保存位置，自行调整
    # 训练集
    csv_save_path = 'E:/test/data/train_labels.csv'
    # 测试集
    csv_save_path_test = 'E:/test/data/test_labels.csv'

    xml_df, xml_df_test = xml_to_csv(image_path)
    xml_df.to_csv(csv_save_path, index=None)
    xml_df_test.to_csv(csv_save_path_test, index=None)
    print('Successfully converted xml to csv.')
main()

转换成的csv文件内容如下：
在这里插入图片描述
注意： 由于我用的labelImg版本标注好的xml文件filename属性图片名无后缀.jpg，可以看到转换成的csv文件中第一列filename都是无后缀.jpg的。

python修改csv文件某一列统一加后缀
创建modify_csv.py文件，内容如下：

# -*- coding:utf-8 -*-

import numpy as np
import pandas as pd

train_filename = pd.read_csv("train_labels.csv")    # csv文件
# 对csv文件中的filename一列的数据加上后缀.jpg
train_filename['filename'] = train_filename['filename'].apply(lambda x:str(int(x))+'.jpg')
train_filename.to_csv("train_labels_new.csv", index=None)

test_filename = pd.read_csv("test_labels.csv")
test_filename['filename'] = test_filename['filename'].apply(lambda x:str(int(x))+'.jpg')
test_filename.to_csv("test_labels_new.csv", index=None)

对filename一列统一加后缀后的csv文件如下：
在这里插入图片描述

GitHub 加速计划 / la / labelImg

22.31 K

6.24 K

下载

最近提交(Master分支：2 个月前 )

b33f965b Adds information about Label Studio community to welcome LabelImg users 2 年前

2d5537ba 2 年前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m