Transformers如何处理表格数据？【VLDB2022教程】Transformer表格数据表示:模型和应用...

transformers

huggingface/transformers: 是一个基于 Python 的自然语言处理库，它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现，特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。

项目地址：https://gitcode.com/gh_mirrors/tra/transformers

免费下载资源

数据派THU

804人浏览 · 2022-10-13 17:00:56

数据派THU · 2022-10-13 17:00:56 发布

来源：专知
本文为教程介绍，建议阅读5分钟最近的研究工作通过开发表格数据的神经表示扩展了语言模型。

在过去的几年中，自然语言处理界见证了基于transformer的语言模型(LM)在自由文本的神经表示方面的进展。鉴于关系表中可用知识的重要性，最近的研究工作通过开发表格数据的神经表示扩展了语言模型。在本教程中，我们提出这些建议有两个主要目标。首先，我们向数据库观众介绍当前模型的潜力和局限性。其次，我们将演示从transformer体系结构中受益的大量数据应用程序。本教程旨在鼓励数据库研究人员参与并为这个新方向做出贡献，并为实践者提供一组用于涉及文本和表格数据的应用程序的新工具。

一些工作正在研究如何用神经模型表示表格数据，用于自然语言处理(NLP)和数据库(DB)的应用。这些模型支持有效的解决方案，超越了围绕一阶逻辑和SQL构建的传统声明性规范的限制。示例包括回答用自然语言表达的查询[16,19,31]，执行自然语言推理，如事实核查[7,18,35]，语义解析[36,37]，检索相关表[20,25,33]，理解表元数据[8,11,29]，数据集成[6,22]，数据到文本生成[32]和数据imputation[8,17]。由于这些应用程序既涉及结构化数据又涉及自然语言，因此它们构建在新的数据表示和架构之上，这些数据表示和架构超越了传统的DB方法。

https://vldb.org/2022/?program-schedule-tutorials

神经的方法。基于注意力机制的transformer模型已被成功用于开发预训练语言模型(LMs)，如BERT[9]、RoBERTa[24]。与传统技术相比，这些LMs在目标文本任务(如情感分析)中取得了惊人的效果，使NLP领域发生了革命性的变化[2,3]。然而，transformer已被证明能够超越文本，并已成功地用于视觉[10]和音频[14]数据。遵循这一趋势，transformer在开发表格数据表示方法方面开始受到欢迎。本教程关注渲染transformer架构的核心问题“数据结构感知”，并将设计选择和对大量下游任务的贡献联系起来。与会者可以了解根据目标应用程序使用transformer的不同方式。的例子。当采用基于transformer的方法时，选择范围从采用现有的预训练模型(从数百万表中创建)到从头开始构建解决方案。作为transformer架构的一个例子，请考虑图1。使用顶层管道创建语言模型(1)。例如，在BERT[9]中，通过自监督任务处理大量文档语料库，以创建模型，然后用于构建以文本为中心的应用程序。模型的创建是昂贵的，但是任何有在线Python笔记本的从业者都可以使用最终的模型。构建应用程序最流行的方法是使用少量的特定示例(例如，文档分类或情感分析)对这种模型进行微调。这在底层管道(2)中得到了描述。从文本数据转移到表格数据，一些方法使用了一个表的语料库来创建一个预先训练的模型，它“理解”表格格式(1)。目标应用程序现在可以使用这个模型来处理下游任务(2)。在(1)和(2)中，表首先被序列化并连接到其内容，以将其作为输入提供给变压器。例如，在(1)中，训练数据可以是从维基百科中提取的大量表的语料库。(2)是使用预训练的模型直接回答用自然语言对给定表表示的查询。示例的输入是一个表，以及它的标题“以百万计的国家人口”作为上下文，以及关于法国人口的问题。期望的输出是给定表中突出显示的单元格。当预训练模型不足以满足任务时，可以用少量示例进行微调(2)。在某些情况下，模型是从头开始进行预训练的(1)，以利用对典型transformer架构的新扩展，以考虑表格结构，这与传统的自由文本不同，有时更丰富。

GitHub 加速计划 / tra / transformers

下载

最近提交(Master分支：4 个月前 )

94fe0b91 * Improved Documentation Of Audio Classification * Updated documentation as per review * Updated audio_classification.md * Update audio_classification.md 1 天前

c96cc039 * Improve modular transformers documentation - Adds hints to general contribution guides - Lists which utils scripts are available to generate single-files from modular files and check their content * Show commands in copyable code cells --------- Co-authored-by: Joel Koch <joel@bitcrowd.net> 1 天前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m