From: https://twitter.com/akshay_pachaar/status/1751583417463124020

典型的 Dataset 类,如:

tabular data

表格数据(tabular data),以 lris 数据集为例:

text data

NLP 中,往往将 text 划分为多个小的 pieces,即 tokens,一般是 words 或 subwords.

将 raw text 转换为 embedding(vectors) 生成器可以使用的格式,是一个必要的初始化步骤.

image data

看下图片数据集的格式,

其对应的 Dataset Class 如,

Last modification:January 29th, 2024 at 01:30 pm