From: https://twitter.com/akshay_pachaar/status/1751583417463124020
典型的 Dataset 类,如:
tabular data
表格数据(tabular data),以 lris 数据集为例:
text data
NLP 中,往往将 text 划分为多个小的 pieces,即 tokens,一般是 words 或 subwords.
将 raw text 转换为 embedding(vectors) 生成器可以使用的格式,是一个必要的初始化步骤.
image data
看下图片数据集的格式,
其对应的 Dataset Class 如,