在进行模型训练前,要对采集到的数据进行预处理。数据按其表现形式可分为高维数据、图像数据和文件数据。
所谓高维数据,指的是有多个特征值的数据。比如股票行情数据,如果用到一个股票的日内开盘价、最高价、最低价和收盘价。一天就包含有四个特征值。被预测变量如果是连续的数值,那这就是个数值回归计算问题;如果是离散的,那它就是分类问题。在建立模型时,回归问题的数据一般用浮点数来表示;而分类问题的数据一般用无符号整型数表示。
图像文件一般是二进制文件格式存储,我们读取它的信息,处理成灰度信息(x,x,x),再将每个像素的x值规定在0~1之间。在N*N的数组中保存x的值(x的范围在0~1之间)
文本数据多为txt格式文件,要进行分析,是不能直接使用。必须将文本信息向量化。文本数据向量化,一般是(Lable:word)标签对应字词。标签可以是字词出现的频率,代表城市,代表姓名,代表食物等等。总之可根据要分析的信息来设置标签的类型。
桂ICP备11003301号-1 公安备案号:45040302000027 Copyright @ 2021- 2022 By Sun zi chao
阅读统计: 1.93W 文章数量: 76 运行天数: 416天 返回cmnsoft
● Pytorch与深度学习-01.预处理数据类型
● Pytorch与深度学习-02.回归预测
● Pytorch与深度学习-03.图片处理方法