博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
理解数据集
阅读量:5334 次
发布时间:2019-06-15

本文共 641 字,大约阅读时间需要 2 分钟。

数据集通常是长方形数据矩阵,行代表一个观察值,列代表一个变量,下表提供了一个假想的病人数据集

不同的规则有不同的数据集行列名称。数据统计把它们成为一个观察值和变量,数据库分析员把它们成为一条记录和域,数据挖掘和机器学习把它们成为一个样例和属性。我们将会在本书中用一个观察值和变量这个术语。

你可以分清数据结构(本例中的长方形数组)和包含数据类型的数据内容。在上表所示的数据集中,PatientID是一个行,或者是一个标识符。AdmDate是一个日期变量,Age是一个连续型变量,Diabetes是一个记号变量,Status是一个序级变量。

R语言有很多结构来存储数据,包括标量,向量,数组,数据框架和线性表。上表在R语言里相当于一个数据框架。这个结构的差异给R语言在处理数据时提供了大量的灵活性。

R语言可以处理的数据类型或者模式,包含数字型,字符型,逻辑型(TRUE或FALSE),复数(虚数)和行(字节)。在R语言中,PatientID,AdmDate和Age是数字变量,反之,Diabetes和Status是字符型变量。另外你需要分别告诉R语言PatientID是一个主标识符,AdmDate包含日期,Diabetes和Status是一个名义和序级变量。

R语言把主标识符称作行名称,把分类变量(名义变量和序级变量)称作因素。我们会在下一个章节讲这些。你会在第三章学到日期变量。

转载于:https://www.cnblogs.com/sweng/p/5673118.html

你可能感兴趣的文章
IOS开发学习笔记026-UITableView的使用
查看>>
[转载]电脑小绝技
查看>>
windos系统定时执行批处理文件(bat文件)
查看>>
thinkphp如何实现伪静态
查看>>
BZOJ 2243: [SDOI2011]染色( 树链剖分 )
查看>>
BZOJ 1925: [Sdoi2010]地精部落( dp )
查看>>
c++中的string常用函数用法总结!
查看>>
界面交互之支付宝生活圈pk微信朋友圈
查看>>
[DLX精确覆盖+打表] hdu 2518 Dominoes
查看>>
SuperMap iServerJava 6R扩展领域开发及压力测试---判断点在那个面内(1)
查看>>
Week03-面向对象入门
查看>>
一个控制台程序,模拟机器人对话
查看>>
web.xml 中加载顺序
查看>>
pycharm激活地址
查看>>
hdu 1207 四柱汉诺塔
查看>>
Vue 2.x + Webpack 3.x + Nodejs 多页面项目框架(上篇——纯前端多页面)
查看>>
display:none与visible:hidden的区别
查看>>
我的PHP学习之路
查看>>
【题解】luogu p2340 奶牛会展
查看>>
对PostgreSQL的 SPI_prepare 的理解。
查看>>