rfid是什么意思(关于数据采集)
如果有更好的建议或者想看更多关于综合百科技术大全及相关资讯,可以多多关注茶馆百科网。

导读:通过上一期《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系》系列,我们了解了企业商务活动中几种流行的数据存储方式的区别和联系。用& quot锅碗瓢盆& quot,我们想做出美味的& quot大餐& quot,而且食材也是不可或缺的,所以需要收集数据。
一,数据采集是数据分析挖掘的根基:数据收集的必要性
数据分析和挖掘过程中一个比较基础和重要的环节是数据采集、特征选择和建模算法。没有高质量的元数据,巧妇难为无米之炊。
采集的数据决定了数据分析挖掘的上限:
经验告诉我们如何从历史数据的呈现和分析中获取有用的知识,无论你是通过报表或者多维分析得到企业各领域指标的相关性,还是通过挖掘模型的实现根据历史数据预测企业未来的发展,都是基于企业的历史数据。没有数据质量基础的保证,趋势图再怎么华丽,都是垃圾。
如下图所示,garbagein,garbageout (garbage in,garbageout)的意思是,如果将错误的、无意义的数据输入计算机系统,计算机自然会输出错误的、无意义的结果。(这句谚语同样适用于数据分析领域。)
垃圾入垃圾出
二、数据采集方式数据采集方式按线上采集和线下采集分类。下面简单介绍一下每种采集方式及相关技术。
1.在线收集1)开放数据。
开放数据是指互联网上对所有人开放的数据,包括对特定行业开放的数据、对各级政府开放的数据以及网页中的相关内容数据。比如,下图是北京公共数据开放平台。
为了获取开放数据,我们可以使用爬虫技术。下面简单介绍一下爬虫技术。
爬虫技术(Crawler technology)是一种使开发者能够自动、系统地收集互联网上相关数据的技术。爬虫不是内容的生产者,而是内容的载体。各种关于爬虫技术的学习资料可以说是& quot满头大汗& quot网上的,所以这里就不说了,这里要说的爬虫就是爬虫的安全性。一定要遵守相关法律,切记不要触碰红线。
A.个人信息、商业秘密、国家秘密是数据抓取的红线。
b遵守职业道德,控制爬虫访问频率,不干扰被爬虫方的正常业务活动。
C.遵守机器人协议,能爬什么不能爬什么。
2)第三方平台数据
比如开发者想要获取各种相关的财务数据。除了使用爬虫技术,我们还可以通过第三方平台提供的API接口来检索相关数据。比如下图是Toshare大数据开放平台,开发者可以获取各类金融数据。
笔者接到了这样一个任务,获取某城市所有禁止机动车左转、右转、掉头的路段。在没有条件获取准确数据的情况下,可以通过高德的API接口或者百度的地图开放平台,在路口设置起止点,通过对比机动车和行人的路径规划距离,分析路口是否禁止左转、右转和调头。下图是百度的开放平台,在这里我们可以通过API接口完成各种数据。
相应的功能有相应的服务文档来说明如何使用。有兴趣可以打开网站试试。
3)物理数据
物理数据是指用户在物理世界中产生的数据,如用户使用手机时手机的各种传感器(指纹传感器:记录用户的指纹用于手机解锁或支付,陀螺仪:通过角动量守恒原理记录角速度用于手机导航等行为)。
与日常应用相比,实物数据大量存在于传统制造业中,一般有以下几类数据收集方法:
各类传感器:
如上所述,手机中的传感器有很多种,包括光敏、气敏、力敏、磁敏、声敏等工业传感器。虽然单个数据的内容很少,但是这部分数据出现的频率很高。
RFID技术:
Rfid(射频识别)技术是一种非接触式自动识别技术,通过射频信号自动识别目标物体,并获取相关数据信息。射频用于非接触双向通信,达到识别和交换数据的目的。
RFID技术可以同时识别高速移动的物体和多个标签,操作快捷方便。如下图所示,我们可以看到ISO/IEC14443-3(TypeA),这是目前的电子标签协议。目前大部分的公交卡、一卡通、门禁卡都是基于{\\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f309 \\ f30941 \\ f30888809 \u下面是电子标签的详细信息,如果结合专业阅读器和特定软件,可读性会更好。我只是想让你看看这里。
由于设备品牌多样,生产厂家不同,数据接口不同,有可能一套生产线设备来自几个国家,数据采集一直是传统制造业的痛点。
4)APP数据
>我们日常生活中,在各类App,Web端应用,小程序上的操作行为称为事件,例如打开某个电商App→浏览某个商品→查看商品信息,评论→放入购物车→下单→支付→查看物流信息→确认收货→对商品进行评价。当事件被触发时,我们想进行监控,那么只需要研发为事件植入监控代码,这样每当事件触发时,后台就可以采集该事件的相关信息,上传到服务器。
关于数据埋点,是互联网业务中比较重要的一部分,由于篇幅所限,这里简单的介绍一下,这里笔者现挖个坑,后续会专门出一个系列,详细与读者对数据埋点进行探讨与交流。一般来说,埋点类型分为Web埋点和App埋点,其中主要的埋点技术又分为有埋点技术,无埋点技术,可视化埋点等。
有埋点技术:开发手动在程序中写代码实现埋点,通过用户触发某个行为后,程序自动发送数据;无埋点技术:前端自动采集全部事件,当事件触发时就会调用相关接口上报数据,流量与采集数量教育庞大。可视化埋点:近年主流的埋点趋势,以前端可视化的方式,通过可视化的界面拖拽配置实现,由于活动控件元素都带有唯一标识。通过埋点配置后台,将元素与要采集事件关联起来,可以自动生成埋点代码嵌入到页面中。关于线下采集数据,笔者认为更倾向于主观性数据的采集,因为定量,客观的数据公共场所面对面的线下采集,易使被采集者产生戒备感,非常容易造成数据采集准确程度非常差,影响数据质量,比如:笔者读书时参与过线下的数据采集,某市交通规划部门在火车站,地铁换乘站等交通枢纽随访乘客去填写出行调查问卷,尽管问卷设计的如何规范与精良,在填写完成后进行奖励等方法,乘客填写接受程度依旧很低。
所以后期此种采集方式也在调整改革,例如:定量,客观数据采用线上收集,通过与三大运营商合作,利用手机信令与基站的关系精确获得乘客们的出行记录。
另外,同学们经常在商场,超市看到各类银行宣传办信用卡的活动点,在现场填写资料,办理信用卡都可以获得礼品奖励,但是尽管如此通过观察行人接受程度较差,笔者的学校/公司食堂也举办过类似的活动,但对比之下填写调查问卷的意愿更为强烈。
线下采集数据的方式有很多种,例如:问卷调查,用户访谈,实地调研,焦点小组,用户反馈等等,接下来选取几个常用的方式进行介绍。
1)问卷调查
问卷调查是目前广泛采用的调查形式,根据调研目的设计问卷,并采用抽样方式确定调查样本,完成调查。问卷调查的步骤一般为:确定用户及样本量(根据调查目标选择符合特征的用户,尽可能多的涵盖符合目标的各类人群)——设计调查问卷框架——发放问卷(试调研/正式调研)——汇总数据,撰写报告
2)用户访谈
用户访谈是用户研究中非常常用的一种方式,运用有目的,有计划,有方法的口头交谈向用户了解事实的方法。一般用户访谈的步骤为:确定调研的目标与内容——确定用户和样本——确定访谈与提纲——进行访谈——汇总报告
当我们通过上述方式采集数据后,获取的数据一般有三种类型,即结构化数据,非结构化数据,半结构化数据。关于结构化与非结构化数据,我们在上文《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(二)》提过,大家有兴趣可以点击查看。
那么何为半结构化数据呢?
半结构化数据,顾名思义就是介于结构化数据(关系型数据库)和非结构化数据(声音,视频)之间的数据。半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。下图所示就是JSON简单实例,我们可以观察发现其存储这某些书籍信息,一般日志文件,XML文档,JSON文档等就是半结构化数据。
本文带领大家快速了解各类数据采集方式,各类采集技术固然重要,但要结合所在行业,所在企业规模情况进行选取,减少“杀鸡焉用牛刀”的情况出现。
随着国家安全重要性及居民个人隐私观念的提升,在保证数据采集的精确性的同时,更应注意数据采集中如何保护用户隐私问题的情况以及涉及到国家关键基础设施相关数据的安全性。
笔者在写这篇文章时,朋友正好像我推送微信公众号的一片关于Flightradar24涉及信息安全违规下架的文章,笔者与朋友对无线电以及AIS系统较为感兴趣,深知此类数据的重要性。
本篇文章就写到这里,关于数据分析,数据产品相关的知识笔者会继续与大家分享交流,文中不准确的地方欢迎并希望大家批评指正。
本文由@快乐的给予原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Pexels,基于CC0协议