news 2026/4/16 4:31:22

大数据技术复习--大数据感知与获取

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大数据技术复习--大数据感知与获取

引言

数据采集的目标:从指定数据源以不同的数据采集方法采集各类数据

  • ODS:Operational Data Store,操作型数据存储,最接近数据源中数据的一层,用来存储多个数据源业务数据的系统,其数据输入到数据仓库中进行分析

  • ETL:抽取、转换、加载,是数据获取的重要手段,需要知道具体格式

  • DW:Data Warehouse,数据仓库概念的提出也把数据处理划分为了操作型处理和分析型处理两种不同类型,从而建立起了DB(数据库)

  • DM(Data Mart),为了特定的应用目的,而从数据仓库中独立出来的一部分数据,也可称为主题数据

  • ELT:ETL的时间成本和吞吐量限制(堵塞),导致ETL这种数据加工的方式不能满足于现在的企业发展需要
    把Transform(转换)和Load(加载)拆开,这样处理数据的部分就专心计算就行了,搬运数据的部分就专心搬运

  • DIM:Dimension,维表层,这一层比较单纯,举个例子就明白,比如国家代码和国家名、地理位置、中文名、国旗图片等信息就存在DIM层中

  • TMP:每一层的计算都会有很多临时表,专设一个DWTMP层来存储我们数据仓库的临时表


元数据(Metadata):又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能

信息获取

外部数据及获取方法:
网络爬虫:又称网页蜘蛛,是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。

  • 通用爬虫(搜索引擎爬虫,google,百度)
  • 垂直爬虫(面向特定网站或者主题)


分布式爬虫:
大数据应用场景下,使用分布式计算技术,将网络数据抓取并行化。通过多个单机爬虫系统的有效协作和配合,实现互联网的大数据抓取。

  • 主从式爬虫
    • Master负责URL分发、负载均衡、心跳检测,全局去重等服务
    • Slave负责实际任务的抓取
      缺点:主服务器容易成为系统瓶颈
  • 对等式爬虫
    • 每台服务器功能相同,没有主从之分
    • 将主域名哈希取模决定所属服务器
      缺点:某台服务器宕机会造成所有任务重新分配

Xpath:XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言
CSS:Cascading Style Sheets,层叠样式表,是一种用来表现HTML(标准通用标记语言)的一个应用或XML(标准通用标记语言的一个子集)等文件样式的计算机语言

深网爬虫:

  • 数据存于后台数据库中,很少有显式的连接指向这些数据
  • 需要输入相关查询条件,传统爬虫服务获取这些数据
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 4:25:33

Bioicons:生物科研插图新革命,免费开源图标库终极指南

Bioicons:生物科研插图新革命,免费开源图标库终极指南 【免费下载链接】bioicons A library of free open source icons for science illustrations in biology and chemistry 项目地址: https://gitcode.com/gh_mirrors/bi/bioicons 你知道吗&am…

作者头像 李华
网站建设 2026/4/16 4:23:50

如何快速上手Node-csv:5个实用案例带你从入门到精通

如何快速上手Node-csv:5个实用案例带你从入门到精通 【免费下载链接】node-csv Full featured CSV parser with simple api and tested against large datasets. 项目地址: https://gitcode.com/gh_mirrors/no/node-csv Node-csv是一个功能全面的CSV处理工具…

作者头像 李华
网站建设 2026/4/16 4:19:20

基于rtsp-simple-server和ffmpeg的医疗影像实时传输与处理方案

1. 医疗影像实时传输的痛点与解决方案 去年参与一个医疗项目时,遇到个棘手问题:B超设备的视频信号无法直接获取。这台价值百万的B超机通过Type-C接口输出视频,但只能用厂商专用软件解码显示。我们需要对B超影像做实时分析,但厂商提…

作者头像 李华
网站建设 2026/4/16 4:19:17

国产化DevSecOps平台崛起:Gitee如何成为关键行业数字化转型的核心引擎

在数字化转型浪潮席卷全球的当下,软件开发的安全性和效率已成为企业竞争力的关键指标。DevSecOps作为将安全内嵌至开发全流程的方法论,其落地实施高度依赖于工具链的选择与集成。2025年的DevSecOps工具市场呈现出明显的国产化、平台化趋势,其…

作者头像 李华
网站建设 2026/4/16 4:18:15

掌握H2O Wave数据可视化:从基础图表到交互式仪表盘的完整指南

掌握H2O Wave数据可视化:从基础图表到交互式仪表盘的完整指南 【免费下载链接】wave Realtime Web Apps and Dashboards for Python and R 项目地址: https://gitcode.com/gh_mirrors/wav/wave H2O Wave是一个强大的开源框架,专为Python和R开发者…

作者头像 李华