Azure数据湖存储与应用程序扩展全解析
1. Azure数据湖存储(ADLS)
Azure数据湖存储(ADLS)是一种可存储近乎无限量数据且不影响其结构的Azure服务。以下将从安全、弹性和数据结构三个方面进行介绍。
1.1 安全
在使用ADLS时,考虑其安全特性(如身份验证、授权和文件访问)至关重要,需牢记以下几点:
-优先使用组而非用户/服务:最初为资源或文件夹分配单个用户可能较为容易,但当对数据感兴趣的人数迅速增长时,会很快面临问题。因此,最好使用Azure AD组来确定对资源本身的基于角色的访问控制(RBAC),以及对文件和文件夹的POSIX访问控制列表(ACL)。这样做还能提高解决方案的性能,因为检查一个实体是否属于某个组比遍历一长串用户要快。
-最小权限集:与其他服务一样,始终从访问Azure数据湖存储实例所需的最小权限集开始。不要为仅读取数据的人分配写入权限,也不要为仅读取文件夹中单个文件的服务分配执行权限。
-启用防火墙:通常,不希望任何人访问存储在ADLS中的数据。为了保护解决方案,使只有一部分IP地址可以访问信息,请启用防火墙,这样列表之外的任何人都将被拒绝。
1.2 弹性
确保数据以安全的方式存储,并且在数据中心内出现任何问题时不会丢失至关重要。ADLS不支持地理冗余,因此必须自行实现。可以使用以下工具来复制数据:
- Distcp
- Azure Data Factory
- AdlsCopy
当然,也可