简介
一句话(官方):分布式存储系统HDFS( Hadoop Distributed File System)。 其实就是一个文件系统,类似于linux的文件系统。有目录,目录下可以存 储文件。但它又是一个分布式的文件系统。
基本原理
将文件切分成等大的数据块,分别存储到多台机器上。
每个数据块存在多个备份。 将数据切分、容错、负载均衡等功能透明化。
可将HDFS看成是一个巨大、具有容错性的磁盘。
优点
处理超大文件。
流式的访问数据。
运行于廉价的商用机器集群上 。
缺点
不适合存储大量小文