<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>【存储部落】 &#187; 元数据</title>
	<atom:link href="http://www.sansky.net/article/tag/metadata/feed" rel="self" type="application/rss+xml" />
	<link>http://www.sansky.net</link>
	<description>sansky的存储技术博客，内容涵盖存储解决方案、存储系统、存储硬件、存储软件、存储管理、存储安全、数据备份与恢复、数据保护、存储基础知识，为大家推荐各种存储产品、和存储技术、视频监控、广电、电信、政府、教育、医疗等行业存储系统解决方案，</description>
	<lastBuildDate>Sat, 31 Dec 2011 10:22:25 +0000</lastBuildDate>
	<language>zh-cn</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>CAS技术及产品介绍-8</title>
		<link>http://www.sansky.net/article/2007-06-16-cas-8.html</link>
		<comments>http://www.sansky.net/article/2007-06-16-cas-8.html#comments</comments>
		<pubDate>Sat, 16 Jun 2007 09:35:24 +0000</pubDate>
		<dc:creator>sansky</dc:creator>
				<category><![CDATA[存储产品]]></category>
		<category><![CDATA[存储介质]]></category>
		<category><![CDATA[存储技术]]></category>
		<category><![CDATA[内容寻址存储]]></category>
		<category><![CDATA[元数据]]></category>
		<category><![CDATA[CAS]]></category>
		<category><![CDATA[content location storage]]></category>
		<category><![CDATA[网络存储]]></category>
		<category><![CDATA[EMC]]></category>

		<guid isPermaLink="false">http://www.sansky.net/html/2007-06-16-1053.html</guid>
		<description><![CDATA[Archivas公司的Archivas Cluster Archivas公司位于美国麻省Waltham，该公司2004年4月宣布推出Archivas Cluster (ArC)系统，并于同年9月面世。这是一套专为分布式存储平台设计的固定内容存储系统，主要面向支票图像、合同档案、卫星图像和邮件信息等需要经常读取但不被改动的应用领域。ArC系统的每个节点上都安装... ]]></description>
			<content:encoded><![CDATA[<p><strong>Archivas公司的Archivas Cluster</strong></p>
<p>Archivas公司位于美国麻省Waltham，该公司2004年4月宣布推出Archivas Cluster (ArC)系统，并于同年9月面世。这是一套专为分布式存储平台设计的固定内容存储系统，主要面向支票图像、合同档案、卫星图像和邮件信息等需要经常读取但不被改动的应用领域。ArC系统的每个节点上都安装了一套完整的ArC程序，每个节点可以作为独立的存储设备最多能够保存4TB的原始数据，并可作为存取归档文件的入口与主存储池相连。</p>
<p>如果用户需要向整个ArC簇中增加新的节点以扩充容量的话，那么，ArC将在不影响现有工作的前提下自动将新节点整合到整个工作平台中。<span id="more-1053"></span></p>
<p>ArC系统采用的“簇”结构与EMC的Centera一样，都具有RAIN的特性，可以应付多个节点同时发生故障的紧急情况，并自动确保所有目标数据策略的可用性。但与Centera所不同的是，除了发生单点故障时可以保证整个CAS系统不被中断外，ArC的用户还能自己随时更换系统中的各种符合业内标准的应用和系统平台，以满足不同时期的存储需要。</p>
<p>下面我们来看看ArC系统所具有的特性与功能：</p>
<ul>
<li><strong>基于对象的存储</strong> ArC是基于对象（object-based）的文件系统。这里所谓的对象（object）是指用户所要保存的原始固定内容数据及其元数据和策略信息。这就表示ArC系统存取的目标是整个对象数据，而非各种卷或文件。一个ArC目标的策略管理着整个归档过程。因此，系统中所有的归档过程并不需要客户端的应用参与，而是在各自的策略管理下自动完成。</li>
<li><strong>固定内容文件系统 </strong>ArC File System (ArC-FS)支持各种企业级的应用，并能访问每个目标归档文件的元数据。</li>
<li><strong>原始固定内容数据</strong> 应用要向ArC-FS中写入所有的原始数据内容。一旦原始数据写入完成，将不能被修改，同时在到达保存期限之前也无法被删除。</li>
<li><strong><a href="http://www.sansky.net/article/tag/metadata" class="st_tag internal_tag" rel="tag" title="标签 元数据 下的日志">元数据</a></strong> 其中包含了各种能够识别目标归档的有用信息，如作者和创建日期等。此外还包括了相关策略的设置参数，如保存期限和访问权限等。</li>
<li><strong>策略 </strong>对目标归档的整个生命周期进行管理。策略从目标的元数据那里得到相关的策略参数。由于每个目标都有自己惟一的策略，因此大大增加了目标的可靠性。例如，通过策略可以了解目标内容是否可信以及它的保存期限是否已经到期等。</li>
<li><strong>开放的架构 </strong>由于是采用规范的工业标准所设计的，因此，ArC对各种系统提供了支持。在整个系统的后端，用户可以将这套软件安装在任何一台符合工业标准的终端上，不管它来自HP、IBM、Dell，还是Linux系统。在软件上它支持各种符合工业标准的网关，其中包括NFS、SMB/CIFS和HTTP，并支持各种外部应用和系统工具。同时，还可以随意更换不同种类的磁盘，以使存储系统拥有更高的性价比。ArC系统能够同时连接数百个节点，并且每个节点最多可以存储5000万个目标对象。对用户来讲，这就意味着整套系统最多将拥有PB级的存储能力。</li>
<li><strong>分布式元数据管理 </strong>为了实现基于目标的存储以及自动化的存储管理策略，ArC为目标的元数据提供了目标数据的全程跟踪信息。每个节点上都安装有元数据管理器，这些元数据管理器通过一个分布式的数据库来保证整个系统中所有存档目标的可测量性，以及在节点发生故障时能够得到及时的恢复。</li>
</ul>
<p>ArC不同于Centera和Permeon之处在于，ArC拥有一个集合了各种应用在内的固定内容簇。相反，EMC的用户必须为其每一个应用都配备一套专属的EMC Centera。因此大大增加了用户的成本，同时，Centera还无法通过文件的形式来分配元数据。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.sansky.net/article/2007-06-16-cas-8.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>什么是元数据MetaData</title>
		<link>http://www.sansky.net/article/2007-05-12-metadata.html</link>
		<comments>http://www.sansky.net/article/2007-05-12-metadata.html#comments</comments>
		<pubDate>Sat, 12 May 2007 14:29:52 +0000</pubDate>
		<dc:creator>sansky</dc:creator>
				<category><![CDATA[基础知识]]></category>
		<category><![CDATA[元数据]]></category>
		<category><![CDATA[网络存储]]></category>

		<guid isPermaLink="false">http://www.sansky.net/?p=191</guid>
		<description><![CDATA[MetaData意思是元数据，也称之为数据的数据。 数据的数据？ 一个数据存储在共享卷里时，我们可以直接看到它是一个文档、或图片、或视频、或数据库文件，这些都是数据本身。然而在存储该数据时，文件系统还会产生很多无法直接看到的，与该数据有关的数据，如文件系统中文件检索表，路径信息... ]]></description>
			<content:encoded><![CDATA[<p>MetaData意思是元数据，也称之为数据的数据。</p>
<p>数据的数据？</p>
<p>一个数据存储在共享卷里时，我们可以直接看到它是一个文档、或图片、或视频、或数据库文件，这些都是数据本身。然而在存储该数据时，文件系统还会产生很多无法直接看到的，与该数据有关的数据，如文件系统中文件检索表，路径信息、地址信息等，而这些数据就称之为文档、图片、视频等在共享卷中的元数据。</p>
<p>SAN网络存储共享软件管理的主要内容就是元数据，控制元数据在多主机之间的传输。<span id="more-191"></span></p>
<p>我们可以在很多地方看到元数据的存储，网上DOWN下来的电影本身一个视频文件数据，而点击右键查到看的视频文件属性，如存储路径、码率、文件大小、及导演、演员、制作单位等就是视频文件的元数据。</p>
<p>在地理空间信息中用于描述地理数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征，它是实 现地理空间信息共享的核心标准之一。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.sansky.net/article/2007-05-12-metadata.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>不同磁带库间的数据交换和共享</title>
		<link>http://www.sansky.net/article/2007-05-12-tap-lab.html</link>
		<comments>http://www.sansky.net/article/2007-05-12-tap-lab.html#comments</comments>
		<pubDate>Sat, 12 May 2007 14:22:11 +0000</pubDate>
		<dc:creator>sansky</dc:creator>
				<category><![CDATA[存储技术]]></category>
		<category><![CDATA[备份软件]]></category>
		<category><![CDATA[广电行业]]></category>
		<category><![CDATA[元数据]]></category>
		<category><![CDATA[磁带机]]></category>
		<category><![CDATA[initiator]]></category>
		<category><![CDATA[数据迁移]]></category>

		<guid isPermaLink="false">http://www.sansky.net/?p=186</guid>
		<description><![CDATA[随着客户应用系统需求的不断增加，需要备份的数据不断的增多，数据安全性要求也不断提高，作为数据备份所用的磁带库的容量也不断的增加，有时还有可能增加第二个磁带库，甚至更多的磁带库。基于资源共享的目的，不同存储系统之间的数据在特定时间需要进行数据交换和共享。 有的用户在进... ]]></description>
			<content:encoded><![CDATA[<p>随着客户应用系统需求的不断增加，需要备份的数据不断的增多，数据安全性要求也不断提高，作为数据备份所用的磁带库的容量也不断的增加，有时还有可能增加第二个磁带库，甚至更多的磁带库。基于资源共享的目的，不同存储系统之间的数据在特定时间需要进行数据交换和共享。</p>
<p>有的用户在进行系统方案设计时提议多个磁带库系统采用相同磁带库和磁带，相同的数据存储格式，希望通过磁带离线的方式来实现数据的交换或共享问题。这个想法乍一听好象很有道理，有一定的可行性，但只要详细分析一下磁带库在业务系统中的具体应用流程，就会发现要想实现这个想法将面临很多问题。<span id="more-186"></span></p>
<p>多个磁带库能否通过离线磁带来进行数据的交换或共享问题，实际上就是不同磁带库中的数据之间的能否兼容的问题，按照数据库存储系统的结构和应用，兼容主要在以下三个方面：</p>
<p>第一， 磁带库物理设备的兼容<br />
 即两个磁带库使用相同的磁带和磁带机。只有磁带和磁带机兼容，磁带才能被磁带机正常的装载，磁带才能MOUNT进磁带机里。<br />
第二，数据迁移或备份软件系统兼容</p>
<p>大型磁带库系统会采用分步式的迁移或备份软件来进行数据库迁移和备份。分布式备份软件都有一个数据库，这个数据库中记录着每一盘磁带的VOLUME、FORMAT信息、文件名称、文件大小，写入时间、源文件路径等相关的元数据信息。在进行文件恢复或回迁时，迁移或备份软件会按照数据库中记录的文件的元数据信息，将文件恢复到源路径下。如果数据库中没有文件的元数据信息，即使磁带中有数据，备份软件也不可能正常的对文件进行备份和恢复。另外，为保证数据库中的记录信息和磁带中数据的同步和一致性，备份软件会默认为每一个初次放入带库的磁带是一个空白带，没有任何数据，因此在第一次写入数据前都会进行一个Relable的操作，相当于硬盘的格式化。当然可以手动地向数据库中引入文件的元数据库，但这只是在理论上可行，在实际的操作中会遇到相当大的困难。</p>
<p>注：在概念上一定要把迁移或备份的执行者ACTOR与备份请求的发起者initiator 区分开来，迁移或备份软件是数据迁移和备份操作的执行者，负责从源存储池(在线盘阵/磁带库)读取文件，写入到目的存储池(磁带库/在线盘阵)；发起者(<a href="http://www.sansky.net/article/tag/initiator" class="st_tag internal_tag" rel="tag" title="标签 initiator 下的日志">initiator</a>)只是按照制定的迁移或备份策略，向执行者发送请求，由执行者来完成数据的迁移和恢复操作。在实际的应用中，有时执行者并不是一个单独的软件，而是由操作系统来担任的。</p>
<p>第三，应用软件系统的兼容</p>
<p>针对不同应用和系统要求，磁带库在存储系统中所起的作用也不相同。对于银行和电讯等行业，存储系统中的磁带库是整个的备份设备，负责备份数据库中的数据，每次需要备份的数据文件在几M到几十个G之间。由于备份一般采用全备份或差异性备份等方式，备份的数据文件之间有一定的关系。本次对数据文件进行备份后，可能几天之前备份的数据文件就不需要，或不重要了。</p>
<p>从存储系统的运行情况来看，磁带库中的文件只是作为在线盘阵中的文件的冗余备份，所有文件会同时存在于在线盘阵和磁带库中，也就是说在在整个系统中每个需要进行备份的文件都是双份的。在正常的情况下，磁带库中的数据文件不参与应用，只有当在线盘阵中数据发生损坏或丢失时，才手动或自动会恢复到在线盘阵中，保证存储系统的正常运行。</p>
<p> 对于数据库系统备份，数据文件路径等相关信息都通过备份软件进行设置，并保存在备份软件中，磁带中记录的只是数据文件本身，并不需要记录与数据文件相关的元数据，或只记录很少的元数据。在进行数据恢复时，备份软件会将磁带中的数据文件恢复到一个单一的、特定的路径下，或手工指定一个恢复路径，数据库系统就可以对恢复后的文件进行读写。</p>
<p>针对这种应用方式，只要两个磁带库系统，采用相同的备份软件，就可以读取另一种磁带库，两个磁带库就可以通过互换磁带的方式进行数据共享。也就是说两个磁带库之的数据可以兼容。</p>
<p>而对于进行非线性视频编辑的广电行业，磁带库的作用是海量的文件存储，而不是数据的备份，只是区别于其它应用的最大特点。整个存储系统中的绝大多数文件只有单独的一份，磁带库作为盘阵容量的一种变形扩充，即近线存储，其所存储的数据要直接参与整个系统的业务运行流程。当需要对一个文件进行迁移或回迁时，应用系统的策略迁移或备份模块，即发起者initiator会发送一个迁移或回迁指令，迁移或备份软件，即执行者ACTOR控制磁带库的进带和磁带的读写，将在线盘阵上的文件写入到磁带上，或将从磁带上的文件读取到在线盘阵上。</p>
<p>需要进行迁移或回迁的文件，也就是非线编辑专业所说的素材在应用系统中并不是一个单独和孤立的文件，它与多个高低质量视音文件、字幕文件、图标、文字等相互对应，它们之间的对应关系将会记录在媒体资产管理系统的数据库。该数据库中还记录着有上百项与该素材文件一一对应的其它信息，如存储池信息、路径信息、访问权限和策略信息、编目信息等，这些信息还有可能与另外的上百个信息对应。</p>
<p>当把一个其它磁带库系统中的磁带放入另一个磁带库时，即使我们可以手工修改迁移或备份软件的数据库，将磁带上的素材文件引入到存储系统中，但由于媒体资产管理系统的数据库没有与该素材文件相对应的元数据信息，应用系统还是无法正常的识别和使用该文件。一个无法使用的文件实际是垃圾文件。当然我们可以通过修改素材的元数据来使其在应用系统中可用，但这种操作是一个繁琐的过程，在实际应用中是不可取的，对于大型的、每天有成千上万个素材文件要进行迁移或备份的媒体资产管理系统来讲，也是不可行的。</p>
<p>通过以上分析可知：对非线编辑网络系统来讲，只有两个磁带库系统之间的硬件设备相同，迁移或备份软件相同、应用系统也完全相同，两个磁带库才有可能通过互换离线磁带的方式和进行数据交换和共享。而在实际的应用中，由于系统的业务和流程不同、用户不同、系统设置不同、即使是同一家公司所搭建的同种用途的系统不可能做这三个方面都完全相同。</p>
<p>虽然这样说，但并不表示两个磁带库中的数据就无法进行交换和共享。从目前的技术发展来看，要实现不同磁带库之间的数据共享，就必须通过一个专用的数据转换软件，这个数据转换软件可以同时访问两个应用系统的数据库来获得与素材文件相关的元数据信息，再通过共用的API接口，调用和控制磁带库的读写，来达到数据交换和共享的目的。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.sansky.net/article/2007-05-12-tap-lab.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>

