不同数字音频的单元格式,里面有些微提到一些脉冲编码调变(Pulse-code modulation,PCM)的基础概念,但除了PCM或更精准地说是线性脉冲编码调变(Linear pulse-code modulation,LPCM)之外,近期还有一个非常受关注的DSD(Direct Stream Digital)编码格式。现在市面上的高阶播放器,大多打着能支持DSD译码来当作一个卖点,但是到底甚么是DSD编码格式?是否真的有如同厂商宣称提供更优良的音质?这就是本篇文章所要和大家一起探讨的,底下就让笔者来简单的介绍一下DSD历史。
Direct Stream Digital的历史
事实上DSD的起源已经非常久,早在60年代就已经有利用脉冲密度调变〈Pulse-density modulation,PDM〉编码,将音频讯号记录在数字媒体上,正确来说应该是由PDM一个特殊分支 -脉冲宽度调变(Pulse Width Modulation,PWM)来实现,这种编码方式目前已经完全被PDM格式所取代。
目前常见的DSD编码就是基于PDM规范,这个音乐编码格式的标准规范在1999年发表,是由当时领导音乐单元格式的巨头Sony和Philips合作开发,至于为何制定DSD规范的原因有些复杂。主要是因为那时候由Sony和Philips所制定的CD 〈Compact Disc〉规范专利快要过期,在即将失去由CD专利带来的大量收益情况下,Sony和Philips决定再次连手打造下一代的音乐储存规格Super Audio Compact Disc 〈SACD〉,所以DSD的出现绝大部分是因为商业考虑。
在储存编码上,SACD使用和CD常见PCM编码完全不同的音频格式,采用单位元的DSD编码。Sony花下重金聘请当时最顶尖的两位声音工程师Ed Meitner〈现任职于EMM Labs〉和Andreas Koch 〈现任职于Playback Design〉来制定SACD规范,并且在初期免费开放给大多数知名录音室使用,这成为DSD音讯单元格式第一次大规模被使用在商业活动上。
▲Direct Stream Digital标志
超级音频光盘〈SACD〉的起源
讲到DSD自然必须介绍一下SACD,SACD取样频率高达2822.4kHz,是一般CD取样频率44.1kHz的64倍,而且理论上具有能够再生100kHz以上频率范围的能力。此外由于SACD使用DSD的脉冲编码,因此省去位转换的过程,同时降低数字滤波可能产生失真和噪声的问题。
虽然这一切都让SACD听起来非常的美好,但SACD在推广的路途上却是相当艰难,因为当Sony和Philips决定用专利屏障再次垄断音讯单元格式时,其他音乐制作公司和硬件生产商却看上了正蓬勃发展的DVD光盘,并且希望利用这个容量更大的储存媒介来发行高质量音乐光盘,就此开启了新世代音乐储存媒介规格的战火。
Super Audio CD和传统CD音乐光盘规格比较
Super Audio CD | CD-DA | |
编码格式 | Direct Stream Digital | Linear PCM |
盘片容量 |
4.70GB- Single Layer [DVD-5]
8.54GB- Dual Layer [DVD-9] |
Max. 780MB |
读取机制 | 650nm半导体雷射 | 780nm半导体雷射 |
声道数 | 最高支持5.1声道 | 双声道 |
响应频率范围 | 0~100kHz 〈max〉 | 5~20kHz |
动态范围 | 在可聆听频率范围内〈0 - 20kHz〉,最高达120db | 96db |
取样频率〈双声道〉 | 每秒2,822,400次 | 每秒44,100次 |
取样深度〈量化〉 | 1bit | 16bit |
最高数据流量〈双声道〉 | 5.64Mbps | 1.4Mbps |
规格制定公司 | Sony、Philips | Sony、Philips |
高质量音乐储存规格之争
DVD-Audio规格很迅速地在SACD出现的隔一年后正式上路,使用和CD相同的LPCM编码,并且可以储存高达192kHz/24bit双声道的高质量音乐。DVD-Audio在音乐制作上和传统的CD音乐并没有太大区别,由于多数音乐制作公司都历经过CD格式的洗礼,因此刚开始大部分音乐制作公司,偏向选择技术上更加成熟的DVD-Audio规格,当然也有一部分理由是可以摆脱Sony和Philips的专利束缚。
想当然,Sony和Philips为了捍卫自家格式和利益自然会做出反击,Sony和Philips藉由自己在硬件制造上的优势,拉拢大多数DVD播放器制造商,让后续生产的DVD播放器无法兼容DVD-Audio。这个作法严重的打击DVD-Audio阵营,虽然DVD-Audio阵营有不少大型公司支持,但是其内部意见却是相当分歧。由于每个成员都怕被另一个规范所束缚,这为DVD-Audio推广之路种下了失败的种子。
另外更令内部成员惊恐的是,在那音乐盗版猖獗的年代,DVD加密法很快地就被黑客所破解,每个音乐制作公司都害怕DVD-Audio会重演CD的盗版局面,因而都裹足不前。第一份正式DVD-Audio音乐光盘,居然是由一个发烧友,在缺乏良好录音设备的小型研究室录制。
在DVD-Audio阵营内部互相猜忌的情况下,Sony乘胜追击的许诺SACD将永远不能被计算机所播放,这几个举动成功稳固住SACD作为新一代音乐光盘的地位,并且也解决了双方阵营长久以来惧怕盗版的疑虑。
▲SACD标志及SACD的种类。由左至右分别为 〈1〉单层SACD〈4.7 GB〉 〈2〉双层SACD〈8.5 GB〉 〈3〉混和型SACD〈4.7 GB〉
SACD的殒落
经过上面一大串折腾和较劲之后,Sony和Philips阵营开始自信满满地宣传和推广多声道格式SACD,并且宣称未来是高质量多声道音乐的年代,而且也渐渐获得多数音乐制作公司的认同。眼看着单元格式大战就要分出胜负的时候,Apple的iPod迅雷不及掩耳上市了,尔后几年将在线数字音乐下载量,更提升到了一个惊人的程度。
面对Apple所掀起的在线数字音乐潮流,Sony选择继续维持SACD的生产和发行,并且在2003年规划出同时拥有传统CD层和SACD层的混和型SACD,期望在实体音乐光盘销售上有所突破。但是这很快地就碰上SACD播放器销售不佳的问题,因为当年的SACD播放器价格大多落在5,000元美金以上〈约新台币15万〉,非常少消费者愿意购买昂贵,而且只能播放音乐的SACD播放器,因此让SACD的销售受到直接的影响。
再加上几年后,Wavelength Audio发布了基于计算机播放的异步USB DAC,这使得利用计算机播放高质量音频档案变得更加容易。尔后又随着全世界网络速度的提升,和在线音乐的流行,出门购买音乐光盘渐渐的不再是获得高质量音乐唯一来源,SACD就此成为只有少部分音乐爱好者的选择。
▲混和型SACD结构图和读取机制,混和型SACD具有一层4.7GB容量的DSD层〈上层〉,同时还包含一个符合PCM红皮书的CD音乐层〈下层〉,这使得它能够兼容于传统的CD播放器。
2006年,在体认到SACD几乎已经不可能成功的情况下,Sony做了一个策略上的大转变,推翻之前SACD将不会被计算机播放的承诺。Sony推出以SACD为基础的DSD-Disc,这个格式的SACD将旧有物理防拷贝保护层移除,使得计算机也能够读取这类型光盘片。
但是由于已经失去市占率,DSD-Disc在完全没有推出过任何商业音乐光盘下就被抛弃,从2009年后就已经没有大型商业音乐制作商,使用SACD当做音乐储存媒介。虽然到这边,由Sony和Philips主导的SACD已经完全溃败,但也为后续的DSD格式音乐打开了另一扇大门。
DSD音乐播放原理
上面看完了DSD音乐格式的历史信息,这边笔者想先来介绍一下DSD到底和PCM有甚么不同,首先我们就从介绍DSD音频编码开始。DSD编码DSD则使用不同于以往PCM逻辑来记录音频,DSD讯号是以ΔΣ调变后的PDM编码形式储存在储存媒介上,DSD的内部记录的是一个连续时间的单一位序列,以固定的时间间隔来记录,在标准的SACD规格下每个取样间隔是1/2822400秒,取样频率为CD规格 〈44.1kHz〉 的64倍之高。
DSD每一次取样会比对本次取样和上一个样本值的变动,接下来使用0和1来记录振幅的变化,0代表比上一个讯号值来得低,1代表比上一个讯号值来格高,所以每一个取样的讯号是和前一个讯号的相对值。DSD藉由非常高的取样频率,将以往量化不精准所造成的失真,下降到一个位以内的误差。
▲DSD音频PDM编码示意图,DSD在每1/2822400秒记录下一个单位元的数据,每一次记录的数据是和前一个数据的相对值
为了确保每一位读者,都能够轻易理解等一下的DSD和PCM比较,在这边快速地介绍一下PCM编码。PCM编码主要包含取样〈Sampling〉、量化〈Quantization〉、编码〈Coding〉三个过程,如下图上半部所示,PCM也是在一个固定的间隔时间内〈如CD是1/44100秒〉记录下原始模拟讯号的振幅。
但和DSD不同的是,PCM记录的是一个绝对值而非DSD的相对值,每一个不同的振幅强弱都有其代表的数值。然后再将记录下来的数值转换成离散时间讯号,最后再依据PCM规范给予一个编码就是常见的LPCM格式数字音频。简单来说,PCM编码就是在连续的时间〈X轴〉坐标下,记录当时的振幅〈Y轴〉大小。
▲Linear-PCM编码示意图,在固定时间间隔下〈图中为1/44100秒〉,记录当下的振幅大小的绝对值
DSD音乐播放
DSD音乐的记录和播放流程,相较于传统PCM编码来得简化许多,由于目前市面上主流是使用基于单位元的模拟数字转换器(analog-to-digital converter,ADC),来进行音乐录制。所以如果将录下来的声音直接使用DSD格式储存的话,在播放时只需要在输出端,经过一个开关电容网络构成的低通滤波器,来还原成模拟讯号即可。
整个流程相较于传统的PCM处理,省去了在录音端单位元转多位的过程,和在播放端必须经由超取样和ΔΣ调变成PDM讯号的手续。这使得DSD具有非常好的先天优势,并且理论上能够在硬件端节省下多余的处理组件,也间接地降低处理过程所产生的失真。
SACD较早时期采用1bit转换技术造成的高频抖动〈dithering〉与谐波〈Idle Tone〉等问题,目前的DAC芯片为了因应1bit译码缺点,大多使用多位〈例如:6 bit,64阶〉的ΔΣ调变。此种调变混合1bit PDM和PCM的优点,在低电位输出时直接调整输出脉冲电压为低电压,可以让后续的低通滤波电路设计问题简化不少。在理论上看起来是如此的完美,但是人算不如天算,完美的事情永远只在理想状态下发生,笔者将在后面的章节和各位讨论DSD所需要面对的问题和优势。
▲〈上图〉PCM音频的录制和播放流程简图,总共历经两次超取样处里和两次位数转换,〈下图〉理想状态下DSD音乐录制和播放流程简图,过程中无须经过超取样和位数转换
DSD和PCM编码比较
由上面的介绍就可以看出,DSD和PCM是两种完全不同思维模式的编码,而两种规格也拥有各自的优点和缺点,底下笔者将非常浅显的介绍DSD编码相对于PCM编码的优缺点。
DSD编码优势
1. 理论上极高的取样带宽
标准的DSD音乐使用2.8224MHz取样频率,理论上能够记录最高到1411.2kHz〈取样频率的一半〉的声音,相较于传统CD使用的44.1kHz取样频率,这让DSD格式拥有非常宽广的取样带宽,即便和目前录音室常见的高规格24bit/192kHz PCM录音相比〈取样带宽最高达96kHz〉,DSD也拥有超过14倍之多的取样带宽。
2. 优良的动态范围〈0~20kHz〉
DSD讯号经由高频噪声整形〈noiseshaping〉电路处理,将DSD带有的高频噪声,提升到超越人耳聆听范围外的频率后,在0~20kHz的频率范围内,DSD拥有理论数据上高达150db的动态范围〈如下图〉,相较于16 bits/24 bits PCM编码的96db/144db动态范围,DSD编码理论上拥有更好的动态范围〈0~20kHz〉。
▲DSD和PCM编码比较,红色框格内代表24/96kHz PCM编码可记录的范围,橘色为24/192kHz,绿色为24/384kHz可记录范围,24bit的PCM讯号底噪坐落在记录范围之外,理论上小于-144db;蓝色线为2.8224MHz DSD在不同频率范围的底噪示意图,可以发现在大约30kHz后,DSD编码的底噪急遽上升,在接近极限频率时达到大约-6db的响度。〈图片来源:Playback Designs〉
3. 更小的音乐容量
DSD编码在储存容量上也具有一定的优势,随着音质的提高,PCM音乐的档案大小可以说是指数型成长。而DSD由于编码上的优势,在标准的2.8224MHz取样频率下,DSD的档案容量只约略超过24/96kHz的PCM音乐一些。这使得DSD不论是在储存或是网络下载,都比PCM格式来得有优势。
格式 | 档案大小 | 预计下载时间〈5Mb/sec带宽下〉 |
红皮书规范CD 〈16/44.1kHz〉 | 32MB | 1 分钟 |
PCM 24/88.2kHz | 95MB | 2.6分钟 |
PCM 24/96kHz | 103MB | 2.8分钟 |
PCM 24/176.4kHz | 190MB | 5分钟 |
PCM 24/352.8kHz 〈DXD〉 | 380MB | 10分钟 |
DSD 2.8224MHz | 127MB | 3.4分钟 |
4. 除了上列的优势之外,DSD音乐在播放时还具有无取样频率限制、直接支持DAC主要时钟和长传输距离的优点。
DSD编码缺点
上面提完DSD的主要优势,但就跟多数的规范一样,DSD也有其无法克服的技术缺点。而且这些实际操作上的缺点,反倒严重的抵销DSD上述的优势,并且在大多数情况下还产生更多的问题,底下就让笔者来介绍一下DSD编码相较于PCM编码有甚么样的缺点。
1. 实际上较窄的频率范围
标准的DSD编码有一个先天的缺点,相较于CD规格的16bit/44.1kHz的-96db〈16*6db〉底噪来说,DSD的底噪高达-6db,这个现象在实际测量上也可以观察到〈见图X〉。DSD编码在超过20kHz的时候,会产非常大量的高频噪声,如果不将这些噪声移除,将会对后端的音响器材造成伤害。所以必定需要经过滤波技术的处理,现在的处理方式是利用噪声整形电路,将噪声移到人耳聆听范围外〈>20kHz〉。
但这也说明后续就要由低通滤波器将这些噪声移除,由Sony的规范书来看,DSD讯号必须经由一个截断点为50kHz的低通滤波电路处理移除高频噪声。这使得现实上在播放时能使用的最大频率范围,大约只比30kHz高一点点,这直接影响到DSD其中一个优势:「理论上极高的取样带宽」。为了减少高频噪声的问题,目前最新的DSD档案都使用双倍的取样频率〈DSD128〉,理论上藉由噪声整形电路,能够将高频噪声推到更高的频率范围,但实际上还是无法解决通过低通电路后实际能用的频率范围。
2. 档案经过多次格式转换
由于DSD编码是一种单位元的记录格式,使得DSD音频几乎完全无法利用现在的音讯设备来编辑,因此在音乐后制的时候,DSD音讯还是必须被转换成PCM音讯来编辑。目前的DSD音乐编辑模式,是先将DSD转换成Digital eXtreme Definition〈DXD〉格式,DXD本质上就是352.8kHz/ 24bit的PCM编码音频,等后制和音乐编辑完毕后,再转换为DSD讯号。因此DSD音乐档案反倒同时继承DSD和PCM的缺点,并且在多次的转换过程中,还会额外导入另一层的高频噪声,这使得DSD原本希望移除PCM编码缺陷的初衷,完全不存在现在的DSD音乐中。
3. 相对高解析PCM编码没有显著优势
DSD编码当初的比较目标大多是CD规格的PCM音频,但在高分辨率的PCM音讯流行的当下,高分辨率PCM音讯实际可用的取样范围和噪声控制能力,完全优于标准的DSD格式〈见图X〉。为了解决这个问题,刚刚提到双倍取样的DSD128音讯就此诞生,虽然可以些微的降低DSD噪声过高的问题,但单位元编码先天上的缺陷依然存在,并且双倍取样的DSD128音乐档案大小,对比高解析PCM音讯来说,也变得没有储存容量上的优势。
4. 硬件支持度不广泛
DSD处理对于目前已经习惯PCM音乐已久的音乐制作公司来说,必须投入额外的成本才能进行后制,所以严重的影响到DSD格式的推广。此外目前市面上绝大多数支持DSD播放的DAC,是将DSD音频重新编码回PCM讯号的方式来播放,只有非常少部分的DAC支持原生播放DSD音乐。除此之外,DSD传输并没有被大多数传输规范所纳入,像是USB Audio 2.0和Mac平台的特性规范中,音讯传输就只有标准PCM一种格式。
好在最近被推广DSD-over-PCM〈DoP〉传输规范解决这部分的问题,这个传输规范使用24bit/ 176.4kHz PCM传输来包装DSD讯号,利用前面8个位来当做DSD的标记。又由于2.8224MHz取样的DSD音频数据量相当于16bit/176.4kHz的PCM音频数据量,所以后面的16位就可以用来包装DSD音讯,让有能力的硬件厂商自行研发DSD解决方案,并且也让不支持DSD传输的iOS系统有机会播放DSD音乐。当然这样的传输规范也有它的缺点,那就是由于数据是藉由PCM讯号的方式包装,如果当硬件误判DSD为PCM讯号时,就会在88kHz的地方产生一个大约-34db的杂音,并且播放DSD的相关操作和设定过程相当繁杂,所以DSD音乐规格还是相对地不普及。
小结
相信看完以上的介绍文章,各位读者对于DSD这个编码格式都有了一定程度的了解,也许有人会问说:既然DSD有那么多不便和缺点,为什么最近突然有一群厂商在推广DSD音乐格式?
笔者必须在这边说,没有一个格式是没有缺点,端看实际使用和市场的反应。不过关于DSD规格会在最近被推广的原因,笔者推测和DSD规范出现到现在已经超过十年有关,大部分的技术类专利有效期限是十年左右,所以基本上DSD格式现在已经成为一个开放式规格。再来目前主力的推广DSD的公司,是当初开发DSD规格的Andreas Koch所任职的Playback Design,自然会希望能够将DSD音乐推广开来。
反倒是制造业界用于转换DSD与PCM标准规格的瑞士数字音乐公司Weiss的老板Daniel Weiss,在两年前发表了一份简短的DSD白皮书,很明白的点出DSD无法后制处理,一定要先转换为PCM讯号,才能进行必要的后制工作。所以在录音阶段,Weiss推荐还是先用PCM格式储存声音讯号比较实际。
再顺道回过头看一下当初制定DSD规范的Sony,目前和日本音响协会一同制定新的「Hi-Res」认证,仔细阅读其内部规范后,可以发现虽然DSD同样被视为高解析音源,但是在高解析音源的定义中,并没有对DSD格式做特别着墨,可以推敲出Sony对这个已经失去专利主导权的音讯格式的态度。
但总体而言,DSD和PCM谁好谁坏并不是真正的重点,它们都只是储存音乐的一种格式,重要的还是里面所包含的音乐。因为音乐的感动并不是靠音乐单元格式来决定,一个单元格是只要还有足够的人在继续使用,就有它被保留的意义存在。至于DSD和PCM到底谁会成为未来格式的霸主?就让音乐制作公司来烦恼吧。