不懂WIN,但是SAN和CLUSTER接触一些.随便说说, 谨供参考 -judy_an(绿腰) @佛州华人论坛:佛州枫下论坛 The Rolia Forum of Florida

不懂WIN,但是SAN和CLUSTER接触一些.随便说说, 谨供参考

judy_an(绿腰)

1. 查CLUSTER 的配置, 不知道你用谁家的产品,一般说来,有个CONFIG OPTION, 控制你的CLUSTER PRIMARY NODE 和FAILOVER NODE间的切换. 如果你设定A是PROMARY NODE而且在A NODE 起来以后,CLUSTER 的PACKGAE 就自动切过来的OPTION 是YES,
就可能出现这种情况.
2. 查你用的STROAGE是不是要安装CLIENT端DRIVER,是不是UPGRADE到最新的版本了,是否支持FAILOVER
3. 查你的SAN ZONING CONFIG,看A.B 的HBA PORT 和STORAGE 是不是在一个ZONING.
4.至于你那个DISK FAILURE, 会不会是因为PACKAGE切换的时候,在CNTL SCRIPT里少个一个DEACTIVE B的共享盘的动作,造成系统报错?

(#2928713@0)
Last Updated: 2006-4-25
This post has been archived. It cannot be replied.

多高算高, 吹得高的算吗? -001isbetter(001-is-better); 2006-4-13 (#2902748@0)

比我高就算高。现在整个2 node带一个shared scsi storage 的clustering, storage 总是不稳定，动不动disk failure, 不知道是硬件还是软件问题。 -holdon(again); 2006-4-13 (#2902753@0)

SCSI card or HBA issue: check driver for the controller ... (software), and don't use one controller for both internal and external storages ... (hardware). -001isbetter(001-is-better); 2006-4-13 (#2902775@0)

多谢多谢。我的配置是这样的： -holdon(again); 2006-4-13 {1182} (#2902800@0)
本文发表在 rolia.net 枫下论坛两台机器硬件配置完全一样，windows 系统装在内主版集成的scsi controller上，另加一块LSI Megaraid 320-2x raid controller,只用了external channel 0, channel 1 闲置；320-2x的 firmware 升级到了最新。storage 是 Adaptec SC4100, 有一个shared bus 接口；sc4100提供内部termination; 两块320-2x 通过一个tri-link connecter 连到shared bus上， channel 0 都是terminater enable.

SCSI ID 配置：

node A 320-2x channel 0: 7
node B 320-2x channel 0: 6

SC4100 :15
disks : 2,3,4,5,8,9,10,11,12,13

10个disk建一个raid5,做quorum Z盘.

单独启动任一节点，都可以正常读写Z:
clustering 也装好了。
问题是：如果先启动节点A, 然后B,工作正常；启动后cluster也可以在节点A,B间切换。
但是如果先启动B，工作正常;再启动A, A可以通过scsi controller 检测，但是进入windows 系统时，B上的320-2x 会突然滴滴叫（好像也不是每次都叫，3次里有两次吧），cluster 会自动转到A(因为B的320-2x已经连不上storage了 ) 这时Z还是online(连在A),但是检查raid,会发现有一个disk failure.(盘肯定是好的，来回换过。）通过rebuild可以修复，就是时间太长。

我感觉似乎和scsi id有关，因为B的id是6，如果运行正常后再加一个更高优先级7的设备，似乎就容易出问题。另一个可能是termination有问题, 不过很多设备不好找，象y cable, active terminator什么的。更多精彩文章及讨论，请光临枫下论坛 rolia.net

不懂WIN,但是SAN和CLUSTER接触一些.随便说说, 谨供参考 -judy_an(绿腰); 2006-4-25 {522} (#2928713@0)
1. 查CLUSTER 的配置, 不知道你用谁家的产品,一般说来,有个CONFIG OPTION, 控制你的CLUSTER PRIMARY NODE 和FAILOVER NODE间的切换. 如果你设定A是PROMARY NODE而且在A NODE 起来以后,CLUSTER 的PACKGAE 就自动切过来的OPTION 是YES,
就可能出现这种情况.
2. 查你用的STROAGE是不是要安装CLIENT端DRIVER,是不是UPGRADE到最新的版本了,是否支持FAILOVER
3. 查你的SAN ZONING CONFIG,看A.B 的HBA PORT 和STORAGE 是不是在一个ZONING.
4.至于你那个DISK FAILURE, 会不会是因为PACKAGE切换的时候,在CNTL SCRIPT里少个一个DEACTIVE B的共享盘的动作,造成系统报错?

一看就是搞高端SAN支持出身的三板斧(别把孩子们吓着).1.No FC and HBA involve for his case 2. NO SAN Switch invlove so NO zoning required.3.in MSCS they call prefered cluster failover Node for your "primary node"concern -chinatiger(能曾金刚的生神); 2006-4-26 (#2928794@0)

哈哈,我这两天叫他们闹的头大,给VMWARE做盘,一会儿看见了,一会儿看不见了,一会儿又看见了, 我觉得WINTEL和那些7788的东西好复杂啊,还是UNIX简单. -judy_an(绿腰); 2006-4-26 (#2928820@0)

片面了不是,做完VMWare ESX上面跑的大多还是WinTel Guest OS.我今天可以睡到十一点你今天还上不上班......? -chinatiger(能曾金刚的生神); 2006-4-26 (#2928841@0)

我休假到5月初. 问个问题,IBM FASTT STORAGE 连VMWARE用过么? 为什么STORAGE老是warning:"Lun is not in prefered path", I am using IBM X445, VMware, 32 Wintel imagine runing on the top. -judy_an(绿腰); 2006-4-26 (#2928994@0)

搞掂请我吃饭啊...... -chinatiger(能曾金刚的生神); 2006-4-26 {1549} (#2930171@0)
本文发表在 rolia.net 枫下论坛There are a few log/warning messages you can look for in the
/var/log/vmkernel* and /var/log/vmkwarning* files to verify that ESX is
seeing the expected FAStT settings.

At ESX system boot, there should be a log message of:

"The IBM FAStT device on ##### is not configured in Auto-Volume Transfer mode.
ESX will handle path failover to passive controllers as necessary."

this indicates that the AVT and DualActive modes are set as expected.

If there are warning messages of:
"The IBM FAStT device on ####is configured in Auto-Volume Transfer mode.
There may be path contention if more than one ESX system is configured to
access the disk array."

or
"The IBM FAStT device on #### is not configured in Dual Active
controller mode. ESX cannot support path failover without the disk array in
this mode."

then one of the settings is incorrect.

In addition, check if ESX has performed a path failover.
The log messages:
"Manual switchover to path #### begins."
and
"Manual switchover to ##### completed successfully."

indicate that a path failover has occurred.

ESX attempts to set the Preferred Controller on the FAStT whenever it
performs a path failover.

Check for the warning messages:
"Non-disruptive switch failed. Trying forced SP failover for FAStT device ####",
or
"Disruptive switch failed for SP failover for FAStT device ####. Assuming the
path switch worked anyway"

these warnings indicates a failure when trying to set the Preferred Controller.更多精彩文章及讨论，请光临枫下论坛 rolia.net

谢谢，我们这个是小case啦，scsi enclosure, 没有zoning. SCSI HBA没有port,只有ID. disk failure 是重启机器时出现的。给LSI的人发了错误码，他们发现了同样问题，说用dell的enclosure没问题，adaptec 的就有问题。 -holdon(again); 2006-4-26 (#2928964@0)

我应该还可以,布属过不下20几个了在EMC;MSA;EVA都做过.......建议先在VS2005上练好了再下手,,,,,,高稳定的SAN很重要否则MSCS反而会给你增加维护的复杂性和成本.DR的步骤有变化,建议AP(AA非常不建议),,,,,,, -chinatiger(能曾金刚的生神); 2006-4-13 {55} (#2904826@0)

E12将取消此功能AA; E12增加了本地/远程log shipping很Cool

果然高手，全是缩写，一半都不知道什么意思 :-) -holdon(again); 2006-4-14 {533} (#2904912@0)
MSA是指HP的StorageWorks MSA SAN吗？EMC,EVA我就不知道什么意思了。现在看这个adaptec sc4100估计不灵了，不过fiber的太贵，客户就想对付一个scsi 的。DR不知道什么意思？准备做个AP的SQL Server clustering, 您觉得怎么划分硬盘比较合适？

假设现在10个硬盘，quorum drive 据说只要500M,但是microsoft 建议quorum 一定要和data drive 分开，不能用partition; 有人说transaction也要和 data 分开。我现在的想法是

Quorum, 2个硬盘，raid 1, 36G,
transaction, 2个硬盘，raid 1,36G,
data, 6个硬盘，raid5, 180G.

不知道transaction够不够用。quorum很浪费阿。

做个RAID10(RAID5写不好而且不能双盘容错)180G的大LUN然后分1G 给Q; 1G给MSDTC; 30G 给Log(每天备份时Truncate一下应该够) 150G给Data. 小环境真不建议用Cluster........(仅供参考) -chinatiger(能曾金刚的生神); 2006-4-15 (#2906868@0)

http://groups.google.ca/group/microsoft.public.windows.server.clustering 上很多人都强烈建议不使用分区装Q阿。不过只有10个盘，确实怎么分都难受。 -holdon(again); 2006-4-15 (#2907372@0)

180G RAW RAID10 group and assign LUNs to Windows ( show up as a disk in Windows) then you can create partition on it. -chinatiger(能曾金刚的生神); 2006-4-21 (#2918958@0)

最后按客户的意见分了. 2 disk raid1 for quorum, 8 disk raid 50 for data. SQL Server 2000装上了，sp3打上了，不过打sp4的时候总是出错：Setup failed to perform required operations on the cluster nodes.　 -holdon(again); 2006-4-22 {65} (#2921551@0)
找到一些相关文章，可能是resource name有特殊字符，下星期再去试试。

你把MSDTC跟windows cluster group放一起了?不建议 -chinatiger(能曾金刚的生神); 2006-4-23 (#2922710@0)

SQL Server 单独在一个group. 所有SQL Server相关的资源都在SQL Server Group里。 -holdon(again); 2006-4-23 (#2923077@0)

MSDTC最好放在单独的cluster group里 -chinatiger(能曾金刚的生神); 2006-4-26 (#2928799@0)

资源有限阿。 -holdon(again); 2006-4-26 (#2928974@0)

就做一个RAID5, 把顺序读写和index读的东西都放在一起，性能能好的了吗？你应用跑起来的时候，磁盘吞吐量可能跟单个盘差不了多少吧。I assume there are more than 20 concurrent user connections. -647i(步行万里); 2006-4-23 (#2923223@0)

不过这是一招制敌的办法。管理特简单；等应用跑起来，谁都别想改ＲＡＩＤ的配置。可以跑到硬件退休。 -647i(步行万里); 2006-4-23 (#2923229@0)

EMC 不会不知道吧，全世界最大存储公司啊。 -little.tiger(我是老虎我怕谁); 2006-4-15 (#2907099@0)

Mysql都有人不知道，不知道EMC有什么了不起。 -holdon(again); 2006-4-15 (#2907368@0)
现在知道了。不知道女秘书的信真的假的。 -holdon(again); 2006-4-22 (#2921568@0)

要不你写一封支持表扬女秘书的ｅｍａｉｌ，也ＣＣ　china-emc-all 看看有没有人给你回信。 -647i(步行万里); 2006-4-23 {48} (#2923240@0)
在ｅｍａｉｌ里在付个深日快乐的．ｓｗｆ　附件哈。

已经被开掉了。 http://www.backchina.com/news/2006-04-26/88372.html -holdon(again); 2006-4-25 (#2928458@0)

eva是hp的san -pasu(InTheSky); 2006-4-15 (#2907105@0)

@Florida

不懂WIN,但是SAN和CLUSTER接触一些.随便说说, 谨供参考

Replies, comments and Discussions:

More Topics