移动APP可用性测试：实验室测试和现场测试的比较（上）

作者：媛媛大王发布时间：[ 2016/10/9 17:13:32 ] 推荐标签：移动测试 App测试可用性测试

　　可用性测试的重点
　　可用性测试是在移动APP在设计、投入市场后用来评估可用性的一种常用工具。可用性测试实施时一般是使用发声思考，即用户在一个测试环境中被给予任务，并鼓励他们在尝试完成任务时出声思考。这能够帮助可用性测试的主试即实验者知道用户界面（APP设计）是如何帮助用户自然地思考和执行操作，强调对于产品的特色和改善方法的认知。

　　如何去定义一个可用性问题修改的紧迫性？
　　可用性问题的严重等级是一个重要的因素。当这个问题阻止用户任务完成时，需要紧急的修复行动了。Dumas和Redish（1993）使用了4个关键等级，至今仍被用户研究员引用的较多：第一个等级为严重的等级，表示严重的问题，第四个等级为表示轻的严重性。Kallio等人（2004）也将问题按严重性进行分类：高（导致任务执行失败），中等（不是那么严重，任务可以完成）和低（小问题）。

　　实验室 VS 现场
　　· 传统的实验室测试
　　传统的可用性测试一般是在可用性测试实验室实施完成，如阿里、网易游戏都有专业的实验室，一般是由一间类似于办公室的区域和一面单向玻璃的可监视房间组成。必须保障实验室环境是一个安静的空间，测试的用户能够全神贯注于任务的执行。
　　· 实验室测试的担忧
　　经常在实验室进行测试的用户研究员都会担心在实验室进行的评估会由于没有模仿用户的使用情境而缺少生态效度。因为在现实的使用场景中，打断、移动、声音和多重任务操作等，这些没有出现在实验室测试中的因素，都可能在现实情景中影响到用户的操作。
　　· 现场测试
　　然而现场的可用性测试是非常罕见的，大部分（70%以上）的移动APP评估是在实验室设备中做的。这可能是因为数据的收集，如出声思考、视频记录或者观察记录，这些在现场做比较困难。
　　幸好由于便携式录像设备在近两年快速发展，使得在现场进行用户测试变得容易些。这些发展允许用户研究员像在实验室那样，可以在现场做一些小测试了；也使得他们能够有意识的去跟踪屏幕上发生的事情，去倾听用户的评论。同时也允许在现场的可用性测试中使用出声思考的方法。尽管发展了合适的工具，现场测试仍然比实验室更加耗时，也可能需要测试的用户和主持人付出更大的努力。
　　· 研究目的
　　敏捷用研在APP快速迭代开发的环境下被提出和倡导，以用户为中心的设计和可用性测试一定要非常高效。敏捷测试需要用户研究员在产品开发时间被严格限制的期间内，发现重大的可用性问题在上线前进行修复。所以，可用性测试的焦点绝不是发现每个可能的细小问题。

　　如何使测试的结果优化，选择正确的评估方法尤为重要。对可用性测试者来说，经过科学验证的合适的测试方法是非常宝贵的。在我们的研究中，主要的目的是了解清楚，当评估移动APP可用性时，现场测试是否有风险，或者实验室环境是否可以模拟出足够的生态效度。
　　对比研究
　　为了解清楚可用性测试中环境的影响，我们实施了一个对比研究，即同时在现场和实验室两种环境下开展可用性测试，并且保证其他因素（执行的任务，发声思考的方法等）都是一样的，只有测试的环境不同。
　　两种测试环境分别是：
　　实验室：一般用户研究员进行可用性测试的地方，预算较低；
　　现场：一个用户会真正使用移动APP的地方。

　　研究问题和假设
　　（1）问题：在实验室和现场会发现同样数量的问题和现象吗？
　　假设：如果进行对比的两组测试都是在足够多的用户中进行，那么现场测试发现的问题数量会更多。
　　（2）问题：在两个测试环境中发现的问题和现象会是一样的吗？如果不是，有什么差异？
　　假设：两种环境中的问题将会是不同的。例如常下载时间在现场可能更能被容忍。
　　（3）问题：如果发现的问题有不同，那么是因为实验室或现场发生问题的严重性不同吗？
　　假设：现场的问题会因为在任务执行过程中被打断而更加严重。
　　（4）问题：任务执行时间会不同吗？由此我们可以从测试中推断出什么？
　　假设：任务执行时间在现场将会更长。
　　（5）问题：环境会影响测试用户的执行吗？
　　假设：现场测试的任务在执行过程中将会有更多的被打断机会，而打断行为的发生次数会影响用户操作。
　　（6）问题：当评估移动APP的可用性时，是实验室更适合还是现场测试更合适？
　　假设：当评估移动APP的可用性时，现场测试将会更适合，因为情境影响使用和操作。