澳门新葡亰1495

  • 没有推荐文章
  • 2019年4月份领导学习材料2
    【字体:
    2019年4月份领导学习材料2
    发布时间:2019-6-26    浏览次数:169

    如何评估学习经验的有效性

    评估程序

    评估的程序始于教育计划的目标。因为评估的目的就是要看这些教育目标在多大程度上被实现了,因此有必要采用一些评估程序,以找到每种主要教育目标所隐含的每种行为的证据。比如,如果一项目标是要获得关于当代社会问题的重要知识,那么评估就有必要指出学生获得了哪些知识。如果另外一个目标,是使学生形成分析社会问题的方法,并评估己提出的解决方案,那么评估程序就有必要为我们提供一些关于学生分析社会问题并评估己提出的解决方案的技能的证据。这就意味着,我们用来作为制定学习经验基础的二维分析,也可以成为制定评估程序的基础。因此,这些对教育目标的二维分析可以作为一组评估的具体项目。分析中的每一项“行为标题”都表明了:我们应该评估哪类行为,以了解这类行为在多大程度上得到了发展;而每一项“内容标题”也表明了应该被抽样调查的与行为评估有关的内容。因此,如果教育目标是要培养学生关于社会问题的知识,那么二维分析表明,必须依照行为来对知识进行评估,而内容标题也指出了哪些领域的知识应该被抽样,以对这个领域内的学生所获得的知识进行令人满意的评估。相应地,对“培养学生对于文学的兴趣”这个目标,就需要从行为方面评估对学生兴趣的培养,而内容标题也指明了期望培养哪些领域的兴趣,以及需要在哪些领域抽样以考察这样的兴趣是否已形成。这样,教育目标的二维分析便成为课程评估的指南。

    当然,我们假设这些“行为目标”已经被课程编制者们清晰地界定了。它们应该被清晰地界定,从而为学习经验的挑选和规划提供具体的指导。如果它们还没有被清晰地界定,为了进行评估,我们绝对有必要清晰地界定它们,因为除非一个人对教育目标所隐含的行为有着清晰的概念,否则他不可能了解学生的哪类行为是我们应该寻求的,也就不能了解教育目标实现的程度。这就意味着,评估的过程可以迫使那些在之前对教育目标不甚清楚的人们,去进一步澄清他们的教育目标。因此,对教育目标下定义,是评估的-项重要步骤。

    评估程序的下-步,是明确那些会给学生机会表现教育目标中隐含行为的情境。我们用来判断学生是否已习得了某种行为的唯一办法,就是给他展示这种行为的机会。这就意味着,我们必须找到一些情境,它们不仅使行为的表现成为可能,而且会实际鼓励或者引起这种行为。然后我们就能够观察教育目标实际在何种程度上得以实现。在一些情况下,我们很容易看到种种情境,它们提供机会让学生表现出期望中的各类行为。我们习惯于通过提问的方式激发学生表达他们的观点,因此就有可能在问题情境中激发学生的反应,这种反应包括处理文字材料的知识和能力。但是当我们考虑所有期望的目标时,我们会发现并非所有情境都是这种类型的。如果我们要考察孩子们是如何发展出个人一社会适应性的,我们必须使用那些能够给孩子们机会对其他孩子做出反应的情境。这可能意味着,要在托儿所里,在孩子们一起工作和游戏时,寻找到有关个人——社会适应性的证据。这可能也意味着,我们应该从孩子们能够自由选择活动的情境中寻找与兴趣相关的证据。只有在这种情况下,学生们才可以自由地表达他们的兴趣。如果我们想要获得有关学生的口头表达能力的证据,就必须考察可能引发口头表达的那些情境。原理是足够简单的,即任何评估情境都应该是给学生机会去施展我们试图评估的相关行为的情境。虽然原理很简单,但是在寻找这种情境——足够可控,同时又允许教师或其他评估者接近学生,以了解学生正在形成的行为的情境——的过程中,仍然出现了很多问题。一旦有一些情境很难把握,那么评估专家的一项任务,就是试图找到其他更简单的情境,这种情境的结果必须与当情境被用来直接引发被评估的行为时获得的结果高度相关。

    只有在教育目标已经被确定并得到了清楚的界定,而且已列出给予学生机会表现期望中的行为的情境之后,才有可能考察现有的评估工具,以了解它们能在何种程度上服务于期望的评估目标。除非我们已经确定和定义了教育计划的目标,同时也确定了提供机会使行为得以表现的情境,否则我们不可能只是看看某项测试,然后决定它是否可以被用来评估某一教育计划。当这些步骤都完成之后,我们便可以检验某些测试,看看它们能在多大程度上代表我们将要评估的目标,以及这些测试能在多大程度上使用可以直接引发要被评估的行为的情境,或者使用与这些情境相联系的情境。很多情况下,人们在还没有在头脑中完成前面的步骤,并将其作为做出明智选择的基础时,就直接去看测试目录或抽样测试,然后从中进行挑选。他们的选择仅仅是因为A测试是在物理学里使用范围最广的测试,或者B测试在艺术学里被普遍认可,再或者C测试是由数学界的著名专家编制的,但这不足以说明这些测试就是用以获得教育计划中要实现的目标的证据的合适手段。很有必要依据将要实现的教育目标来检查每一项被提出的评估工具,以判断它是否使用了有可能引发教育目标所期望的行为的情境。

    当我们用可行的方法检查现有的评估工具时,课程编制者们很可能会发现:用某些现有的工具来评估某些教育目标是非常令人满意的;而另一些现有的工具在经过了某些修正之后,对其他的教育目标而言是很合适的;最后,还存在一些教育目标,我们找不到对它们而言很合适的现有的评估手段。对最后这类教育目标而言,可能有必要设计或发明一些方法,以获得关于学生是否实现了教育目标的证据。如果我们的目的是要得到一个高度精确的工具,那么评估工具的编制将是一项非常困难的工作,但是如果要编制一个不那么精确的评估工具,那我们能做的事情还是很多的,我们可以用更加简单的方式收集与各种教育目标相关的证据。

    如果有必要为一个特定的目标编制一个评估工具的话,那么下一步就是实际地试验一些情境,这些情境是被提出来给学生机会表现期望中的行为的。这些试验提供了一个机会,以观察这些情境是否能成为适当获得证据的办法。因此,如果我们期望通过某个情境给学生一个展示他们分析问题的能力的机会,那么这种情境看起来可能是这样的:向学生展示大量书面形式的问题,然后要求他们对其进行分析。这类情境可以在学生身上实际地试验一下,以了解通过这类情境获得的答案在多大程度上,能为检验学生分析问题的能力提供一个合适的基础。或者,一个很有可能为学生表明他们的兴趣提供机会的情境,就是给学生提供一个列出了很多活动的问卷,让他们在自己感兴趣的活动上做标记,也在自己不感兴趣的活动上做记号。如果这种情境可能是用来为学生提供机会展示兴趣的,那么就应该用试验的方式来应用这种情境,以了解它令人满意的程度。在将可能的评估工具发展成为令人满意的使用形式时,这是一个有用的步骤。

    在决定了用以获得有关学生行为证据的某些情境之后,接下来就有必要设计一种手段,用以获得有关学生在测试情境下行为的记录。在书面考试中,学生会通过书写生成自己的记录,因此,获得关于学生行为的记录就不是一个难题。但是在另一种情境下,比如让幼儿园的孩子们有机会一起游戏和工作的情境,可能是一个很好的提供有关个人——社会适应性证据的情境,但是,如果我们要有机会在学生的反应发生之后评估这种反应,那就有必要获得有关学生在这种情境下的反应的记录。这种记录可能包括一个观察者对学生反应所做的详细描述;也可能意味着要使用录音或者录像的方式;还可能意味着观察者要使用一个核对单来核对经常出现的某种类型的行为;或者它还可能包括其他用以获得有关学生反应的令人满意的记录手段。这是在每个测试情境中都必须考虑的一个步骤,这样才能保证这种情境不只会引发期望的行为,还能使我们获得事后可以评估的记录。

    编制评估工具的下一个步骤,是决定使用哪些名词和单位来总结和评估已获得行为的记录。对行为的评估方法,当然应该与目标本身的意义相一致。比如,如果教育目标是培养阅读兴趣,具体定义为培养更加广泛和成熟的兴趣,那么就有必要决定用以对儿童阅读的记录做出概括的单位,以表明阅读的广泛度和成熟度。广泛度可以用数字来表示,这个数字度量了儿童在一年中所阅读的材料的不同类别。因此,如果一个孩子只阅读了“荒蛮西部”的故事和一些侦探小说,那么他阅读的书单只能被分为两个类别,而他阅读的广泛度就只能用“2”这个数字来表示。与之相对比,如果一个男孩的阅读记录可以被划分为4个类别,比如冒险类、浪漫类、心理类和社会学类,那么他的阅读材料可以被归为更广泛的类别,这一事实可以用“4”这个数字对比“2”来表示。相应地,如果可以按不同的成熟度来区分不同的阅读水平,那么就有可能按照阅读记录的平均成熟度来概括记录,因此也为阅读兴趣的成熟方面提供了一种度量方式。之所以选择这个事例,是因为这与那些阅卷评分的人通常所看待的问题不同,然而,从本质上说所有的评估都包含这一问题,即决定要进行评估的行为方面的特征,以及在测量和概括这些特征时应采用的单位。在阅读兴趣的例子中,我们使用了广泛度和成熟度这两个特征,这样,总结的方法就提供了一个有关广泛度和成熟度的等级。

    在概括典型的客观型测试时,我们会遇到同样的问题。假设要对知识进行测量,那么我们将要面对的问题是:是按照学生能够正确记忆的样本中不同项目的数量来概括知识; 还是对这些项目进行分类,以指明哪些主题学生已经记得很好而哪些又记忆得不够好;或者是否还有其他方法可以对知识目标做出最令人满意的概括或评估,以服务于评估的目的呢?每一种人类行为,当它作为一项教育目标而被评估时,都必须用一些术语来概括和测量它,而决定使用哪些术语,也是编制和使用评估工具的一个重要问题。

    显然,在大多数情况下,对人类行为的评估应该是一个分析性的过程,而不是一个单一的分数总结。只是通过使用一些评估工具,知道约翰·史密斯得了97分,玛丽·琼斯得了64分,并不是一种对改进课程极有帮助的恰当总结。更加有用的是做出表明了优点和弱点的总结,至少按照每一种目标做出的总结,在很多情况下,最好是可以为每种目标打出几个分数、做出几个总结,以更准确地描述这类特定目标的实现情况。因此,即使学生在发展成熟的阅读兴趣方面进步较小,知道学生是否在培养广泛的阅读兴趣方面有了进步,也是很有用的。尽管学生的阅读兴趣可能不像期望的那样令人满意,知道他们在解读技能方面有了进步,也是有用的。这种表明了特定优点和弱点的分析性总结,在使用评估的结果以改进课程的过程中是很有价值的。这就意味着,必须在实际进行评分和评级之前制订出评估计划。在制定评估项目时,关于这些方面的决定是很有必要的。

    编制评估工具的下一步,是确定这些评级和总结的方法在多大程度上是客观的。假定两个不同的人都有能力,当他们有机会为同样的行为记录打分或者做总结时,他们给出的分数或者总结会达到多大程度的相似。如果二者给出的分数和总结有明显的差异,那么很明显这就是一种主观的评估,需要在客观性上进行改进,以使它成为更令人满意的评估人类行为的手段。有时候我们可以通过澄清打分的细则来做出改进,有时候是通过获得关于行为的更精确的记录来做出改进。至于介绍各种提炼和改进评估工具客观性的技术,这已经超出了目前讨论的范围。但是,我们有必要认识到这一问题,并且试图在必要的时候获得更加客观的程序。当这些可能的评估工具已被试验过后,一个人不能只检查打分和总结的客观性,也应该检查包含在工具中的行为样本的适当性。总的来说,要获得的行为样本的大小,取决于行为的可变性。如果我们希望获得有关学生社会态度的证据,而这些态度就每个个体来说都是高度一致的,那么我们只需要挑选很少的样本,便能够获得关于每个学生的态度的相当可靠的说明。但是,如果每个学生的态度存在着很大的可变性,例如,如果他在某些方面非常自私,在其他方面又非常友善,那么就需要抽取与其行为有关的更大样本,才能对他的友善或自私态度的程度做出可信的判断。因此,就某个目标而言,我们不可能事先就清楚地确定应该收集多大的样本,才能获得-个可靠的样本,以得出有关个人情况的结论。在尝试了某种评估工具之后,我们有可能找到工具中各项之间的可变性,并估量这个样本的信度如何,以及更大或更小的样本是否会令人满意。这就是一项测试或者其他评估手段的信度问题。虽然描述信度测评的方法已超出了这里讨论的范围,但重要的是,要认识到信度意味着什么,并意识到如果一个测试的内容太少,以致不能提供一个合适的样本;或者某一组观察的时间跨度不够长,以致无法获得学生行为的合适样本,那就有必要扩大样本的范围直到得出可靠的结论。

    既然我们已经用两个术语描述了一项评估工具的两个重要标准,即客观性和信度,那么就有必要来强调评估工具的第三个也是最重要的标准,即效度。效度可以运用于评估手段,也表明了一项评估工具实际提供所期望的行为证据的程度。可以通过以下两种方法之一来确保效度。一种方法是直接获得将要测量的行为的样本,比如直接观察孩子们选择的食物并以此为基础推断他们的饮食习惯,或获得一份实际的阅读记录以说明学生的阅读习惯,或者向学生提出需要分析的问题,以获得关于他们分析问题能力的证据。这也被称作“表面效度”——评估工具从表面上看是有效的,因为它直接取样于要评估的行为。另一种确认效度的方法,是将一种特定评估工具与通过直接有效的测量得到的结果联系起来。如果某一阅读问卷的结果与从一个实际的阅读记录中获得的结果高度相关,那么这一阅读问卷便有可能被用来有效地表明学生阅读的内容。这一问卷之所以有效,是因为通过实验方法显示出来的结果,与直接的证据高度相关。在某些情况下,编制测试的人发现,通过直接方法获得证据,或花费巨大,或太困难,或不现实。于是,他们尝试各种可能的方法,以获得更简单和更易处理的证据。然而,除非能表明这些方法与通过直接具有表面有效性的工具获得的证据高度相关,否则这些方法都不应该用作有效的评估手段。

    这些步骤说明了进行一项评估和编制评估工具所要遵循的程序。万一发现评估工具的客观性或信度太小,那就有必要改进它。同样有必要根据初步试验的意见来进行其他修改,比如消除使用说明中模糊不清的部分,放弃工具中不能获得学生显著反应的部分。因此,总的来说,其结果是持续地改进评估工具,以获得有关学生实现特定教育目标的程度的证据。

    采用这些工具,是为了用来获得概括的或者评估的结果。这些结果的形式可能是分数、描述或者二者皆有,这取决于哪种形式能够最令人满意地对行为做出总结,哪种形式合适地表现了所期望达成的目标。

     

     

     

    版权所有:澳门新葡亰1495 网站制作维护:韩贵平