Как сделать T-тест в Excel

С помощью t-критерия Стьюдента можно определить, имеются ли статистически значимые различия между наборами данных. T-тест в Excel — это T-тест с двумя образцами, сравнивающий средние значения двух образцов. В этой статье объясняется, что означает статистическая значимость, и показано, как выполнить T-тест в Excel.

Инструкции в этой статье относятся к Excel 2019, 2016, 2013, 2010, 2007; Excel для Office 365 и Excel Online.

Что такое статистическая значимость?

Представьте, что вы хотите знать, какая из двух костей даст лучший результат. Вы бросаете первый кубик и получаете 2; вы бросаете второй кубик и получаете 6. Это говорит вам, что второй кубик обычно дает более высокие оценки? Если вы ответили «Конечно, нет», то у вас уже есть некоторое понимание статистической значимости. Вы понимаете, что разница произошла из-за случайного изменения в счете, каждый раз, когда бросок кубика. Поскольку образец был очень маленьким (только один рулон), он не показал ничего существенного.

Теперь представьте, что вы бросаете каждый кубик 6 раз:

  • Первые кубики бросают 3, 6, 6, 4, 3, 3; Среднее = 4,17
  • Вторые кубики бросают 5, 6, 2, 5, 2, 4; Среднее = 4,00

Означает ли это, что первый кубик дает больше очков, чем второй? Возможно нет. Небольшая выборка с относительно небольшой разницей между средними значениями делает вероятным, что разница все же обусловлена ​​случайными отклонениями. Поскольку мы увеличиваем количество бросков костей, становится трудно дать здравый смысл ответить на вопрос — является ли разница между оценками результатом случайного отклонения или один из них на самом деле с большей вероятностью дает более высокие оценки, чем другой?

Значимость — это вероятность того, что наблюдаемая разница между образцами обусловлена ​​случайными колебаниями. Значение часто называют альфа-уровнем или просто «α». Уровень достоверности, или просто «с», — это вероятность того, что разница между выборками не обусловлена ​​случайным изменением; другими словами, есть разница между основными группами населения. Следовательно: c = 1 — α

Мы можем установить «α» на любом желаемом уровне, чтобы чувствовать уверенность в том, что мы доказали свою значимость. Очень часто используется α = 5% (95% достоверности), но если мы хотим быть действительно уверенными в том, что какие-либо различия не вызваны случайными колебаниями, мы могли бы применить более высокий уровень достоверности, используя α = 1% или даже α = 0,1 %.

Различные статистические тесты используются для расчета значимости в разных ситуациях. T-тесты используются, чтобы определить, отличаются ли средние значения двух групп населения, и F-тесты используются, чтобы определить, отличаются ли различия.

Зачем проверять статистическую значимость?

Сравнивая разные вещи, мы должны использовать тестирование значимости, чтобы определить, лучше ли одно, чем другое. Это относится ко многим полям, например:

  • В бизнесе люди должны сравнивать разные продукты и методы маркетинга.
  • В спорте люди должны сравнивать различное оборудование, техники и конкурентов.
  • В разработке люди должны сравнивать различные проекты и настройки параметров.

Если вы хотите проверить, работает ли что-то лучше, чем что-либо, в любой области вам необходимо проверить статистическую значимость.

Что такое T-распределение студента?

T-распределение Стьюдента аналогично нормальному (или гауссовскому) распределению. Это оба распределения в форме колокола, большинство результатов которых близко к среднему, но некоторые редкие события довольно далеки от среднего значения в обоих направлениях, которые называются хвостами распределения.

Точная форма распределения Стьюдента зависит от размера выборки. Для образцов более 30 это очень похоже на нормальное распределение. По мере того как размер выборки уменьшается, хвосты становятся больше, что отражает возросшую неопределенность, возникающую из-за выводов, основанных на небольшой выборке.

Как сделать T-тест в Excel

Прежде чем вы сможете применить T-тест, чтобы определить, есть ли статистически значимая разница между средними значениями двух образцов, вы должны сначала выполнить F-тест. Это связано с тем, что для T-теста выполняются разные вычисления в зависимости от того, есть ли существенная разница между отклонениями.

Вам понадобится Надстройка Toolpak для анализа позволил выполнить этот анализ.

Проверка и загрузка надстройки Toolpak для анализа

Чтобы проверить и активировать пакет инструментов анализа, выполните следующие действия.


  1. Выберите ФАЙЛ вкладка> выбрать Параметры.


  2. В диалоговом окне «Параметры» выберите Add-Ins из вкладок на левой стороне.


  3. В нижней части окна выберите Управление выпадающее меню, затем выберите Надстройки Excel. Выбрать Идти.

    Параметры Excel для активации надстройки пакета анализа


  4. Убедитесь, что флажок рядом с Пакет инструментов анализа проверено, затем выберите Хорошо.


  5. Пакет инструментов анализа теперь активен, и вы готовы применить F-тесты и T-тесты.


Выполнение F-теста и T-теста в Excel


  1. Введите два набора данных в электронную таблицу. В этом случае мы рассматриваем продажи двух продуктов в течение недели. Среднесуточное значение продаж для каждого продукта также рассчитывается вместе со стандартным отклонением.

    Введите два образца данных перед выполнением t-теста в Excel


  2. Выберите Данные вкладка> Анализ данных

    Анализ данных находится на вкладке данных в Excel


  3. Выбрать F-тест с двумя образцами для отклонений из списка, затем выберите Хорошо.

    Выберите F-Test из анализа данных Excel

    F-тест очень чувствителен к ненормальности. Поэтому может быть безопаснее использовать тест Уэлча, но это сложнее в Excel.


  4. Выберите диапазон переменной 1 и диапазон переменной 2; установить альфа (0,05 дает 95% уверенности); выберите ячейку для верхнего левого угла вывода, учитывая, что это заполнит 3 столбца и 10 строк. Выбрать Хорошо.

    Параметры F-Test в Excel

    Для диапазона переменных 1 необходимо выбрать выборку с наибольшим стандартным отклонением (или дисперсией).


  5. Просмотрите результаты F-теста, чтобы определить, есть ли существенная разница между отклонениями. Результаты дают три важных значения:

    • FСоотношение между дисперсиями.
    • Р (Р<=f) one-tail: Вероятность того, что переменная 1 на самом деле не имеет большей дисперсии, чем переменная 2. Если она больше, чем альфа, которая обычно равна 0,05, то нет существенной разницы между дисперсиями.
    • F Критический односторонний: Значение F, которое требуется, чтобы дать P (F<=f)=α. If this value is greater than F, this also indicates there's no significant difference between the variances

    Результаты Excel F-Test

    Р (Р<=f) can also be calculated using the FDIST function with F and the degrees of freedom for each sample as its inputs. Degrees of freedom is simply the number of observations in a sample minus one.


  6. Теперь, когда вы знаете, есть ли разница между отклонениями, вы можете выбрать соответствующий T-критерий. Выберите Данные вкладка> Анализ данных, затем выберите t-тест: две выборки, предполагающие равные отклонения или же t-тест: две выборки, предполагающие неравномерное отклонение.

    Выберите T-тест в Excel


  7. Независимо от того, какой вариант вы выбрали на предыдущем шаге, вам будет представлено одно и то же диалоговое окно для ввода подробностей анализа. Для начала выберите диапазоны, содержащие образцы для Переменная 1 Диапазон а также Диапазон переменных 2.

    Параметры Excel T-Test


  8. Предполагая, что вы хотите проверить отсутствие различий между средствами, установите Гипотетическая средняя разница в ноль.


  9. Установите уровень значимости Альфа (0,05 дает 95% достоверности) и выберите ячейку для верхнего левого угла выходных данных, учитывая, что это заполнит 3 столбца и 14 строк. Выбрать Хорошо.


  10. Просмотрите результаты, чтобы решить, есть ли существенная разница между средствами.

    Результаты Excel T-Test


Так же, как с F-тестом, если значение р, в данном случае P (T<=t), is greater than alpha, then there's no significant difference. However, in this case there are two p-values given, one for a one-tail test and the other for a two-tail test. In this case, use the two-tail value since either variable having a greater mean would be a significant difference.

Ссылка на основную публикацию