가설을 검증하려면 변수를 측정해야 한다. 변수(variable)란 변할 수 있는, 또는 상황에 따라 다를 수 있는 것이다. 사람마다 다른 어떤 것(이를테면 IQ, 습성)일 수도 있고 장소에 따라 다르거나(이를테면 실업률) 시간에 따라 다른 것일 수도 있다(이를테면 기분, 수익, 암세포 수 등). 대부분의 가설은 두 가지 변수로 표현할 수 있는데, 하나는 제시된(가설이 제시하는) 원인이고 다른 하나는 제시된 결과이다.
_9쪽
그림 5.2에 축제 사흘간의 히스토그램들(자가진단 과제에서 그린)과 그에 해당하는 Q-Q 그림들이 나와 있다. 우선 주목할 것은 첫날(day 1)의 자료가 좀 더 건강해 보인다는 것이다. 이는 §4.7.에서 잘못 입력한 자료점을 제거한 덕분이다. 히스토그램을 보면 실제로 분포가 정규분포에 아주 가깝다. 분포가 거의 대칭이고, 너무 뾰족하거나 평평하지도 않다. 이는 바람직하다. Q-Q 그림에도 이 점이 반영되어 있는데, 자료점들이 ‘이상적인’ 대각선에 아주 가까이 찍혀 있다.
_218쪽
로와 그 동료들은 병원 응급실에 와서 배가 너무 아프다고 호소한 50세 남성의 사례를 보고했다. 진단을 해 보니 복막염인 것 같아서 환자의 복부를 X선으로 찍어 보았다. 그런데 X선 사진에는 이상하게도 장어의 형상이 있었다. 알고 보니 환자가 뱀장어를 항문을 통해서 대장에 집어넣었는데, 그 사실을 말하지 않은 것이었다. 논문에 직접 인용되어 있지는 않지만, 의사가 물어보았을 때 아마 “아 뭐, 배가 아픈 것과 별 상관이 없을 것 같아서 이야기하지는 않았는데요. 오늘 아침에 뱀장어를 그 구멍으로 집어넣긴 했어요”라고 대답했을 것 같다. 어쨌거나, 논문에 따르면 환자가 ‘변비를 해결하려고’ 뱀장어를 항문에 넣었다고 인정했다.
_412쪽
우선 drink를 보자. 이 예제에는 두 가지 알코올 음료(맥주와 포도주)와 무알코올 음료(생수)가 있다. 영국 정부는 십대의 폭음 파티의 방지에 관심이 있으므로, 당연히 생수를 대조군으로 두어야 마땅하다. 따라서, 첫 대비는 알코올 음료(맥주와 포도주)를 생수(대조군)와 비교해야 한다. 둘째 대비에서는 맥주와 포도주를 비교한다. 즉, 대비 1은 “알코올 음료와 무알코올 음료의 효과가 서로 다른가?”를 묻는 것에 해당하고, 대비 2는 “알코올 음료의 종류에 따라 효과가 서로 다른가?”를 묻는 것에 해당한다. 이러한 대비들을 위한 가중치들이 표 13.5에 나와 있다.
_742쪽
원래의 자료에서 각 행은 개별 개체를 대표하고 각 열은 개별 범주형변수를 대표한다. 지금 예에서는 각 행은 각 고양이의 점수들이고 각 열은 Training 변수와 Dance 변수이다. Training 변수가 가질 수 있는 값은 두 가지로, 하나는 먹이를 보상으로 사용했음을 나타내고 다른 하나는 애정표현을 보상으로 사용했음을 나타낸다. Dance 변수가 가질 수 있는 값은 Yes 또는 No인데, 전자는 해당 고양이가 춤을 추었다는(즉, 라인댄스를 배웠다는) 뜻이고 후자는 그렇지 못했다는 뜻이다. 측정한 고양이는 총 200마리이므로, 자료는 총 200행이다. cats.dat 파일에 그러한 자료가 들어 있다. 작업 디렉터리가 적절히 설정된(§3.4.4 참고) 상태에서 다음 명령을 실행하면 이 자료가 R에 적재된다.
_1029쪽
--- 본문 중에서