マンチェスター大学時代の2007年にF-measureについてまとめた技術メモがいまだに時々論文で参照されているようです。査読を通っていないただのメモなのですが。
http://www.toyota-ti.ac.jp/Lab/Denshi/COIN/people/yutaka.sasaki/F-measure-YS-26Oct07.pdf
F-measureについて、きちんと書いた論文がないので、仕方なく参照されているのでしょう。なお、F-measureのFの意味について、最近David Lewisが良く調べるとvan Rijsbergenの博士論文にFが1-Eの形で定義されていたようです。(私自身は未確認)
(http://metaoptimize.com/qa/questions/1088/f1-score-name-origin より引用)
Yes, it was a bizarre lucky break! I was on the MUC program committee, and there was pressure for a single measure of how effective a system was. I knew of the E-measure from Van Rijsbergen's textbook on Information Retrieval, so thought of that.
However, lower values of E are better, and that just wouldn't do for a government-funded evaluation. I took a quick look in the book, and mistakenly interpreted another equation as being a definition of F as 1-E. I said great, we'll call 1-E the "F-measure". Later I discovered my mistake, but it was too late. Still later, I was reading Van Rijsbergen's dissertation, and saw that he had used E and F in the same relationship, but that hadn't made it into his textbook. Whew.
It's a somewhat unfortunate name, since there's an F-test and F-distribution in statistics that has nothing to do with the F-measure. But I guess that's inevitable with only 26 letters. :-)
Devid Lewis (Oct 20 '10 at 17:51)
少し前にドイツの大学の博士課程の学生から、F-measureの式におけるprecisionとrecallのバランスについてメールで質問を受けた。van Rijsbergenの定義ではβがこのバランスを決めている。Fβ=1のときprecisionとrecallには1/2:1/2の重みを置いて、Fβ=2だとRecallに2倍の重みを置くことになる。F-measureを説明した論文にも、よくこのように書いてある。しかし、残念ながらこの定義は直感とは合致しない。加重調和平均の重みαに戻して考えるとβが√2のとき重みが1/3対2/3になり、直感的に2倍の重みを置いていることになる。