Pues sí, pero ellos sí se identifican, así que no veo problema ahí.
Yo sólo bloquearía a quienes no se identifican, de entrada es más simple.
Si conoces los user-agent de los robots que te indexan entonces ahí tienes una white-list, todos aquellos que no se identifican entran automáticamente al black-list.
Ahora, los que se identifiquen pero que no estén en la white-list tendrás que analizarlos al momento de consumir tu contenido, etc.