Por lo de las 500 urls como limite, supongo que estas usando
http://www.xml-sitemaps.com/
Ya 500 me parece excesivo, lo que tenes que hacer es crear un archivo robots.txt en la raiz del sitio para que filtre la indexación
Código Apache:
Ver originalUser-agent: *
Disallow: /imagenes/ # El buscador no indexa imagenes
Disallow: /tmp/ # otra carpeta
Disallow: /privado.html # pagina individual
En este caso el comodin * deshabilita cualquier motor de busqueda o agente de usuario
Si querés hacerlo específico para alguno tenes que señalarlo
Código Apache:
Ver originalUser-agent: Googlebot
Disallow: /imagenes/ # El buscador no indexa imagenes
Disallow: /tmp/ # otra carpeta
Disallow: /privado.html # pagina individual
En este caso solo afectaría a Google
Una lista de algunos de los inexadores más conocidos y su identificador la podés encontrar en
http://www.robotstxt.org/db.html
Saludos